——采编自 BeyeNETWORK 对 Talend 市场总监 Yves de Montcheuil 采访。
Talend 不是大数据世界的新手。我们正在使用 Talend Open Studio for Big Data 来把我们所有的大数据功能集中在同一个产品中。
- 我了解了一下大数据世界的信息,听到了不少有关 Hadoop 的内容。Talend Open Studio for Big Data 能为 Hadoop 的用户带来什么好处呢?
Talend Open Studio for Big Data 的目标是把 Hadoop 的部署使用平民化,使人人可以充分享受大数据的好处。按照 Hadoop 的方法,您需要进行非常复杂的设计来从巨大量的数据中提取有价值的东西–提取信息。一般来说,这需要类似一名 MapReduce PhD 的知识。我们通过Talend Open Studio for Big Data 提供的不仅是把 Hadoop 和企业其余的IT stack结合起来 –比如您可能从 Oracle或是Salesforce.com获得数据,并把最后生成的数据放到Teradata或是QlikView中–而且还直接在Hadoop内部 准备、处理数据。不仅仅把Hadoop作为一个储存信息的地方,还发挥了它真正的用途:引擎。 Talend Open Studio for Big Data 是与 Apache Hadoop stack全面结合的产品。可以按照 Apache 许可证使用,因此在许可证层面,它与 Hadoop 产品完全兼容。 Talend Open Studio for Big Data 现在还嵌入到了 Hortonworks 数据平台中,并成为了其明确推荐的集成大数据并将大数据移动转换到Hadoop中的工具。 - Talend扎根于开源,而大数据也是。在我看来您在与并非植根于开源的对手的竞争中应当会拥有一些优势。您同意么?许多企业已经做了很久大数据了,但他们一直使用常规的技术来做。Hadoop改变了这场游戏。它把大数据带给了大众,而这要感谢 Hadoop 的开源本质。- 除了大数据集成之外,是否存在对大数据质量的要求呢?
您需要做的是以处理小型数据或常规数据同样的方法来清洗并扩充数据。我认为今天任何人做商务智能或数据仓储都会非常地理解保证数据质量的要求。我们采取生成Hadoop代码的方法,直接在Hadoop的内部执行数据质量功能(来优化资源的使用)。