O'Reilly、Cloudera 主办
Make Data Work
2016年8月3-4日:培训
2016年8月4-6日:会议
北京,中国

Apache Beam, 一种定义可移植的流式及批量式数据处理的新方式

13:50–14:30 2016年8月05日
数据创新
地点: 多功能厅2(Function Room 2)

必要预备知识

观众应熟悉批量式及流式数据处理的常用方式及方法。理想的观众应具有Spark及Flink的实践经验。

描述

请想象一下,如果每次升级了服务器后都要重新学习一个新的编程框架并且重写所有的应用程序,那将是一件听起来多么疯狂的事情。但是对于数据流水线的开发者来说,这并不稀奇。因为数据流水线的开发经常利用引擎(如Apache Spark或Apache Flink)特有的API、语义及功能,在升级流水线或是改用新的数据处理框架的时候,我们经常不得不花时间更新、重写代码。更糟糕的是,为某个数据处理框架撰写的代码往往反映了引擎的内部工作方式,而不是数据处理任务本身。
Apache Beam (incubating) 的目标是解决以上提到的问题:可移植性、可维护性和抽象化。演讲者将向您展示基于多年研究成果开发的Apache Beam是如何把流式数据处理和批量数据处理统一在一个引擎无关的模型中的。您可以只撰写数据流水线一次(有多种语言的SDK可供选择),就可以使用到强劲的无序流式数据处理语义,并在多种引擎和多种平台(在您自己的数据中心里,或是在云端)上执行。

Photo of 周云庆

周云庆

Google

周云庆,Google工程师,2011年上海交通大学毕业,曾就职于百度及阿里巴巴,参与了凤巢检索系统后端开发以及流式数据处理系统的开发。目前在Google参与Cloud Dataflow后端服务的开发工作。

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

来自全球Strata+Hadoop 会议的照片。

Stay Connected Image 1

北京

Stay Connected Image 3

新加坡

Stay Connected Image 2

伦敦

阅读关于大数据的最新理念。

ORB Data Site