O'Reilly、Cloudera 主办
Make Data Work
2017年7月12-13日:培训
2017年7月13-15日:会议
北京,中国
Fangshi Li

Fangshi Li
Software Engineer, LinkedIn

网站

Fangshi Li is a senior software engineer on Linkedin’s Hadoop team. Fangshi built and open-sourced Dr. Elephant. He is currently doing Hive- and Spark-related work. Fangshi holds a degree from Carnegie Mellon.

议题

14:00–14:40 Saturday, 2017-07-15
数据工程和架构 (Data engineering and architecture)
地点: 多功能厅6A+B(Function Room 6A+B) 观众水平 (Level): 中级 (Intermediate)
Fangshi Li (LinkedIn)
Kafka和Hadoop是LinkedIn数据基础设施online和offline部分的核心。Kafka是LinkedIn创造并且开源的,目前集群有超过一千台机器,每天收集并处理14万亿条消息。LinkedIn的Hadoop集群有超过1万台机器和50pb数据,每天处理20万个任务。在本议题中,我将会以一个Hadoop成员的角度讲解linkedin如何搭建Hadoop和Kafka的桥梁,让他们更好的一起工作。内容包括 1)讲解LinkedIn数据架构 dataset从产生到Kafka到Hadoop并且最终呈现给用户(数据分析师)的整个ETL流程 2)讲解我们的一个use case来使用Apache Flume和Kafka收集分析Hadoop集群的数据并且搭建实时分析程序 3)讲解我们最新的工作,提供统一的sql接口让用户可以同时处理Kafka数据流和hdfs的数据 了解更多信息.

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

 

Stay Connected Image 1
Stay Connected Image 3
Stay Connected Image 2

阅读关于大数据的最新理念。

ORB Data Site