O'Reilly、Cloudera 主办
Make Data Work
2016年8月3-4日:培训
2016年8月4-6日:会议
北京,中国

滴滴出行实时计算系统架构及实践

13:50–14:30 2016年8月06日
物联网与实时计算
地点: 紫金大厅A(Grand Hall A)

必要预备知识

观众如果对Druid/Kafka/Samza/Spark/HBase等开源系统有基本的了解或有实时计算系统相关的开发经验,将非常有助于理解演讲的内容。但这并非必需。

描述

滴滴出行作为全球最大的移动出行平台,每天收集和需要分析处理的数据量非常大。这些数据形式多样:既包括存储于数据库中的业务数据,也包括各种API请求所记录的文本日志。此外,更大的挑战在于业务上需要我们实时的分析处理如此大规模的数据。从数据生成到可被分析查询,系统延迟在秒级。我们选用Druid/Samza/Kafka/Spark/Hadoop等开源技术栈,开发了符合Lambda architecture的OLAP系统。本次演讲我们以滴滴大数据实时监控系统为例,介绍滴滴实时计算系统架构所面临的挑战及相应解决方案。

滴滴大数据实时监控系统服务于滴滴各个业务线,对关键业务指标的变化进行实时监控。研发、产品、运营人员可以据此及时了解业务现状,发现系统问题、调整业务决策。

演讲主要包括以下话题:
1. 实时计算的挑战及解决方案:
(1)可扩展性
(2)有状态的实时计算
(3)数据被重复处理
(4)高可用
(5)实时数据流与外部系统或服务关联计算
2. OLAP系统架构选型:KV store与column store 哪种存储更适合OLAP应用?
3. 简要介绍Kafka的特性,阐述为何Kafka是实时计算系统中理想的数据存储方案
4. 详细介绍Druid的架构设计及原理,阐述Druid作为OLAP解决方案的优点
5. 详细介绍Samza的架构设计及原理,阐述如何通过Samza解决实时计算中的各种挑战
6. 介绍Lambda architecture,阐述如何将离线计算和实时计算统一起来,通过离线计算来修正实时计算

Photo of Yi Ai

Yi Ai

滴滴出行 (Didi Chuxing)

滴滴出行大数据部BI系统组负责人。负责滴滴大数据实时计算系统的架构设计及研发。

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

来自全球Strata+Hadoop 会议的照片。

Stay Connected Image 1

北京

Stay Connected Image 3

新加坡

Stay Connected Image 2

伦敦

阅读关于大数据的最新理念。

ORB Data Site