O'Reilly、Cloudera 主办
Make Data Work
2016年8月3-4日:培训
2016年8月4-6日:会议
北京,中国

Alluxio帮助去哪儿网酒店数据业务最高提速300x

13:50–14:30 2016年8月06日
Spark及更多新发展
地点: 多功能厅5B+C(Function Room 5B+C)

必要预备知识

有Spark编程经验,对Spark的生态环境有一定的了解。

描述

第一段 (Qunar酒店数据业务的简介):

Qunar酒店数据部门驱动了公司酒店业务的数据化决策和数据化运营工作;具体工作包括基于hive的离线数据仓库,基于Storm/Spark Streaming的实时数据仓库,以及基于Spark,通过机器学习驱动的智能定价系统。通过使用Alluxio,我们的实时仓库系统效率得到了很大提升,我们的模型训练效率也有显著提升。

第二段 (Qunar酒店数据利用Alluxio加速Spark Streaming):

我们利用Alluxio提供的分布式缓存机制,配合分层存储机制,将Spark Streaming运行过程中的数据,如block,checkpoint,计算结果等数据,存储到内存、SSD两种存储资源中,并利用Alluxio提供的缓存策略,保证热数据存储在更快的存储(内存)中,同时计算结果写入Alluxio并同步给underfs(HDFS),减少整个mircobatch的迭代时间,通过Spark Streaming on Alluxio,我们不但在降低了数据在不同的数据中心的加载延时,更得到了最高300x的数据提速,极大的缩短了数据计算/验证的时间。

第三段 (Qunar酒店数据利用Alluxio打通Batch/Streaming间的数据共享):

在Spark/Zeppelin on Alluxio的帮助下,Qunar酒店数据组构建了一套低延时的基于机器学习的酒店定价系统。我们通过Zeppelin完成模型的构建和修正工作,利用Spark on Alluxio驱动整个Qunar的酒店房间报价的智能化,通过Batch模式大批量计算报价及策略信息,并将结果写入Alluxio并同步给HDFS,这些数据既可以由Hive直接读取,又可以通过Alluxio的Key-value接口对外提供更快速的访问。同时,Spark Streaming读取这些训练结果并快速的反馈到更高层次的应用系统中。

Photo of Xueyan Li

Xueyan Li

Qunar

北京趣拿软件科技有限公司平台事业部数据平台研发工程师。毕业于黑龙江大学软件工程专业。现主要负责资源管理系统Mesos和布分式内存管理系统Alluxio的持续集成开发,为各业务线的数据方面基础公共服务支持。主要涉及ELK日志ETL平台,Spark + Flink批处理系统和流式处理系统, Zeppelin交互式处理等系统的发布与监控。

Photo of 徐凯

徐凯

去哪儿网

去哪儿网大住宿数据部高级工程师,2008年毕业于北京邮电大学。目前负责大住宿数据部的数据系统架构设计、用户画像、模型定价系统的设计与开发.

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

来自全球Strata+Hadoop 会议的照片。

Stay Connected Image 1

北京

Stay Connected Image 3

新加坡

Stay Connected Image 2

伦敦

阅读关于大数据的最新理念。

ORB Data Site