O'Reilly、Cloudera 主办
Make Data Work
2017年7月12-13日:培训
2017年7月13-15日:会议
北京,中国

Hadoop内核&发展 (Hadoop internals & development)

Add to your personal schedule
13:30–17:00 Thursday, 2017-07-13
地点: 多功能厅5B(Function Room 5B) 观众水平 (Level): Intermediate
Ted Malaska (Capital One)
平均得分:: *****
(5.00, 1 次得分)
Ted Malaska walks you through building a fraud-detection system, using an end-to-end case study to provide a concrete example of how to architect and implement real-time systems via Apache Hadoop components like Kafka, HBase, Impala, and Spark. 了解更多信息.
Add to your personal schedule
11:15–11:55 Friday, 2017-07-14
地点: 多功能厅2(Function Room 2) 观众水平 (Level): Beginner
Andrew Wang (Cloudera), Daniel Templeton (Cloudera)
Apache Hadoop 3.0 has made steady progress toward a planned release this year. Andrew Wang and Daniel Templeton offer an overview of new features, including HDFS erasure coding, YARN Timeline Service v2, and MapReduce task-level optimization, and discuss current release management status and community testing efforts dedicated to making Hadoop 3.0 the best Hadoop major release yet. 了解更多信息.
Add to your personal schedule
14:00–14:40 Friday, 2017-07-14
地点: 多功能厅6A+B(Function Room 6A+B) 观众水平 (Level): Advanced
Yu Li (Alibaba), Ramkrishna Vasudevan (Intel)
平均得分:: ***..
(3.00, 1 次得分)
Yu Li explains how Alibaba met the challenge of tens of millions requests per second to its Alibaba-Search HBase cluster on 2016 Singles' Day. With read-path off-heaping, Alibaba improved the throughput by 30% and achieved a predicable latency. 了解更多信息.
Add to your personal schedule
16:20–17:00 Friday, 2017-07-14
地点: 多功能厅6A+B(Function Room 6A+B) 观众水平 (Level): 中级 (Intermediate)
余根茂 (阿里云), Haifeng Chen (Intel)
Hadoop社区很早就支持公有云上的对象存储,比如AWS S3和Azure Storge。最近发布的Apache Hadoop 3.0 (alpha)版本中增加了更多的云存储服务支持,比如Azure Data Lake和阿里云OSS。这些云存储都提供了Hadoop兼容的文件系统,用户可以把他们当成另一个HDFS使用。但是对象存储和HDFS在实现原理上有很多的不同,所以即使两者有类似的文件系统接口,很多API的行为完全不同。 本议题以阿里云OSS的实践出发,介绍阿里云OSS FileSystem实现进入Apache Hadoop历程。同时会介绍对象存储在文件上传、下载、删除和移动上和传统文件系统的区别,从性能和成本上评估HDFS和OSS文件系统的优劣。最后会结合对象存储的特性,给出一些优化方案,可以提升Hive或Spark等开源访问对象存储的性能。 了解更多信息.
Add to your personal schedule
14:00–14:40 Saturday, 2017-07-15
地点: 多功能厅2(Function Room 2) 观众水平 (Level): 中级 (Intermediate)
Biao Chen (Cloudera)
多年来Hadoop技术无法进入核心业务系统,其中无成熟稳定的异地多数据中心方案是其中重要原因之一。由于灾备等原因,存储重要数据的HBase集群通常要求跨数据中心进行备份。国内银行业监管单位更是提出了异地多中心的硬性要求。而现在的HBase多为单数据中心部署,目前HBase提供的replica,快照拷贝或export的方式,皆不能满足监管和异地灾备要求。在本session将分享现有多中心部署要求下HBase所遇到的问题、解决办法。未来HBase将增加增量备份功能,其提供的增量备份方案,避免了现有技术对全表数据的扫描,大大提高了备份性能,同时又提供了repica不具备的一致性。在本session中也将详细描述此功能对于多数据方案的重要性、使用介绍以及内部原理刨析。 了解更多信息.
Add to your personal schedule
16:20–17:00 Saturday, 2017-07-15
地点: 多功能厅2(Function Room 2) 观众水平 (Level): 中级 (Intermediate)
Andrew Wang (Cloudera), 郑锴 (Intel)
Hadoop3.0 引入了纠删码技术。在常见配置下,纠删码相对于传统数据3备份模式可以降低50%的存储成本,同时提高数据的可靠性。在本次演讲中,我们首先会简短的介绍HDFS纠删码技术, 然后深入了解在Hadoop 3.0 GA 前我们为保证纠删码功能稳定性做的工作,以及分享Hadoop生态系统中重要成员Spark, Hive,Impala, Kylin等等在HDFS 纠删码上的性能表现。最后,我们会给出在生产环境中部署使用纠删码技术的一些考虑和建议。 了解更多信息.

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

 

Stay Connected Image 1
Stay Connected Image 3
Stay Connected Image 2

阅读关于大数据的最新理念。

ORB Data Site