O'Reilly、Cloudera 主办
Make Data Work
2016年8月3-4日:培训
2016年8月4-6日:会议
北京,中国
 
报告厅(Auditorium)
加入您的日程安排
13:50 金融反欺诈中,社交网络算法有用吗? Ting Wang (宜人贷), Jike Chong (YiRenDai/CreditEase)
加入您的日程安排
16:20 Twitter实时计算平台 Maosong Fu (Twitter)
紫金大厅A(Grand Hall A)
加入您的日程安排
紫金大厅A(Grand Hall A)
08:45 周六欢迎致辞 Jason (Jinquan) Dai (Intel), Ben Lorica (O'Reilly Media), Doug Cutting (Cloudera)
加入您的日程安排
08:50 Big data, big value Mike Olson (Cloudera)
加入您的日程安排
09:00 基于大数据的人工智能应用 周靖人 (Jingren Zhou) (Alibaba)
加入您的日程安排
09:15 大数据分析,不再是工程师的禁脔! 韩卿 (Luke Han) (Kyligence)
加入您的日程安排
09:25 从大数据到大价值的道路 赵一鸿 (Eric Zhao) (京东集团技术副总裁)
加入您的日程安排
09:40 数据如何驱动增长 张溪梦 (Simon Zhang) (GrowingIO)
加入您的日程安排
09:50 Better data, better finance 方以涵 (Yihan Fang) (宜人贷)
加入您的日程安排
10:10 结束致辞
加入您的日程安排
紫金大厅A(Grand Hall A)
10:45 通告及介绍
加入您的日程安排
10:50 Spark 2.0及其下一步发展 Reynold Xin (Databricks)
加入您的日程安排
11:05 小米大数据和黑科技 崔宝秋 (小米)
加入您的日程安排
11:20 互联网+制造:在物联和数据时代的创新和引领 赵峰 (Feng Zhao) (海尔家电产业集团)
加入您的日程安排
11:40 结束致辞
加入您的日程安排
11:55 小米数据平台的实践 崔宝秋 (小米)
加入您的日程安排
13:50 滴滴出行实时计算系统架构及实践 Yi Ai (滴滴出行 (Didi Chuxing))
加入您的日程安排
16:20 大学习时代:应对大数据和大模型的挑战 hucheng zhou (Microsoft Research)
紫金大厅B(Grand Hall B)
加入您的日程安排
11:55 YARN集群上的分布式深度学习 Pengcheng He (Microsoft)
加入您的日程安排
15:30 Spark和YARN:最好一起工作 Jerry Shao (Hortonworks), Jeff Zhang (Hortonworks)
加入您的日程安排
16:20 HDFS erasure coding: 一半的成本,更快的速度 Zhe Zhang (LinkedIn), 郑锴 (Intel)
多功能厅2(Function Room 2)
加入您的日程安排
15:30 工业大数据系统及其应用实践 王晨 (昆仑智汇数据科技(北京)有限公司)
加入您的日程安排
16:20 基于Druid和Drill的OLAP引擎 杨克特 (阿里巴巴), (Shaoxuan Wang) 王绍翾 (阿里巴巴)
多功能厅5B+C(Function Room 5B+C)
加入您的日程安排
11:55 Druid: 助力大规模交互式应用 Fangjin Yang (Imply)
加入您的日程安排
13:50 Alluxio帮助去哪儿网酒店数据业务最高提速300x Xueyan Li (Qunar), 徐凯 (去哪儿网)
加入您的日程安排
15:30 Spark中结构化流计算的深度介绍 Reynold Xin (Databricks), 连城 (Databricks)
加入您的日程安排
16:20 深度学习在Spark平台上进入生产环境 Adam Gibson (Skymind), Shu Wei Goh (Skymind)
多功能厅8(Function Room 8)
加入您的日程安排
11:55 Apache Kylin的Streaming OLAP实现 Yang Li (Kyligence)
加入您的日程安排
15:30 无人机— 海量数据的新领域 方芳 (EHang 亿航), 柯严 (EHang 亿航)
10:15 上午茶歇 | Room: 赞助商区域 (Sponsor Pavilion)
14:30 下午茶歇 | Room: 赞助商区域 (Sponsor Pavilion)
08:00 上午茶服务 | Room: 3楼序厅(3rd Floor Foyer)
加入您的日程安排
12:35 Kyligence赞助午餐 周六午餐时间的行业桌会 | Room: 彩虹厅 (Rainbow Room)
11:55-12:35 (40m) 数据科学与高级分析 机器学习
融合知识图谱的文本异构信息网络构建以及在机器学习中的应用
张铭 (北京大学)
机器学习的过程往往是需要监督的,而无数的互联网用户为维基百科贡献了智力劳动,使得它成为一个质量较高的通用知识框架。关键的挑战在于如何调整和表示wiki的通用知识去适应各个领域,从而更好的辅助机器学习。我们首先介绍通用知识图谱的特定化框架,包含无监督的语义分析模块以及实体-类型消歧的语义过滤模块。特定化之后的通用知识自然地表示为含有多种实体、关系和类型所构成的异构信息网络,然后将异构信息网络中的特定化知识应用于机器学习模型中。我们以文本聚类、文本相似度计算为应用实例,使用Freebase和YAGO2这两个知识库作为通用知识的来源,在两个文本的基准数据集(20 newsgroups 和RCV1)上的实验结果表明使用通用知识作为间接的监督,能够显著的提高现有最好的聚类算法和相似度计算方法。 相关工作已经发布于KDD、AAAI、IJCAI、ICDM、SDM等顶级学术会议。
13:50-14:30 (40m) 数据科学与高级分析 机器学习
金融反欺诈中,社交网络算法有用吗?
Ting Wang (宜人贷), Jike Chong (YiRenDai/CreditEase)
在大规模互联网金融服务的实现过程中,为了效率和可扩展性,用户在没有面对面授信的过程中就可以得到几千至几十万元的资金或服务。互联网金融公司是怎样用大数据和机器学习来降低欺诈风险,弥补欺诈漏洞的呢?本次演讲将带你探索社交网络算法在金融反欺诈方面应用机会,深入讨论多维度、多维复杂关系、多类型节点等数据特性所带来的挑战,以及一些实际案例。
15:30-16:10 (40m) Hadoop 应用案例
用动态自服务的队列和容量管理来帮助用户
Min Shen (LinkedIn)
领英的Hadoop集群为多个内部业务部门提供服务,并保证一定的业务质量等级(SLA)。另一方面,集群的管理员希望能维持集群总体上的高使用率和效率。这个讲话会介绍一些我们对容量调度器(Capacity Scheduler)使用的最佳实践经验和对它的扩展。这些经验帮助我们更好地应对复杂的集群资源管理任务。
16:20-17:00 (40m) 物联网与实时计算
Twitter实时计算平台
Maosong Fu (Twitter)
Twitter每秒会产生亿级的事件数据。稳定、实时、高效地处理这些数据成为一个巨大的挑战。为此,Twitter设计部署了新一代的实时计算框架,Heron,使得工程师们可以简单地基于Heron开发分布式实时计算应用。Heron在2014年底已经完全取代Storm成为了Twitter新一代的实时计算框架,被广泛地适用于各种场景,如实时数据挖掘,实时信息监控......
08:45-08:50 (5m)
周六欢迎致辞
Jason (Jinquan) Dai (Intel), Ben Lorica (O'Reilly Media), Doug Cutting (Cloudera)
大会日程主席 Jason Dai、Ben Lorica 与 Doug Cutting致辞开始第二天主题演讲。
08:50-09:00 (10m)
Big data, big value
Mike Olson (Cloudera)
Mike Olson discusses the impact of Hadoop on top-level executive concerns, including driving customer insights and lowering business risks, and the role China can play in driving the impact further.
09:00-09:15 (15m)
基于大数据的人工智能应用
周靖人 (Jingren Zhou) (Alibaba)
随着互联网的高速发展,数据量爆发式地增长,数据维度越来越丰富,这些都为机器学习、人工智能的发展和应用提供了良好的土壤。同时,人工智能的成果也反过来让数据产生更大的价值,成为真正的“智能数据”,两者相辅相成,相互促进,让各种数据应用越来越智能化,人性化。人工智能服务已经频繁地出现在各种大数据应用中,例如:搜索推荐、语音识别、视频识别和聊天机器人等等。人工智能技术不仅包含各种机器学习算法以及对数据的合理利用方法,也离不开全面的工程技术支持。我们将介绍阿里巴巴基于大数据的机器学习算法平台和各种人工智能应用,展示人工智能和大数据的融合所带来的技术发展,及其对业务边界的拓展。
09:15-09:25 (10m) 赞助商赞助
大数据分析,不再是工程师的禁脔!
韩卿 (Luke Han) (Kyligence)
大数据分析技术发展的如火如荼,但细究之下,更多的使用者还是工程师等技术人员,与企业中使用数据就行分析及决策的分析人员、业务用户等尚有一些距离。在重新学习新技术,新语言与继续发挥现有知识、经验及技术的争论中,以标准SQL为准的分析能力最终成为业界趋势及各大厂商、技术发展的重点。本次主题演讲将介绍Apache Kylin如何重新定义Hadoop之上的OLAP及数据仓库,使得分析人员、业务人员如何在不需要了解技术底层的前提下快速获得大数据分析能力,并充分发挥他们现有的分析能力和经验等。
09:25-09:40 (15m)
从大数据到大价值的道路
赵一鸿 (Eric Zhao) (京东集团技术副总裁)
大数据经过近十几年的发展,已经变成很多行业和政府的标配技术。大数据未来的巨大的挑战是如何让大数据产生巨大的价值和转化成生产力。这个演讲分享京东在这方面的工作、创新和思考。
09:40-09:50 (10m)
数据如何驱动增长
张溪梦 (Simon Zhang) (GrowingIO)
当流量红利渐渐消退,增长需要重新定义,数据驱动用户和收入增长正成为新的核心;用数据驱动决策,而不是靠拍脑袋,为什么要成为互联网公司必备的增长新能力;数据分析究竟有哪些魅力?如何帮助企业创造巨大的商业价值,如何令公司全员做到数据决策;硅谷最前沿的方法论、工具、技术,最前沿的产品理念有哪些?GrowingIO 创始人张溪梦将分享如何将数据应用到业务,并产生商业价值。
09:50-10:10 (20m)
Better data, better finance
方以涵 (Yihan Fang) (宜人贷)
敬请期待更多细节。
10:10-10:15 (5m)
结束致辞
结束致辞
10:45-10:50 (5m)
通告及介绍
会议日程主席Ben Lorica、Jason Dai及Doug Cutting欢迎大家回到会议室。
10:50-11:05 (15m)
Spark 2.0及其下一步发展
Reynold Xin (Databricks)
敬请期待更多细节。
11:05-11:20 (15m)
小米大数据和黑科技
崔宝秋 (小米)
小米不仅是一家手机公司、智能硬件公司,也是一家软件和互联网服务的公司,小米努力打造新国货,为用户提供了一系列优质的产品。小米在为用户服务的过程中,提供了多种大数据的服务,如云照片、云联系人、全局搜索、视频服务、应用分发、新闻资讯等,积累了超过100 PB数据,所以,小米也是一家真正的大数据公司。小米重视前沿技术研发,成立了探索实验室,在VR/AR和机器人领域研发黑科技。为了发挥大数据的价值,探索实验室会向AI和深度学习领域开拓,基于小米大数据和广阔的产品线,开发出领先的人工智能新科技和新产品。
11:20-11:40 (20m)
互联网+制造:在物联和数据时代的创新和引领
赵峰 (Feng Zhao) (海尔家电产业集团)
在传统制造业的互联网转型中,物联网和大数据扮演着核心的角色: 降低成本,提高效率,增强用户体验,更重要的是彻底改变了企业与用户的关系,实现从销售硬件到提供服务的转型。
11:40-11:45 (5m)
结束致辞
结束致辞
11:55-12:35 (40m) 企业应用
小米数据平台的实践
崔宝秋 (小米)
在这个演讲中, 我们将介绍在小米这样一个数据量急速增长的创业公司里,如何基于Hadoop生态系统和其他开源软件打造小米的数据平台,并在此基础上不断演进以满足小米各个业务的数据需求。我们还将介绍一下小米在大数据相关开源软件上的参与,在信息安全和隐私保护上的一些实践经验,以及我们目前在数据驱动上面临的一些挑战。
13:50-14:30 (40m) 物联网与实时计算
滴滴出行实时计算系统架构及实践
Yi Ai (滴滴出行 (Didi Chuxing))
滴滴出行作为全球最大的移动出行平台,每天收集和需要分析处理的数据量非常大。这些数据形式多样:既包括存储于数据库中的业务数据,也包括各种API请求所记录的文本日志。此外,更大的挑战在于业务上需要我们实时的分析处理如此大规模的数据。从数据生成到可被分析查询,系统延迟在秒级。我们选用Druid/Samza/Kafka/Spark/Hadoop等开源技术栈,开发了符合Lambda architecture的OLAP系统。本次演讲我们以滴滴大数据实时监控系统为例,介绍滴滴实时计算系统架构所面临的挑战及相应解决方案。
15:30-16:10 (40m) 数据科学与高级分析 人工智能, 机器学习
针对大规模机器/深度学习的分布式参数服务器
Zhichao Li (Intel)
在大规模的机器学习和深度学习中,模型参数的维度往往非常高,比如几千万,几亿以上的维度,这对内存、计算/网络传输是很大的挑战。本议题讲述参数服务器如何高效地解决这一问题,并结合Spark讲述一些实际中的使用。
16:20-17:00 (40m) Spark及更多新发展 机器学习
大学习时代:应对大数据和大模型的挑战
hucheng zhou (Microsoft Research)
人们已经不满足于从大量数据中做一些简单的查询和挖掘,而是需要从大量数据中自动学习能够进行准确的预测、排序以及推荐的模型。相应的,从技术上来看,针对大数据分析的类MapReduce计算系统已经发展成熟,而设计和实现针对大规模机器学习的系统却面临大数据和大模型带来的挑战。针对这种“大学习”系统的相关研究也方兴未艾,是当前工业界和学术界都很关心和投入的一个方向。我们致力于在Apache Spark上设计和实现一个通用的、高性能的、以及可扩展的分布式机器学习平台Zen。这个平台,我们重点实现当前工业界运用最广泛的模型,包括适用于广告点击率预测的logistic regression,主题模型LDA,搜索排序模型LambdaMART (GBDT), 以及推荐模型FM。这里,我很荣幸和大家分享我们过去一年中的取得的成果和经验教训。
11:55-12:35 (40m) 数据科学与高级分析 机器学习
YARN集群上的分布式深度学习
Pengcheng He (Microsoft)
训练速度一直是采用深度学习的一个最大的障碍,造成我们公司内的许多团队都没有足够的计算资源来对大数据使用深度神经网络进行训练。我们开发了运行在YARN集群上的分布式深度结构化语义模型(DSSM)训练系统,可以在使用超过100个CPU的集群上获得超过单个K40 GPU的速度。在这个演讲里我们很高兴来分享我们的一些经验。
13:50-14:30 (40m) 企业应用
构建基于Apache Kylin的大数据分析平台
史少锋 (Kyligence)
Apache Kylin已经在众多的on-premises环境中得以大量使用,包括eBay,百度,网易,京东,美团,唯品会,中国移动等以解决他们的大数据挑战。有越来越多的人活跃于社区并期望了解他们如何使用和部署Apache Kylin,为什么选择Kylin以及用Kylin来解决什么样的业务问题,与其他系统的差别,对比及性能比较等。在这个演讲中,来自Kyligence的技术合伙人兼资深架构师史少峰,将使用一些实际的案例来解答这些疑问,并介绍Apache Kylin之后的路线图及新特性等。
15:30-16:10 (40m) Spark及更多新发展
Spark和YARN:最好一起工作
Jerry Shao (Hortonworks), Jeff Zhang (Hortonworks)
现在Spark已经获得了广泛的使用。由于它框架设计上的灵活性,Spark可以运行在不同的集群管理器模式下:Standalone、Mesos和YARN。在本讲话里中我们会聚焦于运行在YARN上的Spark,讲解如何以及为何要在YARN上运行Spark。我们还会介绍一些最佳实践的经验,并介绍这个领域的未来。
16:20-17:00 (40m) Hadoop 内核与开发
HDFS erasure coding: 一半的成本,更快的速度
Zhe Zhang (LinkedIn), 郑锴 (Intel)
HDFS-EC通过引入纠错码的方式大幅降低了HDFS的存储开销,目前项目的第一阶段已经进入Trunk,并将作为主要的新功能随Hadoop 3.0发布。随着项目的进展,我们也对HDFS-EC的性能进行了全面的测试。本次演讲的主题是展示并分析最新的测试数据,帮助用户了解HDFS-EC的性能特性。
11:55-12:35 (40m) Spark及更多新发展
基于Mesos DCOS的大数据云计算平台架构
Biao Chen (Cloudera)
Mesos推出了的DCOS作为企业级的资源管理框架能让数据中心资源分配更易于使用,同时让在外部运行企业应用更可靠。底层使用Mesos构件云计算平台,而将Hadoop平台作为应用之一,运行于DCOS中既满足企业对于数据中心集群弹性分配的云计算需求,同时又使得数据中心的大数据能力得到更好的保障。是未来很有希望的技术发展路线之一。本议题将解析Hadoop on DCOS的架构以及在实际生产应用中的实践。
13:50-14:30 (40m) 企业应用
基于Kafka以及Spark Streaming的高扩展性数据质量保证平台
Tony Xing (Microsoft)
微软的ASG (应用与服务集团)包含Bing, Office, Skype。每天产生多达5PB以上数据,如何构建一个高扩展性的data audit服务来保证这样量级的数据完整性和实时性非常具有挑战性。 在这个议题里,我将介绍微软ASG大数据团队如何利用Kafka,Spark以及Elasticsearch来解决这个问题。
15:30-16:10 (40m) 物联网与实时计算 机器学习
工业大数据系统及其应用实践
王晨 (昆仑智汇数据科技(北京)有限公司)
以智能化为特征的高端制造已成为新工业革命国际竞争的制高点。麦肯锡认为制造业是美国首个数据量超EB级的领域。“中国制造2025技术路线图”更将工业大数据平台作为我国工业软件领域唯一重点突破产品。本议题将着重介绍在工业这个特定领域中,如何构建以处理机器设备产生的大量时序数据为主的大数据系统,其中的关键技术突破,以及如何通过大数据平台以及大数据分析技术对工业智能制造与服务转型予以有力支撑。
16:20-17:00 (40m) 数据创新
基于Druid和Drill的OLAP引擎
杨克特 (阿里巴巴), (Shaoxuan Wang) 王绍翾 (阿里巴巴)
Druid是一个基于列存储的分布式OLAP查询系统,支持多维度ad hoc的查询以及具有良好的扩展性。我们将介绍Druid在阿里巴巴的实践以及我们对Druid做出的扩展和改进,以及我们如何将Druid集成进drill,使其具有SQL查询和应对更加复杂的Query的能力。
11:55-12:35 (40m) 数据创新
Druid: 助力大规模交互式应用
Fangjin Yang (Imply)
如Hadoop和Spark这样的集群计算框架,对于处理海量数据并从中发现洞察是非常有帮助的。然而,很长的分析延迟使得这些框架对于交互式应用而言并不是最好的选择。在这个演讲中,我们会介绍如何使用Druid这一专门为分析事件数据的工具来助力(交互式)应用的。
13:50-14:30 (40m) Spark及更多新发展 机器学习
Alluxio帮助去哪儿网酒店数据业务最高提速300x
Xueyan Li (Qunar), 徐凯 (去哪儿网)
Qunar作为国内在线旅游门户网站,拥有丰富的业务数据和UGC数据。为了能够敏锐的发现系统和用户行为变化,我们构建了一套实时数据流处理和反馈系统。由于系统接入的异构数据源数以百计,系统上运行分析方法也是千奇百怪,所以我们搜罗了一揽子功能强大的工具解决各种需求,这其中比较核心的工具有ELK、Spark、Flink、Alluxio(原名Tachyon)、Mesos和Marathon等。其中Alluxio作为一款内存为中心的分布式存储系统,在我们的系统中扮演着数据纽带的作用,简化系统复杂度(技术收敛),降低读写I/O。比如:流数据持久化到设备和UnderFS; Spark Streaming Blk/Checkpoint外部存储; Batch和Streaming的数据共享; Alluxio以其丰富的功能和优异性能,使得我们构建一个高可用,灵活可伸缩实时数据流平台的工作成为了可能。
15:30-16:10 (40m) Spark及更多新发展
Spark中结构化流计算的深度介绍
Reynold Xin (Databricks), 连城 (Databricks)
结构化流计算是Apache Spark的最新成果,旨在帮助用户的流计算的实现更加简单,而无需重新学习一个新的编程模型或新系统。在本主题课程中,我会介绍Spark的结构化流计算对事件时间、失序/延误的数据的支持,它的会话化和它与批次处理系统的集成。我会介绍它的API并展示使用它是如何很简单地实现一个强大的持续流计算应用系统。
16:20-17:00 (40m) Spark及更多新发展 人工智能
深度学习在Spark平台上进入生产环境
Adam Gibson (Skymind), Shu Wei Goh (Skymind)
Adam Gibson和吴书卫会讨论关于企业级深度学习的工作流程和使用商业级开源分布式深度学习Deeplearning4j的生产栈,涵盖了从硬件到产品堆栈的详情。
11:55-12:35 (40m) 赞助商赞助
Apache Kylin的Streaming OLAP实现
Yang Li (Kyligence)
Apache Kylin在利用批处理构建基于Hadoop的OLAP解决方案上已经很成熟,但社区对于流式(Streaming) OLAP的需求越来越多,在经过多个月的开发后,Apache Kylin的Streaming功能趋近完善。本主题将介绍Kylin如何处理流式数据并聚合汇总后最终以标准SQL接口提供给上层应用使用。
13:50-14:30 (40m) 赞助商赞助
如何高效高质低成本构建和管理大数据研发体系?
Lei Zhang (Alibaba)
数据研发经常会遇到这些问题:研发人数较多(超千人),频繁上下线,如何解决开发效率的问题?业务高速发展,数据量爆炸式的增长,如何有效控制存储与计算的线性增长?从数据采集到数据消费的整个链路非常复杂,如何保障整个数据链路的质量与产出时间?大数据建设的标准规范,如何制定并有效的执行?数据浩瀚如烟、纷繁复杂,如何能够迅速的找到自己想要的数据?经过几年的摸索,我们通过onedata研发体系能够比较有效的解决上述问题。One Data定位是:一个指标一个算法,一个维度属性只有一个名字,模型规范化,从算法定义、数据研发到数据服务,可管理追溯从而规避重复建设。
15:30-16:10 (40m) 物联网与实时计算
无人机— 海量数据的新领域
方芳 (EHang 亿航), 柯严 (EHang 亿航)
我们将介绍无人机行业的概况,发展及其他对数据采集方式带来的变革。消费级无人机现在已经可以实现单人的安全操控,数千米航程的覆盖,并可搭载多种相机和传感器。它们能够到达那些过去看来太危险,太遥远或是成本过高的区域。随着数据获取成本的降低,需要被传输、处理、分析和存储的实时数据势必激增。微软Azure和亚马逊AWS这类云服务使我们得以快速建立起可扩展的数据存储库,而毋需担心数据的冗余及可用性等问题。我们将介绍几种应用实例,并阐释大数据平台支持这些应用的必要性。
10:15-10:45 (30m)
上午茶歇
14:30-15:30 (1h)
下午茶歇
08:00-08:45 (45m)
上午茶服务
12:35-13:50 (1h 15m)
周六午餐时间的行业桌会
行业桌会讨论是一种很好的与相似领域或对同一议题感兴趣的人们非正式交流互动的方式

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

来自全球Strata+Hadoop 会议的照片。

Stay Connected Image 1

北京

Stay Connected Image 3

新加坡

Stay Connected Image 2

伦敦

阅读关于大数据的最新理念。

ORB Data Site