O'Reilly、Cloudera 主办
Make Data Work
2016年8月3-4日:培训
2016年8月4-6日:会议
北京,中国

Strata + Hadoop World 2016 讲师

会有新讲师不断加入。请经常回来查看日程安排的最新变化。

过滤器

搜索讲师

赵一鸿(Eric),威斯康星大学计算机博士 (PhD in computer science from the University of Wisconsin-Madison ),现任京东集团技术副总裁,负责京东集团大数据、搜索与个性化推荐的研发管理工作。加入京东前,赵一鸿先生曾在Yahoo、Nextag等多家美国高科技公司任职,他在Yahoo负责搜索推荐产品系统和算法的研发,在搜索系统、分布式系统、内容识别、推荐系统、数据库系统方面有深入研究和丰富的经验。赵一鸿先生曾在KDD、ACM SIGMOD、ICDE等国际学术顶级刊物上发表多篇论文,因SID(社会兴趣发现系统)获得三项美国专利。

Presentations

从大数据到大价值的道路 主题演讲

大数据经过近十几年的发展,已经变成很多行业和政府的标配技术。大数据未来的巨大的挑战是如何让大数据产生巨大的价值和转化成生产力。这个演讲分享京东在这方面的工作、创新和思考。

赵峰博士是海尔家电产业集团首席技术官和副总裁,负责海尔的超前研发和智慧生活产业。曾担任微软亚洲研究院常务副院长,主要负责物联网、大数据、计算机系统及网络等领域的研发工作。赵博士曾在位于硅谷的Xerox PARC担任首席科学家,创立了该中心的传感器网络研究。赵博士是美国电机电子工程师学会院士(IEEE Fellow),撰写了100多篇技术论文和书籍,并发明了30多项美国专利技术。他在美国麻省理工学院 (MIT) 获得计算机博士学位,曾任教于美国斯坦福和俄亥俄州立大学。

Presentations

互联网+制造:在物联和数据时代的创新和引领 主题演讲

在传统制造业的互联网转型中,物联网和大数据扮演着核心的角色: 降低成本,提高效率,增强用户体验,更重要的是彻底改变了企业与用户的关系,实现从销售硬件到提供服务的转型。

Intel软件工程师, Apache HBase committer。

Presentations

Apache HBase开发者教程 教学辅导课

Apache HBase, Apache Hadoop生态系统中的分布式数据库,是当今最流行的非关系型数据库之一,也被许多世界级的公司所使用,如阿里巴巴,小米,Facebook和Apple,用来存储和分析PB级的数据。 竟成和伟将为您讲述HBase的架构,并详解如何使用HBase提供实时的大数据服务。

周靖人博士现任阿里巴巴集团副总裁,负责阿里云整个大数据计算的技术和业务。周博士带领的团队致力于开发云分布式计算平台、数据分析产品以及各种相关的业务解决方案。此外,周博士还担任阿里巴巴iDST (Institute of Data Science Technology)的主管,致力于开发国际领先的大规模机器学习和语音、自然语言、图像以及视频处理技术。周博士拥有美国哥伦比亚大学的计算机科学博士学位和中国科学技术大学的计算机科学学士学位。

Presentations

基于大数据的人工智能应用 主题演讲

随着互联网的高速发展,数据量爆发式地增长,数据维度越来越丰富,这些都为机器学习、人工智能的发展和应用提供了良好的土壤。同时,人工智能的成果也反过来让数据产生更大的价值,成为真正的“智能数据”,两者相辅相成,相互促进,让各种数据应用越来越智能化,人性化。人工智能服务已经频繁地出现在各种大数据应用中,例如:搜索推荐、语音识别、视频识别和聊天机器人等等。人工智能技术不仅包含各种机器学习算法以及对数据的合理利用方法,也离不开全面的工程技术支持。我们将介绍阿里巴巴基于大数据的机器学习算法平台和各种人工智能应用,展示人工智能和大数据的融合所带来的技术发展,及其对业务边界的拓展。

陆奇博士是微软全球执行副总裁、应用与服务部门负责人。他负责制定微软生产力、通信、搜索及其它信息服务相关产品的远景规划、战略发展及总体方针,并领导包括Microsoft Office、Office 365、SharePoint、Exchange、Yammer、Lync、Skype、必应搜索、必应应用、MSN及广告平台在内的产品研发与相关商业团队运营。在他领导下的微软应用与服务部门,旨在帮助全球用户和机构在享有极具吸引力与愉悦体验的同时,更有效率地达成工作目标。

此前,陆奇博士曾任职微软在线服务事业部总裁,主要负责微软全球的搜索引擎,门户网站与在线广告业务。

在加入微软之前,陆奇博士曾在雅虎担任高层管理岗位十年时间,其中包括:担任雅虎搜索与广告技术事业部执行副总裁,负责雅虎网页搜索和商业化平台的研发工作;担任雅虎公司全球研发副总裁,负责雅虎的在线搜索、电子商务以及地区化商业与产品信息收录系统的研发。

在加入雅虎之前,陆奇博士曾担任IBM 艾曼登(Almaden)研究中心和卡内基·梅隆大学研究员,以及上海复旦大学教师。陆奇博士获得复旦大学计算机科学学士和硕士学位、美国卡耐基梅隆大学计算机科学专业博士学位,并拥有20项美国专利。


As executive vice president of Microsoft’s Applications and Services Group, Qi Lu leads Microsoft’s business across productivity, communications, search, and other information services. He sets the vision, strategy, and overall direction of the Applications and Services group and is responsible for all of the research and development teams across Microsoft Office, Office 365, SharePoint, Exchange, Yammer, Lync, Skype, Bing, Bing Apps, MSN, and the advertising platforms and business group. Until recently, Qi was the president of the Online Services Division, where he led the company’s search, portal, and online advertising efforts.

Prior to joining Microsoft, Qi spent 10 years as a Yahoo senior executive. His roles included serving as the executive vice president of engineering for the company’s Search and Advertising Technology Group, where he oversaw the development of Yahoo’s web search and monetization platforms, and vice president of engineering responsible for the technology development of Yahoo’s search, ecommerce, and local listings of businesses and products. Before joining Yahoo, Qi worked as a research staff member at IBM’s Almaden Research Center and Carnegie Mellon University and was a faculty member at Fudan University in China. He earned his bachelor’s and master’s degrees in computer science from Fudan University and his PhD in computer science from Carnegie Mellon University. He also holds 20 US patents.

Presentations

智能时代 主题演讲

Qi Lu explores data-model intelligence, the Bing Knowledge Graph, the Microsoft Graph, and Cortana SDKs.

硅谷十三年数据分析经历,亲手建立 LinkedIn 百人商务分析和数据科学团队,支撑 LinkedIn 所有与营收相关业务的高速增长。Data Science Central评选其为“世界前十位前沿数据科学家”。2015 年 5 月,创办基于用户行为的新一代数据分析产品 — GrowingIO,无需埋点即可采集全量、实时用户行为数据,帮助产品经理、市场运营、数据分析师、增长黑客提升转化率、优化网站/APP,实现数据驱动增长。GrowingIO 获得《快公司》评选的 2015 年中国最佳创新公司 50 强。

Presentations

数据如何驱动增长 主题演讲

当流量红利渐渐消退,增长需要重新定义,数据驱动用户和收入增长正成为新的核心;用数据驱动决策,而不是靠拍脑袋,为什么要成为互联网公司必备的增长新能力;数据分析究竟有哪些魅力?如何帮助企业创造巨大的商业价值,如何令公司全员做到数据决策;硅谷最前沿的方法论、工具、技术,最前沿的产品理念有哪些?GrowingIO 创始人张溪梦将分享如何将数据应用到业务,并产生商业价值。

方以涵女士是宜人贷首席执行官。方以涵于2011年加入宜信/宜人贷,有超过15年在互联网、大数据和金融服务的工作经验。加入宜人贷之前,方以涵曾担任美国上市公司IAC/Ask.com 副总裁一职,负责全球搜索与问答相关的战略、产品和运营工作。方以涵获美国哥伦比亚大学天文系和电子工程系双硕士学位,本科就读于中国科学技术大学少年班。

宜人贷(NYSE: YRD)是中国领先的在线金融服务平台,由宜信公司2012年推出。宜人贷通过互联网、大数据等科技手段,为中国优质城市白领人群提供高效、便捷、个性化的信用借款咨询服务,并通过”宜人理财“在线平台为投资者提供安全、专业的一站式理财咨询服务。2015年12月18日,宜人贷在美国纽约证券交易所成功上市,成为中国互联网金融海外上市第一股。

Ms. Yihan Fang is the Chief Executive Officer of Yirendai Ltd (NYSE: YRD), a leading online consumer finance marketplace in China connecting investors and individual borrowers. Ms. Fang has over 15 years of experience in product, technology and marketing in internet and financial services. Prior to joining Yirendai, Yihan served as director of marketing products at Nelnet/CUNet in 2011, a leading provider of digital enrollment marketing solutions. Prior to that Yihan worked at IAC/Ask.com for 8 years, as Vice President of Global Search and Answers overseeing strategy and product development of various key search and question/answer products.

Yihan received a Master of Philosophy and a Master of Science in Electrical Engineering and a Master of Arts in Astronomy from Columbia University. She completed her undergraduate study in Special Class for Gifted Young at University of Science and Technology of China.

Presentations

Better data, better finance 主题演讲

敬请期待更多细节。

胡英,模式识别和智能系统的博士, 英特尔软件工具和高性能库技术专家,于2003 年加入英特尔,有着丰富的与全球的企业用户,工程师和研究人员在高性能库在信号处理、 图像处理、数据处理等各类的高性能计算,互联网服务商,大数据应用的合作经验。她的主要研发工作包括并行计算,软件性能优化和数据分析等。

Presentations

借助英特尔高性能库加速机器学习和深度学习 议题

无论是天气预报,还是新药的研发, 我们的世界正越来越多地依靠计算机来解决各种各样的数据和工程问题。这个技术讲座将介绍用于加速机器学习和深度学习的新技术:英特尔高性能软件,主要包括数据分析加速库(Intel DAAL) 和 高性能数学核心库(Intel MKL)。

陈智峰博士是谷歌大脑项目的资深工程师。自2014年以来,他参与设计并实现了被广泛应用于重要谷歌产品的新一代谷歌大脑机器学习开源系统TensorFlow。在加入谷歌大脑之前,陈智峰博士长期从事谷歌的超大规模分布式大数据系统的设计、开发和部署,经历了多次系统升级和扩展,积累了大量的工程实践经验。他参与和主导的系统是搜索引擎、邮件服务和隐私保护等谷歌重要产品和服务不可或缺的关键后台系统。陈智峰博士持有复旦大学计算机科学学士、普林斯顿大学计算机科学硕士和伊利诺伊大学香槟分校计算机科学专业博士学位。

Presentations

TensorFlow: 跨平台,高性能并支持大规模分布式机器学习的开发系统 议题

陈健敏和陈智锋将会给大家介绍TensorFlow,一个跨平台,高效率和支持大规模分布式训练的机器学习开发平台。

智能产品基础架构掠影 主题演讲

谷歌近年来在其多个主打产品中广泛采用了以深度学习为代表的人工智能技术。通过改善网页搜索、视频服务、语音识别、图像识别、地图服务等产品的质量,上亿的全球用户直接或间接地分享了智能技术突破所带来的进步。人工智能还会继续给业界带来革命性的改变,会催生出更多过去无法想象的应用。为了应对这种趋势带来的挑战并且尽快的将智能技术应用到产品中,谷歌快速迭代开发了若干代通用人工智能研发基础架构。其中最新一代系统,TensorFlow,已于2015年11月作为开源软件发布。这个主题演讲将和与会者分享谷歌使其产品智能化的经验,并探讨通用人工智能研发基础架构可以如何最大限度地帮助更多智能产品的研发。

深度学习的TensorFlow实现 教学辅导课

陈健敏和陈智峰示范使用TensorFlow这个广受欢迎的开源库训练和部署机器学习系统。你将能学会如何创建一个机器学习系统,小到简单的分类器,大到复杂的基于图像的模型,还可以学会如何使用TensorFlow Serving来部署你的模型。

Ziya Ma is Intel vice president and the director of Big Data Software Technologies organization in Intel’s Software and Services Group (SSG), System Technologies and Optimization (STO) Division. Her organization focuses on optimizing big data software on Intel platforms, leading open source efforts in the Apache community, linking innovation in industry analytics to bring about the best and the most complete big data experiences. Her organization has provided many consultations to industry companies on implementation and optimization on Intel platforms for Hadoop and Spark ecosystems.

Presentations

加速大数据分析和机器学习 主题演讲

到2020年,数据中心首要的工作负荷会是数据分析。英特尔承诺帮助数据分析更快,更容易,并且更具洞察力。英特尔通过如下方法进行数据分析的创新:领先地位的半导体产业优势,对开源软件优化方面的贡献例如从Hadoop/Spark到机器学习库(machine-learning library)和TAP (Trusted Analytics Platform)。英特尔的努力使得医疗保健,零售,运输和其他行业的客户持续显著地获益。英特尔努力了解客户针对数据分析,机器学习,深度学习,和物联网等方面在未来的增值计划。数据分析的生态系统正在全力前进,而英特尔也正在释放它的潜力来改进业务表现,改善人类的生活。

江毛进是美国Cloudera公司讲师,大数据工程师。自2012年起率先将Apache Hadoop为基础的开源大数据技术通过Cloudera大数据技术培训的方式带给国内的大数据企业用户和技术人员,积极推动大数据在国内的普及及应用。

Presentations

在Spark和Hadoop上做大规模数据科学 培训

江毛进是美国Cloudera公司讲师,大数据工程师,自2012年起率先将Apache Hadoop为基础的开源大数据技术通过Cloudera大数据技术培训的方式带给国内的大数据企业用户和技术人员,积极推动大数据在国内的普及及应用。

滴滴出行大数据部BI系统组负责人。负责滴滴大数据实时计算系统的架构设计及研发。

Presentations

滴滴出行实时计算系统架构及实践 议题

滴滴出行作为全球最大的移动出行平台,每天收集和需要分析处理的数据量非常大。这些数据形式多样:既包括存储于数据库中的业务数据,也包括各种API请求所记录的文本日志。此外,更大的挑战在于业务上需要我们实时的分析处理如此大规模的数据。从数据生成到可被分析查询,系统延迟在秒级。我们选用Druid/Samza/Kafka/Spark/Hadoop等开源技术栈,开发了符合Lambda architecture的OLAP系统。本次演讲我们以滴滴大数据实时监控系统为例,介绍滴滴实时计算系统架构所面临的挑战及相应解决方案。

Cloudera售前技术经理、行业领域顾问、资深方案架构师,原Intel Hadoop发行版核心开发人员。2006年加入Intel编译器部门从事服务器中间件软件开发,擅长服务器软件调试与优化。2010 年后开始Hadoop 产品开发及方案顾问,先后负责Hadoop 产品化、HBase 性能调优,以及行业解决方案顾问。

Presentations

基于Mesos DCOS的大数据云计算平台架构 议题

Mesos推出了的DCOS作为企业级的资源管理框架能让数据中心资源分配更易于使用,同时让在外部运行企业应用更可靠。底层使用Mesos构件云计算平台,而将Hadoop平台作为应用之一,运行于DCOS中既满足企业对于数据中心集群弹性分配的云计算需求,同时又使得数据中心的大数据能力得到更好的保障。是未来很有希望的技术发展路线之一。本议题将解析Hadoop on DCOS的架构以及在实际生产应用中的实践。

讲师见面时间 : Chen Biao见面答疑时间 讲师见面时间

Cloudera已经在中国帮助很多客户搭建了大型上百节点的大数据平台。希望能和业界人士就Hadoop工程部署以及上层产业应用进行交流。

Jianmin Chen is a senior software engineer at Google working on TensorFlow. Jianmin has been focusing on improving the performance of large-scale distributed training and the performance of the Tensor Processing Unit (TPU), making it easy to use and deploy. Before joining Google, he worked in Intel, where he led the architecture analysis and improvement effort for Intel Iris/HD GPU’s core Execution Unit (EU). He holds a PhD degree from University of Florida. In his spare time, you can find Jianmin hiking or hanging out with family and friends.

Presentations

TensorFlow: 跨平台,高性能并支持大规模分布式机器学习的开发系统 议题

陈健敏和陈智锋将会给大家介绍TensorFlow,一个跨平台,高效率和支持大规模分布式训练的机器学习开发平台。

深度学习的TensorFlow实现 教学辅导课

陈健敏和陈智峰示范使用TensorFlow这个广受欢迎的开源库训练和部署机器学习系统。你将能学会如何创建一个机器学习系统,小到简单的分类器,大到复杂的基于图像的模型,还可以学会如何使用TensorFlow Serving来部署你的模型。

讲师见面时间 : Chen Jianmin见面答疑时间 讲师见面时间

(1) TensorFlow技术细节;(2) 选择框架时哪些是需要决策的最重要因素。

Xiao Chen is a software engineer at Cloudera working on HDFS, as well as an Apache Hadoop committer. Prior to Cloudera, he worked in Thomson Reuters’ time series team, focusing on real-time in-memory databases. Xiao was born in Beijing, China. He holds a bachelor’s degree from Beihang University and a master’s degree from New York University.

Presentations

Apache Hadoop十周岁:展望前方 议题

过去十年,Apache Hadoop从无到有,从理论概念演变到如今支撑起若干全球最大的生产集群。接下来的十年,Hadoop将继续壮大,并发展支撑新一轮的更大规模、高效和稳定的集群。 我们此次将向大家全面介绍即将到来的Apache Hadoop 3.0新版本——从版本发布状态、背后的故事,到如HDFS erasure coding、YARN federation、NN k-safety等全新的功能。

种骥科博士,清华兼职教授,现任美国Acorns首席数据科学家. 之前,种骥科曾任职于宜人贷 (NYSE:YRD) 首席数据科学家,负责反欺诈风控和数字驱动的运营和创新。再之前,种骥科曾任职于美国Simply Hired招聘平台,创建了数据科学部, 并应邀为白宫科技办公室参谋大数据技术产品设计。还曾就职于美国Silver Lake 私募公司任Kraftwerk基金数据科学架构师,负责大数据技术在私募投资风控方面的应用。种骥科曾任美国卡内基梅隆大学教授与博士生导师,持有加州大学伯克利分校电子工程和计算机科学系博士学位,卡内基梅隆大学电子和计算机工程系硕士及本科学位,和9项美国专利(5项获准,4项待批)。

Presentations

讲师见面时间 : Chong Jike见面答疑时间 讲师见面时间

在交流时间,我希望有机会深入分享数据科学在互联网金融的应用,一起探讨未来的发展机会,并回答您可能关注的一些具体问题。如果大家感兴趣,我也可以分享数据科学在O2O商业模式中的产品化过程。

金融反欺诈中,社交网络算法有用吗? 议题

在大规模互联网金融服务的实现过程中,为了效率和可扩展性,用户在没有面对面授信的过程中就可以得到几千至几十万元的资金或服务。互联网金融公司是怎样用大数据和机器学习来降低欺诈风险,弥补欺诈漏洞的呢?本次演讲将带你探索社交网络算法在金融反欺诈方面应用机会,深入讨论多维度、多维复杂关系、多类型节点等数据特性所带来的挑战,以及一些实际案例。

Doug Cutting is the chief architect at Cloudera and the founder of numerous successful open source projects, including Lucene, Nutch, Avro, and Hadoop. Doug joined Cloudera from Yahoo, where he was a key member of the team that built and deployed a production Hadoop storage-and-analysis cluster for mission-critical business analytics. Doug holds a bachelor’s degree from Stanford University and sits on the board of the Apache Software Foundation.

Presentations

Three steps to big data success 主题演讲

Apache Hadoop creator and Cloudera chief architect Doug Cutting is joined by Fan Ji'an, China Unicom's CTO, to discuss the picture of success. Learn how to build a complete strategy and start your journey with Hadoop.

周五欢迎致辞 主题演讲

大会日程主席 Ben Lorica、Jason Dai 与 Doug Cutting致辞开始第一天主题演讲。

周六欢迎致辞 主题演讲

大会日程主席 Jason Dai、Ben Lorica 与 Doug Cutting致辞开始第二天主题演讲。

Jason (Jinquan) Dai is a senior principal engineer and CTO of big data technologies at Intel, where he is responsible for leading the global engineering teams (located in both Silicon Valley and Shanghai) on the development of advanced big data analytics (including distributed machine and deep learning), as well as collaborations with leading research labs (e.g., UC Berkeley AMPLab and RISELab). Jason is an internationally recognized expert on big data, cloud and distributed machine learning; he is the program co-chair of O’Reilly AI Conference in Beijing, a founding committer and PMC member of Apache Spark, and the creator of BigDL(https://github.com/intel-analytics/BigDL/), a distributed deep learning framework on Apache Spark.

Presentations

周五欢迎致辞 主题演讲

大会日程主席 Ben Lorica、Jason Dai 与 Doug Cutting致辞开始第一天主题演讲。

周六欢迎致辞 主题演讲

大会日程主席 Jason Dai、Ben Lorica 与 Doug Cutting致辞开始第二天主题演讲。

Alluxio核心软件工程师,博士毕业于卡内基梅隆大学。曾经在Google, Microsoft Research就职。

Presentations

Alluxio (前Tachyon) 以内存为中心的虚拟分布式存储系统的原理与使用 议题

在大数据应用场景中,针对不同的计算框架与任务分别配置数据源和存储资源,以及在不同的计算框架间高速有效的实现数据共享和管理是一件困难且挑战的任务。Alluxio(前Tachyon)是世界上第一个以内存为中心的虚拟分布式存储系统. 它为不同的计算框架提供的统一的接口来访问不同类型的数据源,并实现了多层次的存储机制,从而有效的解决数据存储的管理与配置问题.

内存为中心的开源虚拟分布式存储系统Alluxio(前Tachyon)入门 教学辅导课

本辅导课内容为了解Alluxio(前Tachyon)的基本原理, 应用场景, 以及如何使用Alluxio让分布式计算引擎以内存速度共享以及交换数据. 在上机实践环节中, 参与者将在老师指导下亲自动手部署和运行Alluxio, 为Alluxio挂载外部存储系统(如HDFS), 使用Alluxio内置命令行与系统交互, 并尝试使用常见计算引擎(如Apache Spark)搭建从Alluxio系统中读写的大数据应用. 此外学员还将学习Alluxio内置的常用命令行操作, Web界面使用操作, 使用面向开发者的API. 本辅导课理想参加者群体包括(但不限于)大数据应用开发人员, ETL开发人员, 数据科学家,存储管理人员。

讲师见面时间 : Fan Bin见面答疑时间 讲师见面时间

(1) Alluxio作为第一个内存级的虚拟分布式存储系统, 在不同的实际部署中是如何帮助解决数据高速存取和共享这一难题。(2) 什么样的场景适合部署Alluxio, 有哪些注意事项 (3) 咨询参与者, 讨论他们所希望见到的Alluxio功能和改进

Sameer Farooqui is a client services engineer at Databricks, where he works with customers on Apache Spark deployments. Sameer works with the Hadoop ecosystem, Cassandra, Couchbase, and general NoSQL domain. Prior to Databricks, he worked as a freelance big data consultant and trainer globally and taught big data courses. Before that, Sameer was a systems architect at Hortonworks, an emerging data platforms consultant at Accenture R&D, and an enterprise consultant for Symantec/Veritas (specializing in VCS, VVR, and SF-HA).

Presentations

Apache Spark: 可以问我们任何问题。 讲师见面时间

Spark Camp 演讲者将用中文和英文回答您的问题。

Spark camp: Exploring big data with Apache Spark 教学辅导课

The real power and value proposition of Apache Spark is in building a unified use case that combines ETL, batch analytics, real-time stream analysis, machine learning, graph processing, and visualizations. Through hands-on examples, Sameer Farooqui and Andrew Orr explore various Wikipedia datasets to illustrate a variety of ideal programming paradigms.

Twitter实时计算平台技术主管,负责Heron, Presto等服务。Heron的原作者之一。专注于分布式系统,在SIGMOD等会议期刊发表多篇论文。本科毕业于华中科技大学;研究生毕业于卡耐基梅隆大学.

Presentations

Twitter实时计算平台 议题

Twitter每秒会产生亿级的事件数据。稳定、实时、高效地处理这些数据成为一个巨大的挑战。为此,Twitter设计部署了新一代的实时计算框架,Heron,使得工程师们可以简单地基于Heron开发分布式实时计算应用。Heron在2014年底已经完全取代Storm成为了Twitter新一代的实时计算框架,被广泛地适用于各种场景,如实时数据挖掘,实时信息监控......

讲师见面时间 : Fu Maosong and Guo Sijie 讲师见面时间

Twitter实时分析的技术栈和架构,包括数据存储、数据传递和处理引擎。

富羽鹏是Alluxio公司的工程师,也是开源软件Alluxio的主要贡献者与PMC成员。在加入Alluxio之前,曾在Palantir带领团队开发存储平台,再之前在加州大学圣地亚哥分校进行了博士学习。富羽鹏本科与硕士毕业于清华大学。

Presentations

Alluxio (前Tachyon) 以内存为中心的虚拟分布式存储系统的原理与使用 议题

在大数据应用场景中,针对不同的计算框架与任务分别配置数据源和存储资源,以及在不同的计算框架间高速有效的实现数据共享和管理是一件困难且挑战的任务。Alluxio(前Tachyon)是世界上第一个以内存为中心的虚拟分布式存储系统. 它为不同的计算框架提供的统一的接口来访问不同类型的数据源,并实现了多层次的存储机制,从而有效的解决数据存储的管理与配置问题.

Yupeng Fu is a software engineer at Alluxio. Previously, he was a software engineer at Palantir and a PhD student in UCSD.

Presentations

内存为中心的开源虚拟分布式存储系统Alluxio(前Tachyon)入门 教学辅导课

本辅导课内容为了解Alluxio(前Tachyon)的基本原理, 应用场景, 以及如何使用Alluxio让分布式计算引擎以内存速度共享以及交换数据. 在上机实践环节中, 参与者将在老师指导下亲自动手部署和运行Alluxio, 为Alluxio挂载外部存储系统(如HDFS), 使用Alluxio内置命令行与系统交互, 并尝试使用常见计算引擎(如Apache Spark)搭建从Alluxio系统中读写的大数据应用. 此外学员还将学习Alluxio内置的常用命令行操作, Web界面使用操作, 使用面向开发者的API. 本辅导课理想参加者群体包括(但不限于)大数据应用开发人员, ETL开发人员, 数据科学家,存储管理人员。

讲师见面时间 : Fu Yupeng羽鹏 富见面答疑时间 讲师见面时间

(1) Alluxio作为第一个内存级的虚拟分布式存储系统, 在不同的实际部署中是如何帮助解决数据高速存取和共享这一难题。(2) 什么样的场景适合部署Alluxio, 有哪些注意事项 (3) 咨询参与者, 讨论他们所希望见到的Alluxio功能和改进

Adam Gibson is the cofounder of Skymind, an enterprise deep learning and NLP firm, and creator of the distributed, open source frameworks Deeplearning4j and ND4J. Adam has taught machine learning at Zipfian Academy and is currently the deep learning specialist in residence at GalvanizeU. Adam has spoken at Hadoop Summit, OSCON, and Tech Planet in Seoul and is a coauthor of the forthcoming O’Reilly book Deep learning: A Practitioner’s Guide. Adam consults for hedge funds, Fortune 500 companies, and startups. He studied CS at Michigan Tech.

Presentations

深度学习在Spark平台上进入生产环境 议题

Adam Gibson和吴书卫会讨论关于企业级深度学习的工作流程和使用商业级开源分布式深度学习Deeplearning4j的生产栈,涵盖了从硬件到产品堆栈的详情。

吴书卫是Skymind亚太地区的负责人。吴书卫在美国密歇根理工大学读博士期间开始接触数据分析,使用深度学习技术分析路面材料性质,用人工神经网络预测沥青路面材料的老化、强度和疲劳,推断出公路剩余使用寿命。Skymind作为世界上第一家提供企业级人工智能深度学习JAVA开源平台(Deeplearning4j.org)及企业支援的公司,Skymind 肩负了提升深度学习开源平台核心竞争力的重要使命。在业界和集团公司的支持下,Skymind 以 ”专注平台开发、创新、整合、人性化” 为理念,通过技术与业务模式创新,构建完整的智能生态链,提升平台的核心竞争力,为客户提供可靠和稳定的全方位人工智能平台

Presentations

深度学习在Spark平台上进入生产环境 议题

Adam Gibson和吴书卫会讨论关于企业级深度学习的工作流程和使用商业级开源分布式深度学习Deeplearning4j的生产栈,涵盖了从硬件到产品堆栈的详情。

Sijie Guo is a staff software engineer at Twitter, where he is the tech lead of the Messaging team. He is also the founder of Apache DistributedLog (incubating) and the PMC chair of Apache BookKeeper.

Presentations

Apache DistributedLog at Twitter: 低延时高吞吐的实时数据平台 议题

Twitter每秒会产生亿级的事件数据。如何实时、高效地持久化存储和传递这些数据成为一个巨大的挑战。为此,Twitter设计部署了新一代的实时数据平台。新的实时数据平台由Apache DistributedLog (incubating)来支撑。Apache DistributedLog (incubating)是一个低延时(毫秒级)、高吞吐的分布式复制日志流系统。DistributedLog已经在Twitter的线上运行了三四年,支持从分布式数据库、实时搜索引擎、跨机房数据同步到实时流计算等多种业务。DistributedLog每天为Twitter传递1.5 trillion条记录(合17.5PB数据)。我的演讲围绕Apache DistributedLog在Twitter的现状和生产实践,以及未来的发展

讲师见面时间 : Fu Maosong and Guo Sijie 讲师见面时间

Twitter实时分析的技术栈和架构,包括数据存储、数据传递和处理引擎。

Luke (Qing) Han is the coounder and CEO of Kyligence, which provides a leading intelligent data platform powered by Apache Kylin to simplify big data analytics from on-premises to the cloud. Luke is the cocreator and PMC chair of Apache Kylin, where he contributes his passion to driving the project’s strategy, roadmap, and product design. For the past few years, Luke has been working on growing Apache Kylin’s community, building its ecosystem, and extending its adoption globally. Previously, he was big data product lead at eBay, where he managed Apache Kylin, engaged customers, and coordinated various teams from different geographical locations, and chief consultant at Actuate China.

Presentations

大数据分析,不再是工程师的禁脔! 主题演讲

大数据分析技术发展的如火如荼,但细究之下,更多的使用者还是工程师等技术人员,与企业中使用数据就行分析及决策的分析人员、业务用户等尚有一些距离。在重新学习新技术,新语言与继续发挥现有知识、经验及技术的争论中,以标准SQL为准的分析能力最终成为业界趋势及各大厂商、技术发展的重点。本次主题演讲将介绍Apache Kylin如何重新定义Hadoop之上的OLAP及数据仓库,使得分析人员、业务人员如何在不需要了解技术底层的前提下快速获得大数据分析能力,并充分发挥他们现有的分析能力和经验等。

Hao Hao 是Cloudera(总部在美国加州硅谷)的一名软件工程师。她参与了Apache开源项目 Sentry的开发。她也是Apache Sentry 的PMC。Hao在美国雪城大学进行博士学位学习时,她的研究课题是关于智能手机系统的安全性和网络安全性。在加入Cloudera之前,Hao曾工作于eBay 的Search Backend 团队,并参与eBay的网上购物平台搜索引擎的开发。

Presentations

启用Hadoop的“哨兵”: Sentry的最新通用权限管理模型 议题

Apache Sentry (哨兵) 是由Cloudera发起的Hadoop的第一个可以提供企业级安全系数的细粒度存取控制系统。它整合企业级认证服务系统,例如Kerberos,来实现企业的高质量大数据的安全性,可以提供金融、政府、医疗保险和其它对敏感数据的访问有严格监管的安全服务。

Cheng He is a principal engineer and research manager in Huawei’s Noah’s Ark Lab, where his research interests include traffic measurement and modeling, distributed stream computing, big data stream mining, and online learning. Cheng has led important projects like MBB traffic measurement and modeling, system design for distributed stream big data processing, stream mining, and online learning of massive telecom data for intelligent network management. He has applied for more than 20 patents in China, the EU, and the US in his research area. His current research focuses on designing and developing online ML and stream-mining algorithms–oriented distributed streaming systems to support the intelligent management of large-scale telecom networks.

Presentations

华为在Spark Streaming上进行的高级数据科学改进 议题

我们将会介绍StreamDM——华为诺亚方舟实验室开发的一个新的基于Spark Streaming的实时分析开源软件库。StreamDM是首个包括先进的流数据挖掘算法的Spark Streaming库。我们还会介绍正在进行的使用StreamDM的业务场景,如华为应用商店的推荐和华为全球技术服务业务使用的大数据分析。

Pengcheng He is a senior software engineer at Microsoft, where he works on large-scale computation, especially large-scale machine-learning algorithms. Previously, he worked on machine learning at Tencent. Pengcheng holds a degree from GUCAS.

Presentations

YARN集群上的分布式深度学习 议题

训练速度一直是采用深度学习的一个最大的障碍,造成我们公司内的许多团队都没有足够的计算资源来对大数据使用深度神经网络进行训练。我们开发了运行在YARN集群上的分布式深度结构化语义模型(DSSM)训练系统,可以在使用超过100个CPU的集群上获得超过单个K40 GPU的速度。在这个演讲里我们很高兴来分享我们的一些经验。

Andy Huang is a managing consultant in the big data analytics practice at Servian, a leading consulting company in Australia and New Zealand, where he works with clients in telco, banking, and financial services on big data analytics projects. Andy’s project portfolio includes use of Spark for data integration, streaming, and large-scale machine learning. He also leads solution architecture and implementation and evangelizes Apache Spark in the region.

Presentations

Spark编程基础 使用Spark打造大数据分析原型 培训

Apache Spark的真正价值和强大能力在于用它可以构建一个统一一致的分析场景,囊括了从ETL(数据抽取、转换和载入)、批处理分析、实时流分析、机器学习、图类型数据分析,到可视化的多种功能。在这个历时2天的课程里,布莱恩·克莱坡通过对多种维基百科数据集的动手操作来展示了理想中Spark可以完成的多样化的编程模式。在培训结束时,参加者将具备运用Spark来进行概念验证和原型搭建的能力。

Shengsheng (Shane) Huang is a software architect at Intel leading the development of large-scale analytical applications and infrastructure on Spark in Intel, as well as an Apache Spark committer and PMC member. Shane’s area of focus is distributed machine learning, especially deep (convolutional) neural networks. Previously at NUS (the National University of Singapore), her research interests are large-scale vision data analysis and statistical machine learning. Before that, she worked at Intel as lead engineer on distributed big data frameworks (e.g., Hadoop and Spark) for over six years.

黄晟盛是Intel BigDL团队的架构师,同时也是Apache Spark committer及PMC member。她目前专注的领域是大规模分布式深度学习和人工智能应用。她有十多年的分布式系统及性能优化的经验,在Hadoop和Spark生态系统中搭建基础架构和应用的经验超过八年。

Presentations

基于Apache Spark的金融欺诈检测 议题

在金融领域使用现代大数据分析技术正在逐步成为趋势。数据正在以更大的规模和更多的维度涌入,丰富了信息的同时也带来了数据分析领域快速增长的复杂度,在数据统计,特征工程和模型调优方面也对自动化框架提出了更高要求。通过与一些顶级的支付公司进行合作,我们开发出了基于Spark构建欺诈检测系统的完整解决方案。本次分享将介绍我们基于Spark DataFrame和机器学习Pipeline搭建的完整工具链和相关经验。

黄宜华, 博士, 南京大学计算机系教授、博导,南京大学PASA大数据技术实验室主任。 中国计算机学会大数据专家委员会常务委员、副秘书长, 江苏省计算机学会大数据专家委员会主任。主要研究方向为大数据并行处理。早在大数据还鲜为关注的2009年即已进入大数据技术领域,是国内最早从事大数据处理技术研究和教学的团队之一,在大数据存储查询、大规模RDF语义数据查询与推理、分布式内存文件系统、Hadoop/Spark系统优化、并行化机器学习与数据挖掘算法、大规模机器学习算法与系统等方面有一系列的研究工作,在国内外学术刊物和国际会议上发表大数据相关学术论文30多篇,撰写并出版大数据处理书籍/教材两部。在大数据领域,主持多项国家和省部级科研项目,此外还开展了与Google、Intel、UC Berkeley AMP Lab、微软亚洲研究院、百度、华为、中兴通讯等著名企业和机构的合作研究

Presentations

大章鱼:跨平台统一大数据机器学习与数据分析编程框架与系统 议题

大数据机器学习和数据分析是一个同时涉及机器学习和大数据处理技术的交叉性课题。目前大数据机器学习与数据分析一个最大的问题是:机器学习研究者和数据分析师难以掌握和使用各种大数据编程技术和平台,因此,在两者间存在一个很大的鸿沟。因此,有必要研究提供底层具有大数据处理能力、而上层便于普通机器学习研究者和数据分析师使用的大数据分析编程环境和平台。 本报告将简要介绍大数据机器学习系统的技术现状、技术特征和技术问题、典型大数据学习系统。在此基础上介绍我们所研究实现的全球第一个跨平台统一大数据机器学习与数据分析编程框架与系统“大章鱼(Octopus)”。该系统底层可集成Hadoop、Spark、MPI、Flink等主流大数据处理平台,上层提供基于大规模矩阵的机器学习和数据挖掘算法编程模型、接口和软件框架,并提供基于标准R和Python语言的编程环境,可实现底层大数据平台对上层数据分析程序员完全的透明性

2004年初参加淘宝网新一代架构以及支付宝系统的研发工作,是支付宝技术平台的奠基人之一。2005年加入支付宝,一直从事技术工作。

在支付宝与蚂蚁金服期间,程立历任程序员、架构师、首席架构师、首席技术官,参加了支付宝和蚂蚁金服各代系统架构、核心系统与基础技术平台的建设,与蚂蚁金服技术团队一起致力于创新金融交易与数据技术,促进全球化的普惠金融理想。

Presentations

用人工智能驱动金融生活 主题演讲

随着云计算、移动、活的大数据、机器学习算法的进展,人工智能正在经历巨大的突破。人工智能已经成为很多业务的驱动力,并且开始在金融服务中发挥力量。 蚂蚁金服致力于创新金融技术,并且用新技术为大众和小微企业提供普惠金融服务。人工智能是我们关注的焦点之一。我们打造了人工智能平台,并且将人工智能应用于各种服务场景中,比如风险控制、信贷决策、保险定价、服务推荐、客户服务等。通过运用人工智能的力量,我们极大地扩大了我们的服务范围、降低了风险、提升了用户体验、削减了成本。 在本场演讲中,我会分享我们如何打造金融人工智能平台,并且用人工智能驱动金融与生活服务的创新。

李浩源是Alluxio公司(前称Tachyon Nexus公司)的创始人和CEO。李浩源在加州大学伯克利分校AMPLab读博期间,他联合创造了Alluxio,一个开源的内存级别速度的虚拟分布式存储系统。此外,他是Apache Spark项目的founding committer。在进入AMPLab之前, 他曾经在Conviva和Google公司工作。李浩源在拥有康奈尔大学的硕士学位和北京大学的学士学位。

Haoyuan Li is founder and CEO of Alluxio (formerly Tachyon Nexus). He is also a computer science PhD candidate at UC Berkeley’s AMPLab, where he cocreated Alluxio, an open source memory speed virtual distributed storage system. He is a founding committer of Apache Spark. Before the AMPLab, he worked at Conviva and Google. Haoyuan has an MS from Cornell University and a BS from Peking University.

Presentations

Alluxio(前Tachyon)项目的最新状态与发展方向 主题演讲

Alluxio is a memory-speed virtual distributed storage system, and the Alluxio open source community is one of the fastest growing open source communities in big data. Haoyuan Li discusses upcoming changes that will make Alluxio accessible to an even wider set of users, through a focus on security, new language bindings, and further increased stability.

内存为中心的开源虚拟分布式存储系统Alluxio(前Tachyon)入门 教学辅导课

本辅导课内容为了解Alluxio(前Tachyon)的基本原理, 应用场景, 以及如何使用Alluxio让分布式计算引擎以内存速度共享以及交换数据. 在上机实践环节中, 参与者将在老师指导下亲自动手部署和运行Alluxio, 为Alluxio挂载外部存储系统(如HDFS), 使用Alluxio内置命令行与系统交互, 并尝试使用常见计算引擎(如Apache Spark)搭建从Alluxio系统中读写的大数据应用. 此外学员还将学习Alluxio内置的常用命令行操作, Web界面使用操作, 使用面向开发者的API. 本辅导课理想参加者群体包括(但不限于)大数据应用开发人员, ETL开发人员, 数据科学家,存储管理人员。

讲师见面时间 : Li Haoyuan见面答疑时间 讲师见面时间

(1) Alluxio作为第一个内存级的虚拟分布式存储系统, 在不同的实际部署中是如何帮助解决数据高速存取和共享这一难题。(2) 什么样的场景适合部署Alluxio, 有哪些注意事项 (3) 咨询参与者, 讨论他们所希望见到的Alluxio功能和改进

北京趣拿软件科技有限公司平台事业部数据平台研发工程师。毕业于黑龙江大学软件工程专业。现主要负责资源管理系统Mesos和布分式内存管理系统Alluxio的持续集成开发,为各业务线的数据方面基础公共服务支持。主要涉及ELK日志ETL平台,Spark + Flink批处理系统和流式处理系统, Zeppelin交互式处理等系统的发布与监控。

Presentations

Alluxio帮助去哪儿网酒店数据业务最高提速300x 议题

Qunar作为国内在线旅游门户网站,拥有丰富的业务数据和UGC数据。为了能够敏锐的发现系统和用户行为变化,我们构建了一套实时数据流处理和反馈系统。由于系统接入的异构数据源数以百计,系统上运行分析方法也是千奇百怪,所以我们搜罗了一揽子功能强大的工具解决各种需求,这其中比较核心的工具有ELK、Spark、Flink、Alluxio(原名Tachyon)、Mesos和Marathon等。其中Alluxio作为一款内存为中心的分布式存储系统,在我们的系统中扮演着数据纽带的作用,简化系统复杂度(技术收敛),降低读写I/O。比如:流数据持久化到设备和UnderFS; Spark Streaming Blk/Checkpoint外部存储; Batch和Streaming的数据共享; Alluxio以其丰富的功能和优异性能,使得我们构建一个高可用,灵活可伸缩实时数据流平台的工作成为了可能。

联合创始人兼CTO,Apache Kylin 联合创建者及项目管理委员会成员(PMC), 主创团队架构师和技术负责人,专注于大数据分析,并行计算,数据索引,关系数学,近似算法,压缩算法等前沿技术。曾任eBay全球分析基础架构部大数据资深架构师、IBM InfoSphere BigInsights的技术负责人,负责Hadoop开源产品架构,“杰出技术贡献奖”的获奖者、摩根士丹利副总裁,负责全球监管报表基础架构。


Yang Li is a cofounder and CTO and the cocreator and PMC member of Apache Kylin, as well as a tech lead and architect of Kylin. Yang focuses on big data analysis, parallel computation, data index, relational algebra, approximation algorithm, and other technologies. Previously, he was senior architect of eBay’s Analytic Data Infrastructure department and tech lead of IBM InfoSphere’s BigInsights, where he was responsible for the Hadoop open source platform and won IBM’s Outstanding Technical Achievement award. He was also a vice president at Morgan Stanley, where he was responsible for the global regulatory reporting platform.

Presentations

Apache Kylin的Streaming OLAP实现 议题

Apache Kylin在利用批处理构建基于Hadoop的OLAP解决方案上已经很成熟,但社区对于流式(Streaming) OLAP的需求越来越多,在经过多个月的开发后,Apache Kylin的Streaming功能趋近完善。本主题将介绍Kylin如何处理流式数据并聚合汇总后最终以标准SQL接口提供给上层应用使用。

Zhichao Li is a senior software engineer at Intel focused on distributed machine learning, especially large-scale analytical applications and infrastructure on Spark. He’s also an active contributor to Spark. Previously, Zhichao worked in Morgan Stanley’s FX Department.

Presentations

Apache Spark高级机器学习实践 教学辅导课

在大数据时代,越来越多的企业引入了机器学习技术以提高效率和降低风险。而进行大数据的机器学习是一件比较具有挑战性的工作。作为最流行的大数据处理平台,Apache Spark提供了丰富的机器学习组件,帮助开发者大大降低了这项工作的复杂性。Intel帮助大型互联网和企业用户在Spark平台上做了大量机器学习的实现和优化工作。在本次课程中,来自Intel的工程师会带领大家探索Spark上的机器学习组件以及一些高级功能,并分享真实案例中的实践经验。

针对大规模机器/深度学习的分布式参数服务器 议题

在大规模的机器学习和深度学习中,模型参数的维度往往非常高,比如几千万,几亿以上的维度,这对内存、计算/网络传输是很大的挑战。本议题讲述参数服务器如何高效地解决这一问题,并结合Spark讲述一些实际中的使用。

Ben Lorica is the chief data scientist at O’Reilly Media. Ben has applied business intelligence, data mining, machine learning, and statistical analysis in a variety of settings, including direct marketing, consumer and market research, targeted advertising, text mining, and financial engineering. His background includes stints with an investment management company, internet startups, and financial services.

Presentations

周五欢迎致辞 主题演讲

大会日程主席 Ben Lorica、Jason Dai 与 Doug Cutting致辞开始第一天主题演讲。

周六欢迎致辞 主题演讲

大会日程主席 Jason Dai、Ben Lorica 与 Doug Cutting致辞开始第二天主题演讲。

Zhenxiao Luo is a software engineer at Uber working on Presto and Parquet. Previously, he led the development and operations of Presto at Netflix and worked on big data and Hadoop-related projects at Facebook, Cloudera, and Vertica. He holds a master’s degree from the University of Wisconsin-Madison and a bachelor’s degree from Fudan University.

Presentations

Presto在优步:千万亿字节规模的交互式查询 议题

对于优步和其他大数据公司而言实时交互式分析正变得越来越重要。在这个讲话中会介绍我们是如何使用Presto来解决优步的特殊问题。我们也会介绍优步的大数据架构,尤其是开发和部署Presto来实现秒级查询千万亿字节规模数据的部分。

Angie Ma is cofounder and COO of ASI Data Science, a London-based AI tech startup that offers data science as a service, which has completed more than 120 commercial data science projects in multiple industries and sectors and is regarded as the EMEA-based leader in data science. Angie is passionate about real-world applications of machine learning that generate business value for companies and organizations and has experience delivering complex projects from prototyping to implementation. A physicist by training, Angie was previously a researcher in nanotechnology working on developing optical detection for medical diagnostics.

Presentations

商业应用中的数据科学和机器学习 教学辅导课

这个3小时的辅导课从业务的角度出发集中介绍了数据科学的关键概念。本课程是为了那些希望在他们业务中引入数据科学的听众所准备的。

Christopher Nguyen is CEO and cofounder of Arimo (née Adatao), the leader in collaborative, predictive intelligence for enterprises. Previously, Christopher served as engineering director of Google Apps and cofounded two successful startups. As a professor, he also cofounded the computer engineering program at HKUST (香港科技大学). Christopher has a BS from UC Berkeley, where he graduated summa cum laude, and a PhD from Stanford, where he created the first standard-encoding Vietnamese software suite, authored RFC 1456, and contributed to Unicode 1.1. He is also a cocreator of the open source Distributed DataFrame project.

Presentations

Innovation from China: What it means for machine intelligence and AI 主题演讲

Over the next decades, China will take the global lead in innovation. The old stereotype of copycat China will give way to an innovative China. Christopher Nguyen explores one significant area of innovation: machine intelligence and robotics. Where will these advances in machine learning and AI take us over the next 50 years?

Mike Olson cofounded Cloudera in 2008 and served as its CEO until 2013, when he took on his current role of chief strategy officer. As CSO, Mike is responsible for Cloudera’s product strategy, open source leadership, engineering alignment, and direct engagement with customers. Previously, Mike was CEO of Sleepycat Software, makers of Berkeley DB, the open source embedded database engine, and he spent two years at Oracle Corporation as vice president for embedded technologies after Oracle’s acquisition of Sleepycat. Prior to joining Sleepycat, Mike held technical and business positions at database vendors Britton Lee, Illustra Information Technologies, and Informix Software. Mike holds a bachelor’s and a master’s degree in computer science from the University of California, Berkeley.

Presentations

Big data, big value 主题演讲

Mike Olson discusses the impact of Hadoop on top-level executive concerns, including driving customer insights and lowering business risks, and the role China can play in driving the impact further.

Jianfeng Qian is a researcher at Huawei Technologies’s Noah’s Ark Lab. His main research interests are mobile data analysis and stream machine learning. Jianfeng holds a PhD degree in computer science and technology from Zhejiang University.

Presentations

华为在Spark Streaming上进行的高级数据科学改进 议题

我们将会介绍StreamDM——华为诺亚方舟实验室开发的一个新的基于Spark Streaming的实时分析开源软件库。StreamDM是首个包括先进的流数据挖掘算法的Spark Streaming库。我们还会介绍正在进行的使用StreamDM的业务场景,如华为应用商店的推荐和华为全球技术服务业务使用的大数据分析。

Jerry Shao works as a member of the technical staff at Hortonworks focused mainly on Spark, especially Spark core, Spark on YARN, and Spark Streaming. Jerry is an active Apache Spark contributor and Apache Chukwa committer. Prior to Hortonworks, he was a software engineer at Intel working on performance tuning and optimization of Hadoop and Spark.

Presentations

Spark和YARN:最好一起工作 议题

现在Spark已经获得了广泛的使用。由于它框架设计上的灵活性,Spark可以运行在不同的集群管理器模式下:Standalone、Mesos和YARN。在本讲话里中我们会聚焦于运行在YARN上的Spark,讲解如何以及为何要在YARN上运行Spark。我们还会介绍一些最佳实践的经验,并介绍这个领域的未来。

腾讯数据平台部高级工程师,2015年加入腾讯,参与过大规模数据处理平台Hadoop与Spark集群的建设与优化。现主要专注在分布式计算引擎的研究与优化。

Presentations

从TDW-Hive到TDW-Spark-SQL: 腾讯TDW数据引擎演进之路 议题

腾讯分布式数据仓库(Tencent distributed data warehouse,简称 TDW),是腾讯工程技术事业群数据平台部基于开源软件研发的大数据处理平台,是腾讯内部最大的离线数据处理平台 。2016年开始,TDW数据引擎开始从TDW-Hive切换到TDW-Spark-SQL,无论从整体的任务运行效率和资源消耗,都得到了很大的优化。

Min Shen is an engineer on LinkedIn’s Hadoop infrastructure development team helping to build next-generation Hadoop infrastructure at LinkedIn with better performance and manageability. Min holds a PhD degree in computer science from the University of Illinois with a research interest in distributed computing.

Presentations

用动态自服务的队列和容量管理来帮助用户 议题

领英的Hadoop集群为多个内部业务部门提供服务,并保证一定的业务质量等级(SLA)。另一方面,集群的管理员希望能维持集群总体上的高使用率和效率。这个讲话会介绍一些我们对容量调度器(Capacity Scheduler)使用的最佳实践经验和对它的扩展。这些经验帮助我们更好地应对复杂的集群资源管理任务。

Dongjie Shi is a senior software engineer on Intel’s BDT team.

Presentations

基于Docker容器的大数据服务编排与部署的服务与实践 议题

本议题主要介绍一种面向大数据应用、基于Docker容器进行微服务编排,管理集群和自动化DevOps的框架以及一些分布式应用的Docker Image开发的实践经验。

宋慧驹是IBM大数据开发工程师,专注于大数据和机器学习相关的技术。 目前基于Spark和Hadoop相关技术为客户开发轨迹大数据分析项目。

Presentations

时空轨迹大数据分析案例研究 议题

演讲分享一个使用Hadoop和Spark相关的大数据技术处理海量的手机信令、RFID和GPS数据,并通过这些数据分析人的轨迹来支撑更精准的城市规划的实际案例。并对实际项目中海量时空数据在Hadoop和Spark上所进行的数据接入、转换、融合、模型计算、统计和可视化,以及数据的生命周期管理进行讨论。

Haojun Wang is a tech lead on Baidu’s US autonomous driving car team. Currently, Haojun is driving the in-car computing platform and offline data platform. Prior to Baidu, he worked at the IBM Silicon Valley Lab, focusing on database core development and big data processing. Haojun received his PhD in computer science from the University of Southern California.

Presentations

百度无人车背后的巨大数据挑战 议题

无人车是百度目前重点开发的项目。在较短的时间内,百度无人车已经取得了高速+本地道路测试的阶段性成果。在这个讲演中,我们会详细向大家介绍无人车背后的数据问题,比如海量的数据采集和整理用于离线的模型训练,在线高速数据吞吐处理的需求。百度通过自主研发高性能的离线和在线数据平台,使得百度无人车的技术现在在全球竞争中占有一席之地。我们还将展望百度无人车今后的发展规划。

王婷,中国矿业大学(北京)计算机博士毕业,已从事数据挖掘、大规模社交网络分析、社会计算等领域研究近5年,博士期间曾在清华大学计算机系数据库组访问学习并研究大规模社交网络中社区发现算法。现任宜人贷数据科学家,从事金融反欺诈模型建模工作,搭建自动化个人信用风险分析系统,利用整合多种数据源帮助线上金融服务进行实时、快速、准确的风险识别与响应。

Presentations

金融反欺诈中,社交网络算法有用吗? 议题

在大规模互联网金融服务的实现过程中,为了效率和可扩展性,用户在没有面对面授信的过程中就可以得到几千至几十万元的资金或服务。互联网金融公司是怎样用大数据和机器学习来降低欺诈风险,弥补欺诈漏洞的呢?本次演讲将带你探索社交网络算法在金融反欺诈方面应用机会,深入讨论多维度、多维复杂关系、多类型节点等数据特性所带来的挑战,以及一些实际案例。

Yinglian Xie 是DataVisor的联合创始人和CEO。 DataVisor是利用大数据分析进行欺诈预警和检测的行业领先公司。 Dr. Xie 在卡内基梅隆计算机系获得博士学位, 拥有10年以上在互联网安全和反欺诈领域的经验。 在创建DataVisor之前,她是微软硅谷研究院的资深研究员,曾为微软产品开发出一系列成功的互联网安全和反欺诈技术创新。其中包括基于微软Hotmail社交图以对用户进行认证的系统架构,及大幅度降低信用卡实时交易风险的算法。 她拥有20多项专利申请,在多项世界顶级学术会议发表几十篇论文,并担任会议评审委员。她的创新工作影响和改进了数十亿用户的互联网安全体验。

Presentations

基于Spark平台的智能大数据网络反欺诈 主题演讲

在线服务的迅速兴起促使互联网用户和商业模式成爆炸式增长,一个新的“亿万用户时代”已经来临。与此同时,精心策划的欺诈活动和黑客攻击也随之蔓延:他们注册大量的虚假账户,盗取用户数据,进行各种非法活动谋取暴利,并不断变换攻击手段和模式。对在线服务商而言,这些恶意欺诈行为在用户体验,经济收益,品牌安全和信誉等各方面都造成了不可估量的损失。

讲师见面时间 : Xie Yinglian谢映莲见面答疑时间 讲师见面时间

(1) 用Spark这样的大数据平台进行大数据分析反欺诈的优缺点 (2) 无监督学习和机器学习及规则系统在风控领域的结合 (3) 互联网欺诈的趋势分析,及大数据无监督学习反欺诈的应用成功案例

辛湜是Databricks公司的联合创始人以及首席架构师。此外,他是Apache Spark项目管理委员会成员,负责Spark 2.0版本的发布。在此之前他在UC Berkeley大学AMPLab实验室从事大规模数据处理与分析的博士课题研究。

Presentations

Spark 2.0及其下一步发展 主题演讲

敬请期待更多细节。

Spark中结构化流计算的深度介绍 议题

结构化流计算是Apache Spark的最新成果,旨在帮助用户的流计算的实现更加简单,而无需重新学习一个新的编程模型或新系统。在本主题课程中,我会介绍Spark的结构化流计算对事件时间、失序/延误的数据的支持,它的会话化和它与批次处理系统的集成。我会介绍它的API并展示使用它是如何很简单地实现一个强大的持续流计算应用系统。

负责微软应用与服务集团的大数据平台构建,数据产品与服务

Presentations

基于Kafka以及Spark Streaming的高扩展性数据质量保证平台 议题

微软的ASG (应用与服务集团)包含Bing, Office, Skype。每天产生多达5PB以上数据,如何构建一个高扩展性的data audit服务来保证这样量级的数据完整性和实时性非常具有挑战性。 在这个议题里,我将介绍微软ASG大数据团队如何利用Kafka,Spark以及Elasticsearch来解决这个问题。

杨仿今是开源项目Druid的联合发起人、核心开发者,Imply联合创始人、CEO。Imply 是位于美国旧金山的一家技术创业公司。杨仿今之前曾在 Metamarkets 和 Cisco 等公司任高级工程师。加拿大滑铁卢大学电气工程专业本科,计算机工程专业硕士


Fangjin Yang is a coauthor of the open source Druid project and a cofounder of Imply, a data analytics startup based in San Francisco. Previously, Fangjin held senior engineering positions at Metamarkets and Cisco Systems. Fangjin holds a BASc in electrical engineering and an MASc in computer engineering from the University of Waterloo, Canada.

Presentations

Druid: 助力大规模交互式应用 议题

如Hadoop和Spark这样的集群计算框架,对于处理海量数据并从中发现洞察是非常有帮助的。然而,很长的分析延迟使得这些框架对于交互式应用而言并不是最好的选择。在这个演讲中,我们会介绍如何使用Druid这一专门为分析事件数据的工具来助力(交互式)应用的。

杨玉皓,Intel大数据技术部门软件工程师,主要关注分布式机器学习应用和基础框架,为企业大规模机器学习应用提供合作与支持。Apache Spark contributor,为Spark MLlib贡献多个算法和改进。

Presentations

基于Apache Spark的金融欺诈检测 议题

在金融领域使用现代大数据分析技术正在逐步成为趋势。数据正在以更大的规模和更多的维度涌入,丰富了信息的同时也带来了数据分析领域快速增长的复杂度,在数据统计,特征工程和模型调优方面也对自动化框架提出了更高要求。通过与一些顶级的支付公司进行合作,我们开发出了基于Spark构建欺诈检测系统的完整解决方案。本次分享将介绍我们基于Spark DataFrame和机器学习Pipeline搭建的完整工具链和相关经验。

Anne Yu 是总部在加州硅谷的Cloudera的一名软件工程师,至2014年以来一直致力 Apache的Sentry的开发和测试。她也是Apache Sentry PMC。在加入Cloudera之前,安妮曾工作于Amazon 的 Search team开发测试基于AWS的产品搜索引擎。 她获得美国田纳西州大学的计算机工程学院的硕士学位( ECE )和美国奥克拉荷马的电讯管理硕士学位 (MIS) ,学校期间她的研究方向是图像和计算机视觉处理,并有2个企业专利和学术文章。

Presentations

启用Hadoop的“哨兵”: Sentry的最新通用权限管理模型 议题

Apache Sentry (哨兵) 是由Cloudera发起的Hadoop的第一个可以提供企业级安全系数的细粒度存取控制系统。它整合企业级认证服务系统,例如Kerberos,来实现企业的高质量大数据的安全性,可以提供金融、政府、医疗保险和其它对敏感数据的访问有严格监管的安全服务。

曾勇华是IBM中国研发实验室资深大数据及云服务解决方案架构师。他有多年大数据系统应用架构,平台架构、管理和调优经验,出版两本相关技术书籍并做为演讲嘉宾在国内外若干技术大会上分享IBM大数据技术。目前作为解决方案架构师, 负责IBM大中华区大数据分析解决方案的落地,应用架构,合作伙伴支持和技术推广。在此之前,他负责亚太区DB2数据库管理解决方案的研发,技术推广,培训和支持,领导并参与开发了数据库管理产品家族中的若干产品。

Presentations

时空轨迹大数据分析案例研究 议题

演讲分享一个使用Hadoop和Spark相关的大数据技术处理海量的手机信令、RFID和GPS数据,并通过这些数据分析人的轨迹来支撑更精准的城市规划的实际案例。并对实际项目中海量时空数据在Hadoop和Spark上所进行的数据接入、转换、融合、模型计算、统计和可视化,以及数据的生命周期管理进行讨论。

Jeff Zhang has 9 years of experience in big data industry. He started to use Hadoop since 2009 and is a member of apache software foundation, committer of multiple apache projects ( Pig/Tez/Zeppelin/Livy). His past experience is not only on big data infrastructure, but also on how to leverage these big data tools to get insight. He speaks several times in big data conferences like hadoop summit, strata data conference and apache big data conference. Now he works in hortonworks as member of technical staff.

Hortonworks is a leading innovator in the industry, creating, distributing and supporting enterprise-ready open data platforms and modern data applications.

Presentations

Spark和YARN:最好一起工作 议题

现在Spark已经获得了广泛的使用。由于它框架设计上的灵活性,Spark可以运行在不同的集群管理器模式下:Standalone、Mesos和YARN。在本讲话里中我们会聚焦于运行在YARN上的Spark,讲解如何以及为何要在YARN上运行Spark。我们还会介绍一些最佳实践的经验,并介绍这个领域的未来。

张磊拥有多年数据研发经验,现任阿里数据技术及产品部高级技术专家,参与过阿里集团的登月计划、公共层建立等多个重大项目

Presentations

如何高效高质低成本构建和管理大数据研发体系? 议题

数据研发经常会遇到这些问题:研发人数较多(超千人),频繁上下线,如何解决开发效率的问题?业务高速发展,数据量爆炸式的增长,如何有效控制存储与计算的线性增长?从数据采集到数据消费的整个链路非常复杂,如何保障整个数据链路的质量与产出时间?大数据建设的标准规范,如何制定并有效的执行?数据浩瀚如烟、纷繁复杂,如何能够迅速的找到自己想要的数据?经过几年的摸索,我们通过onedata研发体系能够比较有效的解决上述问题。One Data定位是:一个指标一个算法,一个维度属性只有一个名字,模型规范化,从算法定义、数据研发到数据服务,可管理追溯从而规避重复建设。

英特尔开源流处理系统Gearpump开发者,长期关注大数据领域和分布式计算,专注于流处理系统的开发和研究。

Presentations

Apache Gearpump 基于Akka的新流处理引擎的介绍和应用 议题

Apache Gearpump, 由中国本土团队创造,在今年3月正式成为Apache基金会的孵化项目。Apache Gearpump是一个基于Akka Actor 的轻量级的实时流计算引擎, 她能解决实时计算,实时反馈,实时机器学习和数据分析等各种大数据的实时问题,适用于金融,物联网,企业云,医疗等各种应用场景。 亮点包括: event time, exactly-once消息处理,每秒千万消息吞吐量, 毫秒级延时, Storm Binary兼容, 支持Akka Stream API, 支持Apache Beam API. 本次演讲, 也会会分享一些用例.

Yingsong Zhang is a data scientist at ASI, where she has worked on everything from social media data to special data from clients to build predictive models. Yingsong has published over 10 first-author research papers in top journals and conferences in the field of signal/image processing and has accumulated extensive experience in algorithm design and information representation. She recently completed a three-year postdoc project at Imperial College London developing sampling theory and the application system. Yingsong holds a BA in mathematics, an MSc in artificial intelligence and pattern recognition from one of China’s top universities, and a PhD in signal and image processing from Cambridge University.

Presentations

商业应用中的数据科学和机器学习 教学辅导课

这个3小时的辅导课从业务的角度出发集中介绍了数据科学的关键概念。本课程是为了那些希望在他们业务中引入数据科学的听众所准备的。

现任领英公司研发经理,领导核心大数据团队。该团队开发和应用HDFS,YARN,Spark,TensorFlow等开源技术,为领英公司的大数据平台提供核心的存储/计算引擎。

张喆同时还是Apache Hadoop项目的管理委员会(PMC)成员。也是Hadoop3的主要功能之一,HDFS纠删码(HDFS-EC)的作者。在加入领英之前,张喆就职于Cloudera和IBM沃森研究中心。2006年至今,在国际会议和期刊上发表论文20余篇,拥有5项美国专利。在IBM期间,获杰出技术成就奖(Outstanding Technology Achievement Award)。

Zhe Zhang is an engineering manager at LinkedIn, where he leads the Core Big Data Services team, which leverages open source technologies such as Hadoop, Spark, TensorFlow, and beyond to form the storage-compute engine of LinkedIn’s big data platform. Zhe is a PMC member of Apache Hadoop and author of HDFS erasure coding, a major feature for Hadoop 3.0. Previously, Zhe worked at Cloudera and IBM’s T. J. Watson Research Center. Zhe has over 20 research publications and 5 US patents. While at IBM, he received the Research Accomplishment Award and the Outstanding Technology Achievement Award.

Presentations

Apache Hadoop十周岁:展望前方 议题

过去十年,Apache Hadoop从无到有,从理论概念演变到如今支撑起若干全球最大的生产集群。接下来的十年,Hadoop将继续壮大,并发展支撑新一轮的更大规模、高效和稳定的集群。 我们此次将向大家全面介绍即将到来的Apache Hadoop 3.0新版本——从版本发布状态、背后的故事,到如HDFS erasure coding、YARN federation、NN k-safety等全新的功能。

HDFS erasure coding: 一半的成本,更快的速度 议题

HDFS-EC通过引入纠错码的方式大幅降低了HDFS的存储开销,目前项目的第一阶段已经进入Trunk,并将作为主要的新功能随Hadoop 3.0发布。随着项目的进展,我们也对HDFS-EC的性能进行了全面的测试。本次演讲的主题是展示并分析最新的测试数据,帮助用户了解HDFS-EC的性能特性。

Sean Zhong was a cloud architect in Intel’s Big Data engineering group. Sean’s expertise is in streaming, and he is the creator of Apache Gearpump as well as a PMC member of Apache Storm. Besides streaming, Sean participates in many other Apache projects, including Hadoop NativeTask and HBase media object storage.

Presentations

Apache Gearpump 基于Akka的新流处理引擎的介绍和应用 议题

Apache Gearpump, 由中国本土团队创造,在今年3月正式成为Apache基金会的孵化项目。Apache Gearpump是一个基于Akka Actor 的轻量级的实时流计算引擎, 她能解决实时计算,实时反馈,实时机器学习和数据分析等各种大数据的实时问题,适用于金融,物联网,企业云,医疗等各种应用场景。 亮点包括: event time, exactly-once消息处理,每秒千万消息吞吐量, 毫秒级延时, Storm Binary兼容, 支持Akka Stream API, 支持Apache Beam API. 本次演讲, 也会会分享一些用例.

Hucheng Zhou is a researcher for the System Research group at Microsoft Research Asia, where he focuses on large-scale learning systems, data-parallel computing, big data, machine learning, mobile computing, program analysis, compiler optimization, computer architecture, and tool development. Hucheng is interested in building a scalable, efficient, fault-tolerant, and easy-to-use distributed learning system, with the belief that such a system could be built on top of existing data-parallel execution engines and thus treated as a learning library. In this way, the entire machine-learning pipeline, including feature preparing, training, online learning, and model serving, could be supported by one single platform like Apache Spark. Hucheng holds a PhD from Tsinghua University.

Presentations

大学习时代:应对大数据和大模型的挑战 议题

人们已经不满足于从大量数据中做一些简单的查询和挖掘,而是需要从大量数据中自动学习能够进行准确的预测、排序以及推荐的模型。相应的,从技术上来看,针对大数据分析的类MapReduce计算系统已经发展成熟,而设计和实现针对大规模机器学习的系统却面临大数据和大模型带来的挑战。针对这种“大学习”系统的相关研究也方兴未艾,是当前工业界和学术界都很关心和投入的一个方向。我们致力于在Apache Spark上设计和实现一个通用的、高性能的、以及可扩展的分布式机器学习平台Zen。这个平台,我们重点实现当前工业界运用最广泛的模型,包括适用于广告点击率预测的logistic regression,主题模型LDA,搜索排序模型LambdaMART (GBDT), 以及推荐模型FM。这里,我很荣幸和大家分享我们过去一年中的取得的成果和经验教训。

Intel软件工程师,Apache Hadoop的贡献者。

Presentations

Apache HBase开发者教程 教学辅导课

Apache HBase, Apache Hadoop生态系统中的分布式数据库,是当今最流行的非关系型数据库之一,也被许多世界级的公司所使用,如阿里巴巴,小米,Facebook和Apple,用来存储和分析PB级的数据。 竟成和伟将为您讲述HBase的架构,并详解如何使用HBase提供实时的大数据服务。

朱金清(穆公) 阿里巴巴高级数据专家,目前在阿里从事infrastructure数据的分析和开发工作,专注于Spark的实时计算分析;最早加入阿里在淘宝/阿里数据库技术团队从事MySQL/HBase数据库的管理和数据开发;人大数据库方向硕士,毕业之后在百度从事凤巢等广告数据库的管理调优工作、曾主导过凤巢历史上最大的数据库拆分工作(1拆N)。

Presentations

Spark实时计算的开发平台RCS: 阿里流式分析实战 议题

目前Spark在实时计算领域的使用越来越广泛,对应广告系统或者电商业务,实时性就意味着系统稳定性的重要性。Spark开发者可以自己在任何机器上显式提交job,然后自己在机器上排查,异常情况下排查耗时长,job的稳定性保障受限,比如机器挂或者idc异常就无从考虑。 我们的RCS平台(real-time computing service)可以让开发者对Spark的后端集群、指标监控、任务容灾全部透明,无线关注集群细节,专注于业务的实现;同时满足实时任务99.99%的稳定性保障。因此RCS平台对开发者提供一个开发平台,让用户可以自助提交job、源端流式数据的接口封装(无须关注Kafka的具体地址等)、任务容灾和集群容灾一站式的数据开发平台。

刘鹏翔, 易鲸捷高级方案架构师。 负责EsgynDB和Apache Trafodion的行业应用方案的架构、开发和部署,有丰富的分布式海量并发和SQL-on-Hadoop的部署和调优经验,包括互联网、在线娱乐、银行、电信、车联网等。

Presentations

用同一个SQL引擎解决事务、分析和报表的理想世界 议题

很多公司希望用同一个数据库引擎来解决各种需求,从事务、分析到报表型任务流,支持结构型、半结构型和非结构型数据,利用图形数据库,文档存储,搜索引擎,列式存储,键值存储和宽列存储等类型。这个数据库的理想世界能实现吗? 挑战包括: 用同一个查询引擎,应对运营事务型和分析型任务流; 支持多种存储引擎,每种引擎都有各自领域; 用同一个数据模型,应对各种任务流,确保高水准性能。 近几年来,有几个开源项目专注于Hadoop上的SQL引擎,大多数关注于分析类。 Apache Trafodion建立在HBase基础上,用SQL同时完成分析型和事务型任务。 Trafodion设计和部署超过二十年,从天腾的NonStop SQL/MX,后来被惠普收购,衍生出Neoview等。2014年将部分Neoview开源为Trafodion(威尔士语“事务”),从大型机硬件上移植到线性拓展的Linux上。

Kyligence技术合伙人兼资深架构师,Apache Kylin核心开发者和项目管理委员会成员(PMC),专注于大数据分析和云计算技术。曾任eBay全球分析基础架构部大数据高级工程师,IBM云计算部门软件架构师;曾是IBM公有云Bluemix DevOps团队核心成员,负责平台的规划、开发和运营。

Presentations

Apache Kylin 教学辅导课 教学辅导课

Kyligence由Apache顶级项目Apache Kylin核心贡献者团队组建,团队一贯致力于推动Apache Kylin开源项目的发展和演进,提供基于的Apache Kylin的大数据分析产品和服务,拓展全球用户社区,构建更为丰富的生态系统。 Apache Kylin Tutorial针对Apache Kylin的使用者,管理者及开发者提供相关的辅导课程,由Apache Kylin 核心贡献者及PMC 成员倾力提供,学员经认证考试,可获得由Kyligence公司提供的相关认证证书。

构建基于Apache Kylin的大数据分析平台 议题

Apache Kylin已经在众多的on-premises环境中得以大量使用,包括eBay,百度,网易,京东,美团,唯品会,中国移动等以解决他们的大数据挑战。有越来越多的人活跃于社区并期望了解他们如何使用和部署Apache Kylin,为什么选择Kylin以及用Kylin来解决什么样的业务问题,与其他系统的差别,对比及性能比较等。在这个演讲中,来自Kyligence的技术合伙人兼资深架构师史少峰,将使用一些实际的案例来解答这些疑问,并介绍Apache Kylin之后的路线图及新特性等。

周云庆,Google工程师,2011年上海交通大学毕业,曾就职于百度及阿里巴巴,参与了凤巢检索系统后端开发以及流式数据处理系统的开发。目前在Google参与Cloud Dataflow后端服务的开发工作。

Presentations

Apache Beam, 一种定义可移植的流式及批量式数据处理的新方式 议题

Apache Beam (incubating) 的目标是解决数据处理领域中共有的几个关键问题:可移植性、可维护性和抽象化。您可以只撰写你的数据流水线一次(有多种语言的SDK可供选择),就可以使用到强劲的无序流式数据处理语义,并在多种引擎和多种平台上执行。

周明伟,2010年加入浙江大华技术股份有限公司,现任职于浙江大华大数据研究院,负责技术架构组相关工作。是公司内最早开始关注云存储、云计算相关的技术、架构,以及考虑大数据技术架构引入视频监控行业应用的人员之一。作为架构师和核心代码开发人员,主导行业内第一个自研分布式文件系统的设计和开发工作。一直从事云存储、云计算相关技术、架构等工作,对视频监控行业有较深刻理解,对云存储、云计算相关技术、架构有较广泛的涉猎。擅长分布式系统、高并发服务、高性能等相关技术。

Presentations

视频监控大数据平台架构和实践 议题

本议题主要分享面对海量视频图片数据的大数据挑战,实现基于erasure coding,高IO聚合性能,高并发写入,数据近实时可读的云存储系统;基于Spark,结合视频、图片分析算法,打造高性能视频图片分析系统;基于Solr、Spark SQL的有机结合,打造支持SQL的通用分析型数据库系统;以及分享存储、计算、分析有机组合,打造监控视频图片大数据平台的思路和实践经验。

目前是百度分布式计算方向架构师,离线计算技术负责人。2009年加入百度,先后从事内核网络协议栈、Hadoop/Spark大数据等方向的研发和优化工作,对Hadoop大数据生态有较为深入的理解,积累了丰富的大数据实战经验。

Presentations

基于Spark SQL构建即席查询平台 议题

越来越多的企业依赖于海量数据分析结果进行关键业务决策。 大规模下的交互式/即席数据分析,是进行数据分析和探索的主要途径,具有广泛的商业前景。 Baidu BigSQL由百度基于Spark SQL研发,为百度内部业务和广大公有云用户提供即席查询分析服务,具有简单易用、超大规模支持、数据结构灵活、成本极低等特点。

孙玄 58同城高级系统架构师,技术委员会架构组主任,产品技术学院优秀讲师,58同城即时通讯、C2C技术负责人,擅长架构设计,负责58核心系统的架构以及优化工作,满足百亿级系统吞吐需求。分布式系统存储专家,2007年开始从事大规模高性能分布式存储系统架构设计实现工作。 涉及自主研发分布式存储系统、MongoDB、MySQL、Memcached、Redis等。毕业于浙江大学。前百度高级工程师,参与社区搜索部多个基础系统的设计与实现。代表58同城多次参与QCon,SACC,DTCC,Top100等业界大会嘉宾演讲,并为《程序员》杂志两次撰稿。

Presentations

MongoDB在58同城的应用实践 议题

随着大数据时代的到来,各种NoSQL数据存储产品蜂拥而至,MongoDB作为一支市场占有率较高的分布式文档存储数据库,它具备了auto-sharding、高可扩展性、丰富的查询支持等特性,相比较传统关系数据库,MongoDB具有了较大的诱惑力。结合58同城的特点,本Topic重点讲述:MongoDB在58同城的使用情况;为什么要使用MongoDB; MongoDB在58同城的架构设计与实践 ;针对业务场景我们在MongoDB中如何设计库和表 ;数据量、并发量并发,遇到典型问题和解决方案;社区贡献和展望。 来吧,一起揭开MongoDB应用实践的神秘面纱!

崔宝秋是小米科技有限责任公司的首席架构师,小米平台团队负责人,有十多年传统软件和互联网产品的开发经验。2000年获得美国纽约州立大学石溪分校计算机系博士学位。2000年至2006年历任IBM高级工程师和高级研发经理,从事数据库优化和内核总控等核心模块的工作。2006年至2010年任雅虎搜索技术(YST)核心团队主任工程师,参与了雅虎搜索引擎的热门搜索、查询优化和新一代查询缓存等重要项目的研发。2010年至2012年任LinkedIn主任工程师,开始接触社交网络,并负责LinkedIn搜索产品的研发,期间作为5个创始成员之一开源了SenseiDB,一个分布式实时搜索系统。2012加入小米科技有限责任公司,现负责小米服务器和云平台团队的工作。

Presentations

小米大数据和黑科技 主题演讲

小米不仅是一家手机公司、智能硬件公司,也是一家软件和互联网服务的公司,小米努力打造新国货,为用户提供了一系列优质的产品。小米在为用户服务的过程中,提供了多种大数据的服务,如云照片、云联系人、全局搜索、视频服务、应用分发、新闻资讯等,积累了超过100 PB数据,所以,小米也是一家真正的大数据公司。小米重视前沿技术研发,成立了探索实验室,在VR/AR和机器人领域研发黑科技。为了发挥大数据的价值,探索实验室会向AI和深度学习领域开拓,基于小米大数据和广阔的产品线,开发出领先的人工智能新科技和新产品。

小米数据平台的实践 议题

在这个演讲中, 我们将介绍在小米这样一个数据量急速增长的创业公司里,如何基于Hadoop生态系统和其他开源软件打造小米的数据平台,并在此基础上不断演进以满足小米各个业务的数据需求。我们还将介绍一下小米在大数据相关开源软件上的参与,在信息安全和隐私保护上的一些实践经验,以及我们目前在数据驱动上面临的一些挑战。

崔岸雍, 就职于阿里云数据事业部,花名永翎。目前负责阿里大数据体系上的数据分析与可视化产品。DataV 5年以来一直支撑阿里集团双11,集团对外可视化展示等大屏可视化的技术与设计,近两年开始对外产品输出,服务于公安、电力、烟草、电商、物流等各行业的数据可视化大屏需求。个人一直活跃于国内数据可视化、数据新闻和开放领域,Djchina.org数据新闻网联合创始人,开放数据中国负责人之一,曾负责组织翻译《数据新闻手册》一书

Presentations

如何为您的企业做一个数据可视化大屏? 议题

数据大屏越来越普及,几年前还只是在电影中或者双11现场才会看到的数据大屏幕,现在几乎随处可见,无论是电商公司需要一块实时订单分析的展示,还是交通领域用于车辆车流的分析,还是物联网领域用于设备运检的监控,或是说想用数据作为展现企业业务的手段?那么该如何设计,架构,实施就是本次演讲的主要内容。

张铭,北京大学信息科学技术学院教授,博士生导师,ACM Education Council惟一的中国委员兼任中国ACM教育专委会主 席,是ACM/IEEE IT2017学科规范起草小组成员。自1984年考入北京大学,分别获得学士、硕士和博士学位。研究方向为文本挖掘、社会网络分析、教育大数据等,目前主持国家自然科学基金和教育部博士点基金在研项目,合作发表科研学术论文100多篇(ICML, KDD, AAAI, IJCAI, ACL, WWW, TKDE等A类会议和期刊),获得ICML 2014最佳论文奖。发表了SIGCSE、L@S等教学研究论文,出版学术专著1部,获软件著作权6项,获发明专利3项。主编多部教材,其中2部教材为国家“十一五”规划教材,《数据结构与算法》获北京市精品教材奖并得到国家“十二五”规划教材支持。主持的“数据结构与算法”被评选为国家级和北京市级精品课程,也是教育部精品资源共享课程。

Presentations

融合知识图谱的文本异构信息网络构建以及在机器学习中的应用 议题

机器学习的过程往往是需要监督的,而无数的互联网用户为维基百科贡献了智力劳动,使得它成为一个质量较高的通用知识框架。关键的挑战在于如何调整和表示wiki的通用知识去适应各个领域,从而更好的辅助机器学习。我们首先介绍通用知识图谱的特定化框架,包含无监督的语义分析模块以及实体-类型消歧的语义过滤模块。特定化之后的通用知识自然地表示为含有多种实体、关系和类型所构成的异构信息网络,然后将异构信息网络中的特定化知识应用于机器学习模型中。我们以文本聚类、文本相似度计算为应用实例,使用Freebase和YAGO2这两个知识库作为通用知识的来源,在两个文本的基准数据集(20 newsgroups 和RCV1)上的实验结果表明使用通用知识作为间接的监督,能够显著的提高现有最好的聚类算法和相似度计算方法。 相关工作已经发布于KDD、AAAI、IJCAI、ICDM、SDM等顶级学术会议。

去哪儿网大住宿数据部高级工程师,2008年毕业于北京邮电大学。目前负责大住宿数据部的数据系统架构设计、用户画像、模型定价系统的设计与开发.

Presentations

Alluxio帮助去哪儿网酒店数据业务最高提速300x 议题

Qunar作为国内在线旅游门户网站,拥有丰富的业务数据和UGC数据。为了能够敏锐的发现系统和用户行为变化,我们构建了一套实时数据流处理和反馈系统。由于系统接入的异构数据源数以百计,系统上运行分析方法也是千奇百怪,所以我们搜罗了一揽子功能强大的工具解决各种需求,这其中比较核心的工具有ELK、Spark、Flink、Alluxio(原名Tachyon)、Mesos和Marathon等。其中Alluxio作为一款内存为中心的分布式存储系统,在我们的系统中扮演着数据纽带的作用,简化系统复杂度(技术收敛),降低读写I/O。比如:流数据持久化到设备和UnderFS; Spark Streaming Blk/Checkpoint外部存储; Batch和Streaming的数据共享; Alluxio以其丰富的功能和优异性能,使得我们构建一个高可用,灵活可伸缩实时数据流平台的工作成为了可能。

 方芳博士是亿航的产品开发副总裁,负责监管与消费级、行业级无人机,以及载人飞行器EHang 184相关的所有产品开发工作。此前,她在微软公司任职8年,搭建并发展了其云平台——微软Azure,先后负责了战略,产品管理,业务规划和运营等多项职能。进入微软公司之前,她曾作为高科技行业的专家在麦肯锡担任了3年的管理咨询。方芳博士在卡内基梅隆大学获得了计算机工程博士学位。亿航是一家专注于智能飞行器研发,生产和销售的科技创新企业。


Claire Fang is the VP of product development at EHang, Inc., a technological innovation company specializing in R&D, manufacturing, and sales of intelligent aerial vehicles, where she oversees all the product development efforts in consumer and commercial drones, as well as the human-carrying drone EHang 184. Previously, she spent eight years at Microsoft, building and growing its cloud platform, Microsoft Azure. Claire led multiple functions in Microsoft Azure, including strategy, product management, business planning, and operations. Prior to Microsoft, she was a management consultant at McKinsey for three years, where she served as an expert in the high-tech operations practice. Claire earned her PhD in computer engineering from Carnegie Mellon University.

Presentations

无人机— 海量数据的新领域 议题

我们将介绍无人机行业的概况,发展及其他对数据采集方式带来的变革。消费级无人机现在已经可以实现单人的安全操控,数千米航程的覆盖,并可搭载多种相机和传感器。它们能够到达那些过去看来太危险,太遥远或是成本过高的区域。随着数据获取成本的降低,需要被传输、处理、分析和存储的实时数据势必激增。微软Azure和亚马逊AWS这类云服务使我们得以快速建立起可扩展的数据存储库,而毋需担心数据的冗余及可用性等问题。我们将介绍几种应用实例,并阐释大数据平台支持这些应用的必要性。

朱军,清华大学计算机系副教授、博士生导师、智能技术与系统国家重点实验室教学副主任、卡内基梅隆大学兼职副教授。主要从事机器学习、贝叶斯统计等基础理论、高效算法及相关应用研究,在国际重要期刊与会议JMLR、PAMI、ICML、NIPS等发表学术论文70余篇。受邀担任人工智能与模式识别著名杂志TPAMI的编委,担任机器学习国际大会ICML2014地区联合主席, 担任ICML (2014–2016)、NIPS (2013, 2015)、UAI (2014–2016)、IJCAI2015、AAAI2016等国际会议的领域主席。获微软学者、中国计算机学会优秀博士论文奖、中国计算机学会青年科学家奖、国家优秀青年基金、中创软件人才奖等,入选IEEE Intelligent Systems杂志评选的“AI’s 10 to Watch”、国家“万人计划”青年拔尖人才、及清华大学221基础研究人才计划。

Presentations

Petuum:一种新型的分布式大数据机器学习平台 议题

机器学习是从大数据中提取有价值信息的关键技术。和传统的计算不同,面向机器学习的计算具有显著的特性,这些特性在已有的分布式平台上通常没有很好地被利用。在这个报告中,我们将介绍Petuum,一个面向大数据机器学习的新型分布式平台,Petuum基于对机器学习算法特性的深度总结,在系统层面和算法层面进行了全新的设计和实现,在性能上获得了显著提升,为大数据机器学习提供了一个通用的高效引擎平台。报告中将用若干典型模型(包括:深度学习、主题模型、矩阵低秩分解等)作为例子阐述实际的性能。

杨克特,花名鲁尼。2011年获得浙江大学计算机硕士学位后,一直在阿里巴巴从事技术研发工作,目前在搜索事业部离线部门当任搜索研发专家一职。

Presentations

基于Druid和Drill的OLAP引擎 议题

Druid是一个基于列存储的分布式OLAP查询系统,支持多维度ad hoc的查询以及具有良好的扩展性。我们将介绍Druid在阿里巴巴的实践以及我们对Druid做出的扩展和改进,以及我们如何将Druid集成进drill,使其具有SQL查询和应对更加复杂的Query的能力。

柯严博士是亿航的首席软件开发官,领导公司无人机的飞控算法,移动端和PC端应用,服务器以及云服务的研发工作。此前,他在微软公司任职8年,负责带领必应 Entity Understanding 团队,并为必应的Knowledge Pane,问答体系,Satori Knowledge Graph以及Web Index Selection开发了核心算法。柯严博士是数据挖掘,机器学习,计算机视觉和分布式系统领域的专家。他从卡内基梅隆大学获得了计算机科学学士学位,电子及计算机工程硕士学位,和计算机科学博士学位,并持有5项美国专利。亿航是一家专注于智能飞行器研发,生产和销售的科技创新企业。
 

Yan Ke is the chief software development officer of EHang, Inc., a technological innovation company specializing in R&D, manufacturing and sales of intelligent aerial vehicles, where he leads the R&D of its drone flight control, mobile and PC apps, and server and cloud services. Yan is an expert in data mining, machine learning, computer vision, and distributed systems. Previously, he spent eight years at Microsoft leading the Bing Entity Understanding Group, where he architected and developed the core algorithms for Bing’s Knowledge Pane, Question Answering System, Satori Knowledge Graph, and Web Index Selection. Yan has a bachelor’s degree in computer science, a master’s degree in electrical and computer engineering, and a PhD in computer science, all from Carnegie Mellon University, and holds 5 US patents.

Presentations

无人机— 海量数据的新领域 议题

我们将介绍无人机行业的概况,发展及其他对数据采集方式带来的变革。消费级无人机现在已经可以实现单人的安全操控,数千米航程的覆盖,并可搭载多种相机和传感器。它们能够到达那些过去看来太危险,太遥远或是成本过高的区域。随着数据获取成本的降低,需要被传输、处理、分析和存储的实时数据势必激增。微软Azure和亚马逊AWS这类云服务使我们得以快速建立起可扩展的数据存储库,而毋需担心数据的冗余及可用性等问题。我们将介绍几种应用实例,并阐释大数据平台支持这些应用的必要性。

王奕恒来自于Intel大数据技术团队,专注于大数据分析领域。他的同事和他致力于在Apache Spark平台上开发分布式机器学习算法,以满足大数据背景下的机器学习需求。他还为这些分布式机器学习算法在Intel平台上进行优化,以及帮助Intel的客户为他们的业务开发大数据分析程序。

Presentations

Apache Spark高级机器学习实践 教学辅导课

在大数据时代,越来越多的企业引入了机器学习技术以提高效率和降低风险。而进行大数据的机器学习是一件比较具有挑战性的工作。作为最流行的大数据处理平台,Apache Spark提供了丰富的机器学习组件,帮助开发者大大降低了这项工作的复杂性。Intel帮助大型互联网和企业用户在Spark平台上做了大量机器学习的实现和优化工作。在本次课程中,来自Intel的工程师会带领大家探索Spark上的机器学习组件以及一些高级功能,并分享真实案例中的实践经验。

基于Apache Spark的金融欺诈检测 议题

在金融领域使用现代大数据分析技术正在逐步成为趋势。数据正在以更大的规模和更多的维度涌入,丰富了信息的同时也带来了数据分析领域快速增长的复杂度,在数据统计,特征工程和模型调优方面也对自动化框架提出了更高要求。通过与一些顶级的支付公司进行合作,我们开发出了基于Spark构建欺诈检测系统的完整解决方案。本次分享将介绍我们基于Spark DataFrame和机器学习Pipeline搭建的完整工具链和相关经验。

开源软件爱好者,10多年软件开发和管理经验,曾在新浪微博担任微博大数据架构师,负责微博核心数据存储以及大数据计算解决方案;以及在BEA、甲骨文(中国)研发中心担任软件开发工程师,积累了丰富的软件开发与管理经验。 目前就职于TalkingData 数据科学部专注于大数据领域,在Hadoop、Spark、HBase管理与开发有深入研究。

Presentations

DataCloud: 大数据价值管理平台 议题

如今越来越多的企业依赖于大数据进行分析和预测,将数据转化成智慧是数据分析和探索的主要目的,如何科学的管理数据使之形成知识体系,并且指导企业的决策具有广泛的商业前景。 本次讨论的主要议题如何融合开源hadoop生态圈产品,打造一个简单易用、支持超大规模数据管理、加工、查询分析平台。

王晨,现担任昆仑数据CTO,清华大学软件学院大数据中心总工程师,《中国制造2025》路线图(操作系统与工业软件)编写组成员。加入清华大学前担任IBM中国研究院资深研究员,数据管理技术研究部高级经理,IBM软件部中国信息管理软件开发中心核心技术领导团队成员,IBM全球分析云研究战略负责人。他领导并参与了多个数据领域IBM新产品以及产品新技术的研发。他同时在数据库与数据分析领域的一流国际会议与期刊(SIGMOD, VLDB, TKDE, TVCG等)上发表了20余篇论文,拥有50余项中国、美国专利(含申请中),担任多个学术会议审稿人。他是中国计算机学会数据库专家委员会委员。他拥有复旦大学计算机科学与技术专业学士与硕士学位,比利时鲁汶根特商学院—北京大学MBA学位。

Presentations

工业大数据系统及其应用实践 议题

以智能化为特征的高端制造已成为新工业革命国际竞争的制高点。麦肯锡认为制造业是美国首个数据量超EB级的领域。“中国制造2025技术路线图”更将工业大数据平台作为我国工业软件领域唯一重点突破产品。本议题将着重介绍在工业这个特定领域中,如何构建以处理机器设备产生的大量时序数据为主的大数据系统,其中的关键技术突破,以及如何通过大数据平台以及大数据分析技术对工业智能制造与服务转型予以有力支撑。

王绍翾,花名大沙。现任阿里巴巴搜索事业部高级专家,主要方向是离线大数据和架构开发。加入阿里巴巴之前,曾在Facebook core data部门开发分布式图关系数据库TAO。本科与硕士毕业于北京大学,博士毕业于加州大学圣迭戈分校。

Presentations

基于Druid和Drill的OLAP引擎 议题

Druid是一个基于列存储的分布式OLAP查询系统,支持多维度ad hoc的查询以及具有良好的扩展性。我们将介绍Druid在阿里巴巴的实践以及我们对Druid做出的扩展和改进,以及我们如何将Druid集成进drill,使其具有SQL查询和应对更加复杂的Query的能力。

2008毕业于上海交通大学计算机,获得计算机科学与工程系硕士学位. 2008–2014, Nvidia(上海)从事GPU架构设计,CUDA通用计算的相关工作. 2014–现在,星环科技,Hadoop的易用性,数据迁移,同步等工作

Presentations

Hadoop基于CDC (change data capture) 的数据同步 议题

数据同步机制的缺乏严重限制了Hadoop在更多新领域的推广和应用,怎么把数据实时/准实时地从其他数据库同步到Hadoop成为推广Hadoop的一个非常关键的因素。用户希望在保证数据的一致性,参照完整性的前提下,把CDC (change data capture) 的增量数据实时/准实时地同步到Hadoop集群,使之能够应用到实时性要求更高的业务上。星环科技针对这种对实时性要求比较高的业务需求,开发了一种基于CDC增量数据的同步方案,有效的解决了这个问题,极大的扩展了Hadoop的应用范围。

褚崴博士,现任职阿里云iDST资深技术专家,负责分布式机器学习平台产品的研发。之前曾任职美国微软首席科学家,美国雅虎实验室科学家,美国哥伦比亚大学副研究科学家。2003年至2006年,在英国伦敦大学学院Gatsby Unit做博士后研究工作。2003年在新加坡国立大学获得博士学位,统计机器学习方向。主要从事机器学习与大数据挖掘领域的研究,在个性化推荐系统和搜索产品等领域有多年的研发经验。在顶级期刊和国际会议上累计发表40余篇论文,并担任评审委员。Google Scholar引用3000多次,H-指数达到28;ACM WSDM 2011年会获得最佳论文奖。2016年入选第十二批国家“千人计划”创新长期类人才。

Presentations

分布式深度学习算法产品及其在蚂蚁金服业务中的应用 议题

近年来深度学习技术迅猛发展,在图像识别,语音交互,机器翻译等领域展现出了巨大的潜力。依托阿里云自主研发的分布式数据存储与计算服务ODPS,我们研发了机器学习平台产品PAI (platform of artificial intelligence),支持分布式的深度学习算法产品。在CPU和GPU混布计算集群上,深度学习算法产品进一步提升高性能计算的分布式能力,海量数据得以在多机多卡间并行处理,大幅提升训练收敛速度。在蚂蚁金服的业务中,分布式深度学习算法产品也得到了广泛的应用,解决关键业务难题。我们将详细介绍分布式深度学习算法产品的实现和性能指标,以及在蚂蚁金服业务中的一系列应用,并展望下深度学习将来在阿里产品体系中的潜在应用。

演讲者是汤森路透企业数据科学家。他曾在不同的会议演讲过,包括在财务心情指数,能源经济学和计算金融计量经济学方面。他拥有哥伦比亚大学的金融工程硕士学位和新加坡国立大学商业分析硕士学位。他有超过12年的金融市场和数据分析经验曾在投资银行,证券交易所和石油巨头公司工作过.

Presentations

金融界大数据的智能语义网 议题

汤森路透是全球最大的金融信息提供商之一。它每天产生的数据量较大从宏观金融新闻至买卖打勾大量数据。汤森路透使用了DataFusion数据融合应用软件合并了金融、网上语义的数据和不同庞大机构内里的数据构形成了世界上最大的金融数据仓库。这方案能解决不少机构在使用内外数据的问题。 这些外部和内部数据是由开源PermIDs联系在一起。它用来代表无论是事实,事件,地理位置,任何主题,人或公司的用例。 PermIDs使用在汤森路透DataFusion数据融合软.这乃是一个图形数据库,能纳入不同样的数据来源. 它的架构是3层次包括Hadoop的MapReduce的计算法,搜索索引Solr的框架和Accumulo数据库键/值对存储图形的关系。 广泛的用途包括桶集群不同风险因素给于金融资产险经和风险经理参考,协助工业企业在供链关系的风险管理和在银行的KYC客户尽职调查的风险评估。

连城于 2013 年下半年开始接触 Spark,并在2014 年初加入 Databricks 成为 Spark SQL 主要开发者之一;目前是 Apache Spark 和 Apache Parquet 项目的 committer;主要兴趣集中于数据库和编程语言。

Presentations

Spark中结构化流计算的深度介绍 议题

结构化流计算是Apache Spark的最新成果,旨在帮助用户的流计算的实现更加简单,而无需重新学习一个新的编程模型或新系统。在本主题课程中,我会介绍Spark的结构化流计算对事件时间、失序/延误的数据的支持,它的会话化和它与批次处理系统的集成。我会介绍它的API并展示使用它是如何很简单地实现一个强大的持续流计算应用系统。

来自于Intel大数据技术团队,专注于大数据分析领域,主要研究分布式机器学习的原理及应用。

Presentations

Apache Spark高级机器学习实践 教学辅导课

在大数据时代,越来越多的企业引入了机器学习技术以提高效率和降低风险。而进行大数据的机器学习是一件比较具有挑战性的工作。作为最流行的大数据处理平台,Apache Spark提供了丰富的机器学习组件,帮助开发者大大降低了这项工作的复杂性。Intel帮助大型互联网和企业用户在Spark平台上做了大量机器学习的实现和优化工作。在本次课程中,来自Intel的工程师会带领大家探索Spark上的机器学习组件以及一些高级功能,并分享真实案例中的实践经验。

任职英特尔亚太研发中心大数据部门,作为资深研发工程师在安全和大数据领域从事开发和优化工作多年。目前担任研发经理,所在团队在Hadoop和Streaming领域诸多项目上有重要参与和贡献。热衷开源贡献,是Apache Hadoop committer,Apache Directory PMC 和Apache Kerby的关键发起者。

Kai Zheng is a big data engineering manager at Intel, where he explores broad enablement and optimization on the company’s IA platform. He has worked in big data space for a number of years across the security, storage, and computing domains. Kai is also an Apache Hadoop committer, a Kerby initiator, and a major contributor to HDFS erasure coding.

Presentations

HDFS erasure coding: 一半的成本,更快的速度 议题

HDFS-EC通过引入纠错码的方式大幅降低了HDFS的存储开销,目前项目的第一阶段已经进入Trunk,并将作为主要的新功能随Hadoop 3.0发布。随着项目的进展,我们也对HDFS-EC的性能进行了全面的测试。本次演讲的主题是展示并分析最新的测试数据,帮助用户了解HDFS-EC的性能特性。

讲师见面时间 : Zhang Zhe见面答疑时间 讲师见面时间

(1) Hadoop用户希望在Hadoop 3里看到哪些新的功能和变化。(2) HDFS开发者和用户对EC(纠删码)有哪些意见。是否对EC第二阶段感兴趣。(3) 我很希望能讨论怎样有效地在云计算平台上运行Hadoop以及其它大数据应用。

浙江大学毕业,10年入职淘宝负责物流相关业务与技术发展。先后参与物流平台建设,主导物流服务平台、菜鸟BOSS系统、菜鸟棱镜平台建设。在大规模分布式系统建设与大数据计算与挖掘方面有实践经验

Presentations

菜鸟业务全链路监控中的大数据应用 议题

菜鸟网络是一家数据驱动社会化协同物流网络建设的技术公司。菜鸟网络的业务形态复杂多样。本次演讲带来的菜鸟棱镜平台通过大数据实时计算与应用、图计算与机器学习等,从事前、事中、事后全方位保障业务SLA

陈奇: Think Big 大中华区总经理,现领导 Think Big 团队致力于大数据以及 open source 相关的咨询以及服务。是中国大数据领域的开拓者, 他最先把大数据的理念带入了国内金融,电信,制造等领域 并加以实施。曾负责创建了IBM BigInsights团队,领导BigInsights 全世界首发。也领导过 Intel Hadoop 团队,帮助确立IDH在中国市场 的领先地位,曾帮助建立Cloudera 中国。 是亚太市场大数据领域的开拓者与传播者。

Keith Chen is the regional director for greater China at Think Big, where he leads the Think Big team that provides consulting on and service for big data- and open source-related technologies. Keith is a pioneer in big data and a big data evangelist in China and the larger the Asia Pacific region; he was the first person to bring big data concepts to the finance, telecom, and manufacture sectors in China and land them. He built the IBM BigInsights team from the ground and led the first worldwide BigInsights release. Previously, Keith led Intel’s Hadoop team and helped to establish IDH market leadership in China. He also helped to start Cloudera China.

Presentations

火车物联网 议题

大数据是如何让你的上班之旅更舒适?

南京大学在读博士生, Alluxio 社区核心贡献者

Presentations

内存为中心的开源虚拟分布式存储系统Alluxio(前Tachyon)入门 教学辅导课

本辅导课内容为了解Alluxio(前Tachyon)的基本原理, 应用场景, 以及如何使用Alluxio让分布式计算引擎以内存速度共享以及交换数据. 在上机实践环节中, 参与者将在老师指导下亲自动手部署和运行Alluxio, 为Alluxio挂载外部存储系统(如HDFS), 使用Alluxio内置命令行与系统交互, 并尝试使用常见计算引擎(如Apache Spark)搭建从Alluxio系统中读写的大数据应用. 此外学员还将学习Alluxio内置的常用命令行操作, Web界面使用操作, 使用面向开发者的API. 本辅导课理想参加者群体包括(但不限于)大数据应用开发人员, ETL开发人员, 数据科学家,存储管理人员。

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

来自全球Strata+Hadoop 会议的照片。

Stay Connected Image 1

北京

Stay Connected Image 3

新加坡

Stay Connected Image 2

伦敦

阅读关于大数据的最新理念。

ORB Data Site