O'Reilly、Cloudera 主办
Make Data Work
2016年8月3-4日:培训
2016年8月4-6日:会议
北京,中国

讲师幻灯片

议题结束后讲师一旦把文件给我们就会在和大家分享。如果没找到需要的文件请稍后回来查看!(请注意有些讲师选择不分享讲话资料。)

Qunar作为国内在线旅游门户网站,拥有丰富的业务数据和UGC数据。为了能够敏锐的发现系统和用户行为变化,我们构建了一套实时数据流处理和反馈系统。由于系统接入的异构数据源数以百计,系统上运行分析方法也是千奇百怪,所以我们搜罗了一揽子功能强大的工具解决各种需求,这其中比较核心的工具有ELK、Spark、Flink、Alluxio(原名Tachyon)、Mesos和Marathon等。其中Alluxio作为一款内存为中心的分布式存储系统,在我们的系统中扮演着数据纽带的作用,简化系统复杂度(技术收敛),降低读写I/O。比如:流数据持久化到设备和UnderFS; Spark Streaming Blk/Checkpoint外部存储; Batch和Streaming的数据共享; Alluxio以其丰富的功能和优异性能,使得我们构建一个高可用,灵活可伸缩实时数据流平台的工作成为了可能。
Apache Beam (incubating) 的目标是解决数据处理领域中共有的几个关键问题:可移植性、可维护性和抽象化。您可以只撰写你的数据流水线一次(有多种语言的SDK可供选择),就可以使用到强劲的无序流式数据处理语义,并在多种引擎和多种平台上执行。
过去十年,Apache Hadoop从无到有,从理论概念演变到如今支撑起若干全球最大的生产集群。接下来的十年,Hadoop将继续壮大,并发展支撑新一轮的更大规模、高效和稳定的集群。 我们此次将向大家全面介绍即将到来的Apache Hadoop 3.0新版本——从版本发布状态、背后的故事,到如HDFS erasure coding、YARN federation、NN k-safety等全新的功能。
Apache HBase, Apache Hadoop生态系统中的分布式数据库,是当今最流行的非关系型数据库之一,也被许多世界级的公司所使用,如阿里巴巴,小米,Facebook和Apple,用来存储和分析PB级的数据。 竟成和伟将为您讲述HBase的架构,并详解如何使用HBase提供实时的大数据服务。
在大数据时代,越来越多的企业引入了机器学习技术以提高效率和降低风险。而进行大数据的机器学习是一件比较具有挑战性的工作。作为最流行的大数据处理平台,Apache Spark提供了丰富的机器学习组件,帮助开发者大大降低了这项工作的复杂性。Intel帮助大型互联网和企业用户在Spark平台上做了大量机器学习的实现和优化工作。在本次课程中,来自Intel的工程师会带领大家探索Spark上的机器学习组件以及一些高级功能,并分享真实案例中的实践经验。
如今越来越多的企业依赖于大数据进行分析和预测,将数据转化成智慧是数据分析和探索的主要目的,如何科学的管理数据使之形成知识体系,并且指导企业的决策具有广泛的商业前景。 本次讨论的主要议题如何融合开源hadoop生态圈产品,打造一个简单易用、支持超大规模数据管理、加工、查询分析平台。
HDFS-EC通过引入纠错码的方式大幅降低了HDFS的存储开销,目前项目的第一阶段已经进入Trunk,并将作为主要的新功能随Hadoop 3.0发布。随着项目的进展,我们也对HDFS-EC的性能进行了全面的测试。本次演讲的主题是展示并分析最新的测试数据,帮助用户了解HDFS-EC的性能特性。
Over the next decades, China will take the global lead in innovation. The old stereotype of copycat China will give way to an innovative China. Christopher Nguyen explores one significant area of innovation: machine intelligence and robotics. Where will these advances in machine learning and AI take us over the next 50 years?
随着大数据时代的到来,各种NoSQL数据存储产品蜂拥而至,MongoDB作为一支市场占有率较高的分布式文档存储数据库,它具备了auto-sharding、高可扩展性、丰富的查询支持等特性,相比较传统关系数据库,MongoDB具有了较大的诱惑力。结合58同城的特点,本Topic重点讲述:MongoDB在58同城的使用情况;为什么要使用MongoDB; MongoDB在58同城的架构设计与实践 ;针对业务场景我们在MongoDB中如何设计库和表 ;数据量、并发量并发,遇到典型问题和解决方案;社区贡献和展望。 来吧,一起揭开MongoDB应用实践的神秘面纱!
对于优步和其他大数据公司而言实时交互式分析正变得越来越重要。在这个讲话中会介绍我们是如何使用Presto来解决优步的特殊问题。我们也会介绍优步的大数据架构,尤其是开发和部署Presto来实现秒级查询千万亿字节规模数据的部分。
现在Spark已经获得了广泛的使用。由于它框架设计上的灵活性,Spark可以运行在不同的集群管理器模式下:Standalone、Mesos和YARN。在本讲话里中我们会聚焦于运行在YARN上的Spark,讲解如何以及为何要在YARN上运行Spark。我们还会介绍一些最佳实践的经验,并介绍这个领域的未来。
目前Spark在实时计算领域的使用越来越广泛,对应广告系统或者电商业务,实时性就意味着系统稳定性的重要性。Spark开发者可以自己在任何机器上显式提交job,然后自己在机器上排查,异常情况下排查耗时长,job的稳定性保障受限,比如机器挂或者idc异常就无从考虑。 我们的RCS平台(real-time computing service)可以让开发者对Spark的后端集群、指标监控、任务容灾全部透明,无线关注集群细节,专注于业务的实现;同时满足实时任务99.99%的稳定性保障。因此RCS平台对开发者提供一个开发平台,让用户可以自助提交job、源端流式数据的接口封装(无须关注Kafka的具体地址等)、任务容灾和集群容灾一站式的数据开发平台。
在传统制造业的互联网转型中,物联网和大数据扮演着核心的角色: 降低成本,提高效率,增强用户体验,更重要的是彻底改变了企业与用户的关系,实现从销售硬件到提供服务的转型。
腾讯分布式数据仓库(Tencent distributed data warehouse,简称 TDW),是腾讯工程技术事业群数据平台部基于开源软件研发的大数据处理平台,是腾讯内部最大的离线数据处理平台 。2016年开始,TDW数据引擎开始从TDW-Hive切换到TDW-Spark-SQL,无论从整体的任务运行效率和资源消耗,都得到了很大的优化。
无论是天气预报,还是新药的研发, 我们的世界正越来越多地依靠计算机来解决各种各样的数据和工程问题。这个技术讲座将介绍用于加速机器学习和深度学习的新技术:英特尔高性能软件,主要包括数据分析加速库(Intel DAAL) 和 高性能数学核心库(Intel MKL)。
近年来深度学习技术迅猛发展,在图像识别,语音交互,机器翻译等领域展现出了巨大的潜力。依托阿里云自主研发的分布式数据存储与计算服务ODPS,我们研发了机器学习平台产品PAI (platform of artificial intelligence),支持分布式的深度学习算法产品。在CPU和GPU混布计算集群上,深度学习算法产品进一步提升高性能计算的分布式能力,海量数据得以在多机多卡间并行处理,大幅提升训练收敛速度。在蚂蚁金服的业务中,分布式深度学习算法产品也得到了广泛的应用,解决关键业务难题。我们将详细介绍分布式深度学习算法产品的实现和性能指标,以及在蚂蚁金服业务中的一系列应用,并展望下深度学习将来在阿里产品体系中的潜在应用。
到2020年,数据中心首要的工作负荷会是数据分析。英特尔承诺帮助数据分析更快,更容易,并且更具洞察力。英特尔通过如下方法进行数据分析的创新:领先地位的半导体产业优势,对开源软件优化方面的贡献例如从Hadoop/Spark到机器学习库(machine-learning library)和TAP (Trusted Analytics Platform)。英特尔的努力使得医疗保健,零售,运输和其他行业的客户持续显著地获益。英特尔努力了解客户针对数据分析,机器学习,深度学习,和物联网等方面在未来的增值计划。数据分析的生态系统正在全力前进,而英特尔也正在释放它的潜力来改进业务表现,改善人类的生活。
Apache Sentry (哨兵) 是由Cloudera发起的Hadoop的第一个可以提供企业级安全系数的细粒度存取控制系统。它整合企业级认证服务系统,例如Kerberos,来实现企业的高质量大数据的安全性,可以提供金融、政府、医疗保险和其它对敏感数据的访问有严格监管的安全服务。
在金融领域使用现代大数据分析技术正在逐步成为趋势。数据正在以更大的规模和更多的维度涌入,丰富了信息的同时也带来了数据分析领域快速增长的复杂度,在数据统计,特征工程和模型调优方面也对自动化框架提出了更高要求。通过与一些顶级的支付公司进行合作,我们开发出了基于Spark构建欺诈检测系统的完整解决方案。本次分享将介绍我们基于Spark DataFrame和机器学习Pipeline搭建的完整工具链和相关经验。
微软的ASG (应用与服务集团)包含Bing, Office, Skype。每天产生多达5PB以上数据,如何构建一个高扩展性的data audit服务来保证这样量级的数据完整性和实时性非常具有挑战性。 在这个议题里,我将介绍微软ASG大数据团队如何利用Kafka,Spark以及Elasticsearch来解决这个问题。
Mesos推出了的DCOS作为企业级的资源管理框架能让数据中心资源分配更易于使用,同时让在外部运行企业应用更可靠。底层使用Mesos构件云计算平台,而将Hadoop平台作为应用之一,运行于DCOS中既满足企业对于数据中心集群弹性分配的云计算需求,同时又使得数据中心的大数据能力得到更好的保障。是未来很有希望的技术发展路线之一。本议题将解析Hadoop on DCOS的架构以及在实际生产应用中的实践。
越来越多的企业依赖于海量数据分析结果进行关键业务决策。 大规模下的交互式/即席数据分析,是进行数据分析和探索的主要途径,具有广泛的商业前景。 Baidu BigSQL由百度基于Spark SQL研发,为百度内部业务和广大公有云用户提供即席查询分析服务,具有简单易用、超大规模支持、数据结构灵活、成本极低等特点。
在线服务的迅速兴起促使互联网用户和商业模式成爆炸式增长,一个新的“亿万用户时代”已经来临。与此同时,精心策划的欺诈活动和黑客攻击也随之蔓延:他们注册大量的虚假账户,盗取用户数据,进行各种非法活动谋取暴利,并不断变换攻击手段和模式。对在线服务商而言,这些恶意欺诈行为在用户体验,经济收益,品牌安全和信誉等各方面都造成了不可估量的损失。
随着互联网的高速发展,数据量爆发式地增长,数据维度越来越丰富,这些都为机器学习、人工智能的发展和应用提供了良好的土壤。同时,人工智能的成果也反过来让数据产生更大的价值,成为真正的“智能数据”,两者相辅相成,相互促进,让各种数据应用越来越智能化,人性化。人工智能服务已经频繁地出现在各种大数据应用中,例如:搜索推荐、语音识别、视频识别和聊天机器人等等。人工智能技术不仅包含各种机器学习算法以及对数据的合理利用方法,也离不开全面的工程技术支持。我们将介绍阿里巴巴基于大数据的机器学习算法平台和各种人工智能应用,展示人工智能和大数据的融合所带来的技术发展,及其对业务边界的拓展。
大数据机器学习和数据分析是一个同时涉及机器学习和大数据处理技术的交叉性课题。目前大数据机器学习与数据分析一个最大的问题是:机器学习研究者和数据分析师难以掌握和使用各种大数据编程技术和平台,因此,在两者间存在一个很大的鸿沟。因此,有必要研究提供底层具有大数据处理能力、而上层便于普通机器学习研究者和数据分析师使用的大数据分析编程环境和平台。 本报告将简要介绍大数据机器学习系统的技术现状、技术特征和技术问题、典型大数据学习系统。在此基础上介绍我们所研究实现的全球第一个跨平台统一大数据机器学习与数据分析编程框架与系统“大章鱼(Octopus)”。该系统底层可集成Hadoop、Spark、MPI、Flink等主流大数据处理平台,上层提供基于大规模矩阵的机器学习和数据挖掘算法编程模型、接口和软件框架,并提供基于标准R和Python语言的编程环境,可实现底层大数据平台对上层数据分析程序员完全的透明性
Qi Lu explores data-model intelligence, the Bing Knowledge Graph, the Microsoft Graph, and Cortana SDKs.
Apache Kylin已经在众多的on-premises环境中得以大量使用,包括eBay,百度,网易,京东,美团,唯品会,中国移动等以解决他们的大数据挑战。有越来越多的人活跃于社区并期望了解他们如何使用和部署Apache Kylin,为什么选择Kylin以及用Kylin来解决什么样的业务问题,与其他系统的差别,对比及性能比较等。在这个演讲中,来自Kyligence的技术合伙人兼资深架构师史少峰,将使用一些实际的案例来解答这些疑问,并介绍Apache Kylin之后的路线图及新特性等。
滴滴出行作为全球最大的移动出行平台,每天收集和需要分析处理的数据量非常大。这些数据形式多样:既包括存储于数据库中的业务数据,也包括各种API请求所记录的文本日志。此外,更大的挑战在于业务上需要我们实时的分析处理如此大规模的数据。从数据生成到可被分析查询,系统延迟在秒级。我们选用Druid/Samza/Kafka/Spark/Hadoop等开源技术栈,开发了符合Lambda architecture的OLAP系统。本次演讲我们以滴滴大数据实时监控系统为例,介绍滴滴实时计算系统架构所面临的挑战及相应解决方案。
随着云计算、移动、活的大数据、机器学习算法的进展,人工智能正在经历巨大的突破。人工智能已经成为很多业务的驱动力,并且开始在金融服务中发挥力量。 蚂蚁金服致力于创新金融技术,并且用新技术为大众和小微企业提供普惠金融服务。人工智能是我们关注的焦点之一。我们打造了人工智能平台,并且将人工智能应用于各种服务场景中,比如风险控制、信贷决策、保险定价、服务推荐、客户服务等。通过运用人工智能的力量,我们极大地扩大了我们的服务范围、降低了风险、提升了用户体验、削减了成本。 在本场演讲中,我会分享我们如何打造金融人工智能平台,并且用人工智能驱动金融与生活服务的创新。
在大规模互联网金融服务的实现过程中,为了效率和可扩展性,用户在没有面对面授信的过程中就可以得到几千至几十万元的资金或服务。互联网金融公司是怎样用大数据和机器学习来降低欺诈风险,弥补欺诈漏洞的呢?本次演讲将带你探索社交网络算法在金融反欺诈方面应用机会,深入讨论多维度、多维复杂关系、多类型节点等数据特性所带来的挑战,以及一些实际案例。
汤森路透是全球最大的金融信息提供商之一。它每天产生的数据量较大从宏观金融新闻至买卖打勾大量数据。汤森路透使用了DataFusion数据融合应用软件合并了金融、网上语义的数据和不同庞大机构内里的数据构形成了世界上最大的金融数据仓库。这方案能解决不少机构在使用内外数据的问题。 这些外部和内部数据是由开源PermIDs联系在一起。它用来代表无论是事实,事件,地理位置,任何主题,人或公司的用例。 PermIDs使用在汤森路透DataFusion数据融合软.这乃是一个图形数据库,能纳入不同样的数据来源. 它的架构是3层次包括Hadoop的MapReduce的计算法,搜索索引Solr的框架和Accumulo数据库键/值对存储图形的关系。 广泛的用途包括桶集群不同风险因素给于金融资产险经和风险经理参考,协助工业企业在供链关系的风险管理和在银行的KYC客户尽职调查的风险评估。
在大规模的机器学习和深度学习中,模型参数的维度往往非常高,比如几千万,几亿以上的维度,这对内存、计算/网络传输是很大的挑战。本议题讲述参数服务器如何高效地解决这一问题,并结合Spark讲述一些实际中的使用。

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

来自全球Strata+Hadoop 会议的照片。

Stay Connected Image 1

北京

Stay Connected Image 3

新加坡

Stay Connected Image 2

伦敦

阅读关于大数据的最新理念。

ORB Data Site