O'Reilly、Cloudera 主办
Make Data Work
2016年8月3-4日:培训
2016年8月4-6日:会议
北京,中国

内容日程安排

在大数据应用场景中,针对不同的计算框架与任务分别配置数据源和存储资源,以及在不同的计算框架间高速有效的实现数据共享和管理是一件困难且挑战的任务。Alluxio(前Tachyon)是世界上第一个以内存为中心的虚拟分布式存储系统. 它为不同的计算框架提供的统一的接口来访问不同类型的数据源,并实现了多层次的存储机制,从而有效的解决数据存储的管理与配置问题.
Qunar作为国内在线旅游门户网站,拥有丰富的业务数据和UGC数据。为了能够敏锐的发现系统和用户行为变化,我们构建了一套实时数据流处理和反馈系统。由于系统接入的异构数据源数以百计,系统上运行分析方法也是千奇百怪,所以我们搜罗了一揽子功能强大的工具解决各种需求,这其中比较核心的工具有ELK、Spark、Flink、Alluxio(原名Tachyon)、Mesos和Marathon等。其中Alluxio作为一款内存为中心的分布式存储系统,在我们的系统中扮演着数据纽带的作用,简化系统复杂度(技术收敛),降低读写I/O。比如:流数据持久化到设备和UnderFS; Spark Streaming Blk/Checkpoint外部存储; Batch和Streaming的数据共享; Alluxio以其丰富的功能和优异性能,使得我们构建一个高可用,灵活可伸缩实时数据流平台的工作成为了可能。
Alluxio is a memory-speed virtual distributed storage system, and the Alluxio open source community is one of the fastest growing open source communities in big data. Haoyuan Li discusses upcoming changes that will make Alluxio accessible to an even wider set of users, through a focus on security, new language bindings, and further increased stability.
Apache Beam (incubating) 的目标是解决数据处理领域中共有的几个关键问题:可移植性、可维护性和抽象化。您可以只撰写你的数据流水线一次(有多种语言的SDK可供选择),就可以使用到强劲的无序流式数据处理语义,并在多种引擎和多种平台上执行。
Twitter每秒会产生亿级的事件数据。如何实时、高效地持久化存储和传递这些数据成为一个巨大的挑战。为此,Twitter设计部署了新一代的实时数据平台。新的实时数据平台由Apache DistributedLog (incubating)来支撑。Apache DistributedLog (incubating)是一个低延时(毫秒级)、高吞吐的分布式复制日志流系统。DistributedLog已经在Twitter的线上运行了三四年,支持从分布式数据库、实时搜索引擎、跨机房数据同步到实时流计算等多种业务。DistributedLog每天为Twitter传递1.5 trillion条记录(合17.5PB数据)。我的演讲围绕Apache DistributedLog在Twitter的现状和生产实践,以及未来的发展
Apache Gearpump, 由中国本土团队创造,在今年3月正式成为Apache基金会的孵化项目。Apache Gearpump是一个基于Akka Actor 的轻量级的实时流计算引擎, 她能解决实时计算,实时反馈,实时机器学习和数据分析等各种大数据的实时问题,适用于金融,物联网,企业云,医疗等各种应用场景。 亮点包括: event time, exactly-once消息处理,每秒千万消息吞吐量, 毫秒级延时, Storm Binary兼容, 支持Akka Stream API, 支持Apache Beam API. 本次演讲, 也会会分享一些用例.
过去十年,Apache Hadoop从无到有,从理论概念演变到如今支撑起若干全球最大的生产集群。接下来的十年,Hadoop将继续壮大,并发展支撑新一轮的更大规模、高效和稳定的集群。 我们此次将向大家全面介绍即将到来的Apache Hadoop 3.0新版本——从版本发布状态、背后的故事,到如HDFS erasure coding、YARN federation、NN k-safety等全新的功能。
Apache HBase, Apache Hadoop生态系统中的分布式数据库,是当今最流行的非关系型数据库之一,也被许多世界级的公司所使用,如阿里巴巴,小米,Facebook和Apple,用来存储和分析PB级的数据。 竟成和伟将为您讲述HBase的架构,并详解如何使用HBase提供实时的大数据服务。
Kyligence由Apache顶级项目Apache Kylin核心贡献者团队组建,团队一贯致力于推动Apache Kylin开源项目的发展和演进,提供基于的Apache Kylin的大数据分析产品和服务,拓展全球用户社区,构建更为丰富的生态系统。 Apache Kylin Tutorial针对Apache Kylin的使用者,管理者及开发者提供相关的辅导课程,由Apache Kylin 核心贡献者及PMC 成员倾力提供,学员经认证考试,可获得由Kyligence公司提供的相关认证证书。
Apache Kylin在利用批处理构建基于Hadoop的OLAP解决方案上已经很成熟,但社区对于流式(Streaming) OLAP的需求越来越多,在经过多个月的开发后,Apache Kylin的Streaming功能趋近完善。本主题将介绍Kylin如何处理流式数据并聚合汇总后最终以标准SQL接口提供给上层应用使用。
Spark Camp 演讲者将用中文和英文回答您的问题。
在大数据时代,越来越多的企业引入了机器学习技术以提高效率和降低风险。而进行大数据的机器学习是一件比较具有挑战性的工作。作为最流行的大数据处理平台,Apache Spark提供了丰富的机器学习组件,帮助开发者大大降低了这项工作的复杂性。Intel帮助大型互联网和企业用户在Spark平台上做了大量机器学习的实现和优化工作。在本次课程中,来自Intel的工程师会带领大家探索Spark上的机器学习组件以及一些高级功能,并分享真实案例中的实践经验。
敬请期待更多细节。
Mike Olson discusses the impact of Hadoop on top-level executive concerns, including driving customer insights and lowering business risks, and the role China can play in driving the impact further.
如今越来越多的企业依赖于大数据进行分析和预测,将数据转化成智慧是数据分析和探索的主要目的,如何科学的管理数据使之形成知识体系,并且指导企业的决策具有广泛的商业前景。 本次讨论的主要议题如何融合开源hadoop生态圈产品,打造一个简单易用、支持超大规模数据管理、加工、查询分析平台。
如Hadoop和Spark这样的集群计算框架,对于处理海量数据并从中发现洞察是非常有帮助的。然而,很长的分析延迟使得这些框架对于交互式应用而言并不是最好的选择。在这个演讲中,我们会介绍如何使用Druid这一专门为分析事件数据的工具来助力(交互式)应用的。
数据同步机制的缺乏严重限制了Hadoop在更多新领域的推广和应用,怎么把数据实时/准实时地从其他数据库同步到Hadoop成为推广Hadoop的一个非常关键的因素。用户希望在保证数据的一致性,参照完整性的前提下,把CDC (change data capture) 的增量数据实时/准实时地同步到Hadoop集群,使之能够应用到实时性要求更高的业务上。星环科技针对这种对实时性要求比较高的业务需求,开发了一种基于CDC增量数据的同步方案,有效的解决了这个问题,极大的扩展了Hadoop的应用范围。
HDFS-EC通过引入纠错码的方式大幅降低了HDFS的存储开销,目前项目的第一阶段已经进入Trunk,并将作为主要的新功能随Hadoop 3.0发布。随着项目的进展,我们也对HDFS-EC的性能进行了全面的测试。本次演讲的主题是展示并分析最新的测试数据,帮助用户了解HDFS-EC的性能特性。
Over the next decades, China will take the global lead in innovation. The old stereotype of copycat China will give way to an innovative China. Christopher Nguyen explores one significant area of innovation: machine intelligence and robotics. Where will these advances in machine learning and AI take us over the next 50 years?
随着大数据时代的到来,各种NoSQL数据存储产品蜂拥而至,MongoDB作为一支市场占有率较高的分布式文档存储数据库,它具备了auto-sharding、高可扩展性、丰富的查询支持等特性,相比较传统关系数据库,MongoDB具有了较大的诱惑力。结合58同城的特点,本Topic重点讲述:MongoDB在58同城的使用情况;为什么要使用MongoDB; MongoDB在58同城的架构设计与实践 ;针对业务场景我们在MongoDB中如何设计库和表 ;数据量、并发量并发,遇到典型问题和解决方案;社区贡献和展望。 来吧,一起揭开MongoDB应用实践的神秘面纱!
机器学习是从大数据中提取有价值信息的关键技术。和传统的计算不同,面向机器学习的计算具有显著的特性,这些特性在已有的分布式平台上通常没有很好地被利用。在这个报告中,我们将介绍Petuum,一个面向大数据机器学习的新型分布式平台,Petuum基于对机器学习算法特性的深度总结,在系统层面和算法层面进行了全新的设计和实现,在性能上获得了显著提升,为大数据机器学习提供了一个通用的高效引擎平台。报告中将用若干典型模型(包括:深度学习、主题模型、矩阵低秩分解等)作为例子阐述实际的性能。
对于优步和其他大数据公司而言实时交互式分析正变得越来越重要。在这个讲话中会介绍我们是如何使用Presto来解决优步的特殊问题。我们也会介绍优步的大数据架构,尤其是开发和部署Presto来实现秒级查询千万亿字节规模数据的部分。
敬请期待更多细节。
The real power and value proposition of Apache Spark is in building a unified use case that combines ETL, batch analytics, real-time stream analysis, machine learning, graph processing, and visualizations. Through hands-on examples, Sameer Farooqui and Andrew Orr explore various Wikipedia datasets to illustrate a variety of ideal programming paradigms.
结构化流计算是Apache Spark的最新成果,旨在帮助用户的流计算的实现更加简单,而无需重新学习一个新的编程模型或新系统。在本主题课程中,我会介绍Spark的结构化流计算对事件时间、失序/延误的数据的支持,它的会话化和它与批次处理系统的集成。我会介绍它的API并展示使用它是如何很简单地实现一个强大的持续流计算应用系统。
现在Spark已经获得了广泛的使用。由于它框架设计上的灵活性,Spark可以运行在不同的集群管理器模式下:Standalone、Mesos和YARN。在本讲话里中我们会聚焦于运行在YARN上的Spark,讲解如何以及为何要在YARN上运行Spark。我们还会介绍一些最佳实践的经验,并介绍这个领域的未来。
目前Spark在实时计算领域的使用越来越广泛,对应广告系统或者电商业务,实时性就意味着系统稳定性的重要性。Spark开发者可以自己在任何机器上显式提交job,然后自己在机器上排查,异常情况下排查耗时长,job的稳定性保障受限,比如机器挂或者idc异常就无从考虑。 我们的RCS平台(real-time computing service)可以让开发者对Spark的后端集群、指标监控、任务容灾全部透明,无线关注集群细节,专注于业务的实现;同时满足实时任务99.99%的稳定性保障。因此RCS平台对开发者提供一个开发平台,让用户可以自助提交job、源端流式数据的接口封装(无须关注Kafka的具体地址等)、任务容灾和集群容灾一站式的数据开发平台。
Apache Spark的真正价值和强大能力在于用它可以构建一个统一一致的分析场景,囊括了从ETL(数据抽取、转换和载入)、批处理分析、实时流分析、机器学习、图类型数据分析,到可视化的多种功能。在这个历时2天的课程里,布莱恩·克莱坡通过对多种维基百科数据集的动手操作来展示了理想中Spark可以完成的多样化的编程模式。在培训结束时,参加者将具备运用Spark来进行概念验证和原型搭建的能力。
陈健敏和陈智锋将会给大家介绍TensorFlow,一个跨平台,高效率和支持大规模分布式训练的机器学习开发平台。
Apache Hadoop creator and Cloudera chief architect Doug Cutting is joined by Fan Ji'an, China Unicom's CTO, to discuss the picture of success. Learn how to build a complete strategy and start your journey with Hadoop.
Twitter每秒会产生亿级的事件数据。稳定、实时、高效地处理这些数据成为一个巨大的挑战。为此,Twitter设计部署了新一代的实时计算框架,Heron,使得工程师们可以简单地基于Heron开发分布式实时计算应用。Heron在2014年底已经完全取代Storm成为了Twitter新一代的实时计算框架,被广泛地适用于各种场景,如实时数据挖掘,实时信息监控......
训练速度一直是采用深度学习的一个最大的障碍,造成我们公司内的许多团队都没有足够的计算资源来对大数据使用深度神经网络进行训练。我们开发了运行在YARN集群上的分布式深度结构化语义模型(DSSM)训练系统,可以在使用超过100个CPU的集群上获得超过单个K40 GPU的速度。在这个演讲里我们很高兴来分享我们的一些经验。
在传统制造业的互联网转型中,物联网和大数据扮演着核心的角色: 降低成本,提高效率,增强用户体验,更重要的是彻底改变了企业与用户的关系,实现从销售硬件到提供服务的转型。
腾讯分布式数据仓库(Tencent distributed data warehouse,简称 TDW),是腾讯工程技术事业群数据平台部基于开源软件研发的大数据处理平台,是腾讯内部最大的离线数据处理平台 。2016年开始,TDW数据引擎开始从TDW-Hive切换到TDW-Spark-SQL,无论从整体的任务运行效率和资源消耗,都得到了很大的优化。
大数据经过近十几年的发展,已经变成很多行业和政府的标配技术。大数据未来的巨大的挑战是如何让大数据产生巨大的价值和转化成生产力。这个演讲分享京东在这方面的工作、创新和思考。
无论是天气预报,还是新药的研发, 我们的世界正越来越多地依靠计算机来解决各种各样的数据和工程问题。这个技术讲座将介绍用于加速机器学习和深度学习的新技术:英特尔高性能软件,主要包括数据分析加速库(Intel DAAL) 和 高性能数学核心库(Intel MKL)。
本辅导课内容为了解Alluxio(前Tachyon)的基本原理, 应用场景, 以及如何使用Alluxio让分布式计算引擎以内存速度共享以及交换数据. 在上机实践环节中, 参与者将在老师指导下亲自动手部署和运行Alluxio, 为Alluxio挂载外部存储系统(如HDFS), 使用Alluxio内置命令行与系统交互, 并尝试使用常见计算引擎(如Apache Spark)搭建从Alluxio系统中读写的大数据应用. 此外学员还将学习Alluxio内置的常用命令行操作, Web界面使用操作, 使用面向开发者的API. 本辅导课理想参加者群体包括(但不限于)大数据应用开发人员, ETL开发人员, 数据科学家,存储管理人员。
近年来深度学习技术迅猛发展,在图像识别,语音交互,机器翻译等领域展现出了巨大的潜力。依托阿里云自主研发的分布式数据存储与计算服务ODPS,我们研发了机器学习平台产品PAI (platform of artificial intelligence),支持分布式的深度学习算法产品。在CPU和GPU混布计算集群上,深度学习算法产品进一步提升高性能计算的分布式能力,海量数据得以在多机多卡间并行处理,大幅提升训练收敛速度。在蚂蚁金服的业务中,分布式深度学习算法产品也得到了广泛的应用,解决关键业务难题。我们将详细介绍分布式深度学习算法产品的实现和性能指标,以及在蚂蚁金服业务中的一系列应用,并展望下深度学习将来在阿里产品体系中的潜在应用。
到2020年,数据中心首要的工作负荷会是数据分析。英特尔承诺帮助数据分析更快,更容易,并且更具洞察力。英特尔通过如下方法进行数据分析的创新:领先地位的半导体产业优势,对开源软件优化方面的贡献例如从Hadoop/Spark到机器学习库(machine-learning library)和TAP (Trusted Analytics Platform)。英特尔的努力使得医疗保健,零售,运输和其他行业的客户持续显著地获益。英特尔努力了解客户针对数据分析,机器学习,深度学习,和物联网等方面在未来的增值计划。数据分析的生态系统正在全力前进,而英特尔也正在释放它的潜力来改进业务表现,改善人类的生活。
我们将会介绍StreamDM——华为诺亚方舟实验室开发的一个新的基于Spark Streaming的实时分析开源软件库。StreamDM是首个包括先进的流数据挖掘算法的Spark Streaming库。我们还会介绍正在进行的使用StreamDM的业务场景,如华为应用商店的推荐和华为全球技术服务业务使用的大数据分析。
享用美味的小吃和饮品并和其他的与会者、Strata + Hadoop World讲师及赞助商交流互动。
Apache Sentry (哨兵) 是由Cloudera发起的Hadoop的第一个可以提供企业级安全系数的细粒度存取控制系统。它整合企业级认证服务系统,例如Kerberos,来实现企业的高质量大数据的安全性,可以提供金融、政府、医疗保险和其它对敏感数据的访问有严格监管的安全服务。
行业桌会讨论是一种很好的与相似领域或对同一议题感兴趣的人们非正式交流互动的方式
大会日程主席 Ben Lorica、Jason Dai 与 Doug Cutting致辞开始第一天主题演讲。
行业桌会讨论是一种很好的与相似领域或对同一议题感兴趣的人们非正式交流互动的方式
大会日程主席 Jason Dai、Ben Lorica 与 Doug Cutting致辞开始第二天主题演讲。
这个3小时的辅导课从业务的角度出发集中介绍了数据科学的关键概念。本课程是为了那些希望在他们业务中引入数据科学的听众所准备的。
江毛进是美国Cloudera公司讲师,大数据工程师,自2012年起率先将Apache Hadoop为基础的开源大数据技术通过Cloudera大数据技术培训的方式带给国内的大数据企业用户和技术人员,积极推动大数据在国内的普及及应用。
在金融领域使用现代大数据分析技术正在逐步成为趋势。数据正在以更大的规模和更多的维度涌入,丰富了信息的同时也带来了数据分析领域快速增长的复杂度,在数据统计,特征工程和模型调优方面也对自动化框架提出了更高要求。通过与一些顶级的支付公司进行合作,我们开发出了基于Spark构建欺诈检测系统的完整解决方案。本次分享将介绍我们基于Spark DataFrame和机器学习Pipeline搭建的完整工具链和相关经验。
本议题主要介绍一种面向大数据应用、基于Docker容器进行微服务编排,管理集群和自动化DevOps的框架以及一些分布式应用的Docker Image开发的实践经验。
Druid是一个基于列存储的分布式OLAP查询系统,支持多维度ad hoc的查询以及具有良好的扩展性。我们将介绍Druid在阿里巴巴的实践以及我们对Druid做出的扩展和改进,以及我们如何将Druid集成进drill,使其具有SQL查询和应对更加复杂的Query的能力。
微软的ASG (应用与服务集团)包含Bing, Office, Skype。每天产生多达5PB以上数据,如何构建一个高扩展性的data audit服务来保证这样量级的数据完整性和实时性非常具有挑战性。 在这个议题里,我将介绍微软ASG大数据团队如何利用Kafka,Spark以及Elasticsearch来解决这个问题。
Mesos推出了的DCOS作为企业级的资源管理框架能让数据中心资源分配更易于使用,同时让在外部运行企业应用更可靠。底层使用Mesos构件云计算平台,而将Hadoop平台作为应用之一,运行于DCOS中既满足企业对于数据中心集群弹性分配的云计算需求,同时又使得数据中心的大数据能力得到更好的保障。是未来很有希望的技术发展路线之一。本议题将解析Hadoop on DCOS的架构以及在实际生产应用中的实践。
越来越多的企业依赖于海量数据分析结果进行关键业务决策。 大规模下的交互式/即席数据分析,是进行数据分析和探索的主要途径,具有广泛的商业前景。 Baidu BigSQL由百度基于Spark SQL研发,为百度内部业务和广大公有云用户提供即席查询分析服务,具有简单易用、超大规模支持、数据结构灵活、成本极低等特点。
在线服务的迅速兴起促使互联网用户和商业模式成爆炸式增长,一个新的“亿万用户时代”已经来临。与此同时,精心策划的欺诈活动和黑客攻击也随之蔓延:他们注册大量的虚假账户,盗取用户数据,进行各种非法活动谋取暴利,并不断变换攻击手段和模式。对在线服务商而言,这些恶意欺诈行为在用户体验,经济收益,品牌安全和信誉等各方面都造成了不可估量的损失。
随着互联网的高速发展,数据量爆发式地增长,数据维度越来越丰富,这些都为机器学习、人工智能的发展和应用提供了良好的土壤。同时,人工智能的成果也反过来让数据产生更大的价值,成为真正的“智能数据”,两者相辅相成,相互促进,让各种数据应用越来越智能化,人性化。人工智能服务已经频繁地出现在各种大数据应用中,例如:搜索推荐、语音识别、视频识别和聊天机器人等等。人工智能技术不仅包含各种机器学习算法以及对数据的合理利用方法,也离不开全面的工程技术支持。我们将介绍阿里巴巴基于大数据的机器学习算法平台和各种人工智能应用,展示人工智能和大数据的融合所带来的技术发展,及其对业务边界的拓展。
人们已经不满足于从大量数据中做一些简单的查询和挖掘,而是需要从大量数据中自动学习能够进行准确的预测、排序以及推荐的模型。相应的,从技术上来看,针对大数据分析的类MapReduce计算系统已经发展成熟,而设计和实现针对大规模机器学习的系统却面临大数据和大模型带来的挑战。针对这种“大学习”系统的相关研究也方兴未艾,是当前工业界和学术界都很关心和投入的一个方向。我们致力于在Apache Spark上设计和实现一个通用的、高性能的、以及可扩展的分布式机器学习平台Zen。这个平台,我们重点实现当前工业界运用最广泛的模型,包括适用于广告点击率预测的logistic regression,主题模型LDA,搜索排序模型LambdaMART (GBDT), 以及推荐模型FM。这里,我很荣幸和大家分享我们过去一年中的取得的成果和经验教训。
大数据分析技术发展的如火如荼,但细究之下,更多的使用者还是工程师等技术人员,与企业中使用数据就行分析及决策的分析人员、业务用户等尚有一些距离。在重新学习新技术,新语言与继续发挥现有知识、经验及技术的争论中,以标准SQL为准的分析能力最终成为业界趋势及各大厂商、技术发展的重点。本次主题演讲将介绍Apache Kylin如何重新定义Hadoop之上的OLAP及数据仓库,使得分析人员、业务人员如何在不需要了解技术底层的前提下快速获得大数据分析能力,并充分发挥他们现有的分析能力和经验等。
大数据机器学习和数据分析是一个同时涉及机器学习和大数据处理技术的交叉性课题。目前大数据机器学习与数据分析一个最大的问题是:机器学习研究者和数据分析师难以掌握和使用各种大数据编程技术和平台,因此,在两者间存在一个很大的鸿沟。因此,有必要研究提供底层具有大数据处理能力、而上层便于普通机器学习研究者和数据分析师使用的大数据分析编程环境和平台。 本报告将简要介绍大数据机器学习系统的技术现状、技术特征和技术问题、典型大数据学习系统。在此基础上介绍我们所研究实现的全球第一个跨平台统一大数据机器学习与数据分析编程框架与系统“大章鱼(Octopus)”。该系统底层可集成Hadoop、Spark、MPI、Flink等主流大数据处理平台,上层提供基于大规模矩阵的机器学习和数据挖掘算法编程模型、接口和软件框架,并提供基于标准R和Python语言的编程环境,可实现底层大数据平台对上层数据分析程序员完全的透明性
数据大屏越来越普及,几年前还只是在电影中或者双11现场才会看到的数据大屏幕,现在几乎随处可见,无论是电商公司需要一块实时订单分析的展示,还是交通领域用于车辆车流的分析,还是物联网领域用于设备运检的监控,或是说想用数据作为展现企业业务的手段?那么该如何设计,架构,实施就是本次演讲的主要内容。
数据研发经常会遇到这些问题:研发人数较多(超千人),频繁上下线,如何解决开发效率的问题?业务高速发展,数据量爆炸式的增长,如何有效控制存储与计算的线性增长?从数据采集到数据消费的整个链路非常复杂,如何保障整个数据链路的质量与产出时间?大数据建设的标准规范,如何制定并有效的执行?数据浩瀚如烟、纷繁复杂,如何能够迅速的找到自己想要的数据?经过几年的摸索,我们通过onedata研发体系能够比较有效的解决上述问题。One Data定位是:一个指标一个算法,一个维度属性只有一个名字,模型规范化,从算法定义、数据研发到数据服务,可管理追溯从而规避重复建设。
小米不仅是一家手机公司、智能硬件公司,也是一家软件和互联网服务的公司,小米努力打造新国货,为用户提供了一系列优质的产品。小米在为用户服务的过程中,提供了多种大数据的服务,如云照片、云联系人、全局搜索、视频服务、应用分发、新闻资讯等,积累了超过100 PB数据,所以,小米也是一家真正的大数据公司。小米重视前沿技术研发,成立了探索实验室,在VR/AR和机器人领域研发黑科技。为了发挥大数据的价值,探索实验室会向AI和深度学习领域开拓,基于小米大数据和广阔的产品线,开发出领先的人工智能新科技和新产品。
在这个演讲中, 我们将介绍在小米这样一个数据量急速增长的创业公司里,如何基于Hadoop生态系统和其他开源软件打造小米的数据平台,并在此基础上不断演进以满足小米各个业务的数据需求。我们还将介绍一下小米在大数据相关开源软件上的参与,在信息安全和隐私保护上的一些实践经验,以及我们目前在数据驱动上面临的一些挑战。
以智能化为特征的高端制造已成为新工业革命国际竞争的制高点。麦肯锡认为制造业是美国首个数据量超EB级的领域。“中国制造2025技术路线图”更将工业大数据平台作为我国工业软件领域唯一重点突破产品。本议题将着重介绍在工业这个特定领域中,如何构建以处理机器设备产生的大量时序数据为主的大数据系统,其中的关键技术突破,以及如何通过大数据平台以及大数据分析技术对工业智能制造与服务转型予以有力支撑。
当流量红利渐渐消退,增长需要重新定义,数据驱动用户和收入增长正成为新的核心;用数据驱动决策,而不是靠拍脑袋,为什么要成为互联网公司必备的增长新能力;数据分析究竟有哪些魅力?如何帮助企业创造巨大的商业价值,如何令公司全员做到数据决策;硅谷最前沿的方法论、工具、技术,最前沿的产品理念有哪些?GrowingIO 创始人张溪梦将分享如何将数据应用到业务,并产生商业价值。
我们将介绍无人机行业的概况,发展及其他对数据采集方式带来的变革。消费级无人机现在已经可以实现单人的安全操控,数千米航程的覆盖,并可搭载多种相机和传感器。它们能够到达那些过去看来太危险,太遥远或是成本过高的区域。随着数据获取成本的降低,需要被传输、处理、分析和存储的实时数据势必激增。微软Azure和亚马逊AWS这类云服务使我们得以快速建立起可扩展的数据存储库,而毋需担心数据的冗余及可用性等问题。我们将介绍几种应用实例,并阐释大数据平台支持这些应用的必要性。
演讲分享一个使用Hadoop和Spark相关的大数据技术处理海量的手机信令、RFID和GPS数据,并通过这些数据分析人的轨迹来支撑更精准的城市规划的实际案例。并对实际项目中海量时空数据在Hadoop和Spark上所进行的数据接入、转换、融合、模型计算、统计和可视化,以及数据的生命周期管理进行讨论。
谷歌近年来在其多个主打产品中广泛采用了以深度学习为代表的人工智能技术。通过改善网页搜索、视频服务、语音识别、图像识别、地图服务等产品的质量,上亿的全球用户直接或间接地分享了智能技术突破所带来的进步。人工智能还会继续给业界带来革命性的改变,会催生出更多过去无法想象的应用。为了应对这种趋势带来的挑战并且尽快的将智能技术应用到产品中,谷歌快速迭代开发了若干代通用人工智能研发基础架构。其中最新一代系统,TensorFlow,已于2015年11月作为开源软件发布。这个主题演讲将和与会者分享谷歌使其产品智能化的经验,并探讨通用人工智能研发基础架构可以如何最大限度地帮助更多智能产品的研发。
Qi Lu explores data-model intelligence, the Bing Knowledge Graph, the Microsoft Graph, and Cortana SDKs.
Apache Kylin已经在众多的on-premises环境中得以大量使用,包括eBay,百度,网易,京东,美团,唯品会,中国移动等以解决他们的大数据挑战。有越来越多的人活跃于社区并期望了解他们如何使用和部署Apache Kylin,为什么选择Kylin以及用Kylin来解决什么样的业务问题,与其他系统的差别,对比及性能比较等。在这个演讲中,来自Kyligence的技术合伙人兼资深架构师史少峰,将使用一些实际的案例来解答这些疑问,并介绍Apache Kylin之后的路线图及新特性等。
Adam Gibson和吴书卫会讨论关于企业级深度学习的工作流程和使用商业级开源分布式深度学习Deeplearning4j的生产栈,涵盖了从硬件到产品堆栈的详情。
陈健敏和陈智峰示范使用TensorFlow这个广受欢迎的开源库训练和部署机器学习系统。你将能学会如何创建一个机器学习系统,小到简单的分类器,大到复杂的基于图像的模型,还可以学会如何使用TensorFlow Serving来部署你的模型。
滴滴出行作为全球最大的移动出行平台,每天收集和需要分析处理的数据量非常大。这些数据形式多样:既包括存储于数据库中的业务数据,也包括各种API请求所记录的文本日志。此外,更大的挑战在于业务上需要我们实时的分析处理如此大规模的数据。从数据生成到可被分析查询,系统延迟在秒级。我们选用Druid/Samza/Kafka/Spark/Hadoop等开源技术栈,开发了符合Lambda architecture的OLAP系统。本次演讲我们以滴滴大数据实时监控系统为例,介绍滴滴实时计算系统架构所面临的挑战及相应解决方案。
大数据是如何让你的上班之旅更舒适?
随着云计算、移动、活的大数据、机器学习算法的进展,人工智能正在经历巨大的突破。人工智能已经成为很多业务的驱动力,并且开始在金融服务中发挥力量。 蚂蚁金服致力于创新金融技术,并且用新技术为大众和小微企业提供普惠金融服务。人工智能是我们关注的焦点之一。我们打造了人工智能平台,并且将人工智能应用于各种服务场景中,比如风险控制、信贷决策、保险定价、服务推荐、客户服务等。通过运用人工智能的力量,我们极大地扩大了我们的服务范围、降低了风险、提升了用户体验、削减了成本。 在本场演讲中,我会分享我们如何打造金融人工智能平台,并且用人工智能驱动金融与生活服务的创新。
领英的Hadoop集群为多个内部业务部门提供服务,并保证一定的业务质量等级(SLA)。另一方面,集群的管理员希望能维持集群总体上的高使用率和效率。这个讲话会介绍一些我们对容量调度器(Capacity Scheduler)使用的最佳实践经验和对它的扩展。这些经验帮助我们更好地应对复杂的集群资源管理任务。
很多公司希望用同一个数据库引擎来解决各种需求,从事务、分析到报表型任务流,支持结构型、半结构型和非结构型数据,利用图形数据库,文档存储,搜索引擎,列式存储,键值存储和宽列存储等类型。这个数据库的理想世界能实现吗? 挑战包括: 用同一个查询引擎,应对运营事务型和分析型任务流; 支持多种存储引擎,每种引擎都有各自领域; 用同一个数据模型,应对各种任务流,确保高水准性能。 近几年来,有几个开源项目专注于Hadoop上的SQL引擎,大多数关注于分析类。 Apache Trafodion建立在HBase基础上,用SQL同时完成分析型和事务型任务。 Trafodion设计和部署超过二十年,从天腾的NonStop SQL/MX,后来被惠普收购,衍生出Neoview等。2014年将部分Neoview开源为Trafodion(威尔士语“事务”),从大型机硬件上移植到线性拓展的Linux上。
无人车是百度目前重点开发的项目。在较短的时间内,百度无人车已经取得了高速+本地道路测试的阶段性成果。在这个讲演中,我们会详细向大家介绍无人车背后的数据问题,比如海量的数据采集和整理用于离线的模型训练,在线高速数据吞吐处理的需求。百度通过自主研发高性能的离线和在线数据平台,使得百度无人车的技术现在在全球竞争中占有一席之地。我们还将展望百度无人车今后的发展规划。
结束致辞
结束致辞
结束致辞
结束致辞
菜鸟网络是一家数据驱动社会化协同物流网络建设的技术公司。菜鸟网络的业务形态复杂多样。本次演讲带来的菜鸟棱镜平台通过大数据实时计算与应用、图计算与机器学习等,从事前、事中、事后全方位保障业务SLA
机器学习的过程往往是需要监督的,而无数的互联网用户为维基百科贡献了智力劳动,使得它成为一个质量较高的通用知识框架。关键的挑战在于如何调整和表示wiki的通用知识去适应各个领域,从而更好的辅助机器学习。我们首先介绍通用知识图谱的特定化框架,包含无监督的语义分析模块以及实体-类型消歧的语义过滤模块。特定化之后的通用知识自然地表示为含有多种实体、关系和类型所构成的异构信息网络,然后将异构信息网络中的特定化知识应用于机器学习模型中。我们以文本聚类、文本相似度计算为应用实例,使用Freebase和YAGO2这两个知识库作为通用知识的来源,在两个文本的基准数据集(20 newsgroups 和RCV1)上的实验结果表明使用通用知识作为间接的监督,能够显著的提高现有最好的聚类算法和相似度计算方法。 相关工作已经发布于KDD、AAAI、IJCAI、ICDM、SDM等顶级学术会议。
本议题主要分享面对海量视频图片数据的大数据挑战,实现基于erasure coding,高IO聚合性能,高并发写入,数据近实时可读的云存储系统;基于Spark,结合视频、图片分析算法,打造高性能视频图片分析系统;基于Solr、Spark SQL的有机结合,打造支持SQL的通用分析型数据库系统;以及分享存储、计算、分析有机组合,打造监控视频图片大数据平台的思路和实践经验。
讲师见面时间是您近距离面对面与Strata + Hadoop World讲师交流的机会, 加入交流并与他们讨论相关议题,以及提出问题或者建议。
讲师见面时间是您近距离面对面与Strata + Hadoop World讲师交流的机会, 加入交流并与他们讨论相关议题,以及提出问题或者建议。
Cloudera已经在中国帮助很多客户搭建了大型上百节点的大数据平台。希望能和业界人士就Hadoop工程部署以及上层产业应用进行交流。
(1) TensorFlow技术细节;(2) 选择框架时哪些是需要决策的最重要因素。
在交流时间,我希望有机会深入分享数据科学在互联网金融的应用,一起探讨未来的发展机会,并回答您可能关注的一些具体问题。如果大家感兴趣,我也可以分享数据科学在O2O商业模式中的产品化过程。
(1) Alluxio作为第一个内存级的虚拟分布式存储系统, 在不同的实际部署中是如何帮助解决数据高速存取和共享这一难题。(2) 什么样的场景适合部署Alluxio, 有哪些注意事项 (3) 咨询参与者, 讨论他们所希望见到的Alluxio功能和改进
Twitter实时分析的技术栈和架构,包括数据存储、数据传递和处理引擎。
(1) Alluxio作为第一个内存级的虚拟分布式存储系统, 在不同的实际部署中是如何帮助解决数据高速存取和共享这一难题。(2) 什么样的场景适合部署Alluxio, 有哪些注意事项 (3) 咨询参与者, 讨论他们所希望见到的Alluxio功能和改进
(1) Alluxio作为第一个内存级的虚拟分布式存储系统, 在不同的实际部署中是如何帮助解决数据高速存取和共享这一难题。(2) 什么样的场景适合部署Alluxio, 有哪些注意事项 (3) 咨询参与者, 讨论他们所希望见到的Alluxio功能和改进
(1) 用Spark这样的大数据平台进行大数据分析反欺诈的优缺点 (2) 无监督学习和机器学习及规则系统在风控领域的结合 (3) 互联网欺诈的趋势分析,及大数据无监督学习反欺诈的应用成功案例
(1) Hadoop用户希望在Hadoop 3里看到哪些新的功能和变化。(2) HDFS开发者和用户对EC(纠删码)有哪些意见。是否对EC第二阶段感兴趣。(3) 我很希望能讨论怎样有效地在云计算平台上运行Hadoop以及其它大数据应用。
会议日程主席Ben Lorica、Jason Dai及Doug Cutting欢迎大家回到会议室。
会议日程主席Ben Lorica、Jason Dai及Doug Cutting欢迎大家回到会议室。
在大规模互联网金融服务的实现过程中,为了效率和可扩展性,用户在没有面对面授信的过程中就可以得到几千至几十万元的资金或服务。互联网金融公司是怎样用大数据和机器学习来降低欺诈风险,弥补欺诈漏洞的呢?本次演讲将带你探索社交网络算法在金融反欺诈方面应用机会,深入讨论多维度、多维复杂关系、多类型节点等数据特性所带来的挑战,以及一些实际案例。
汤森路透是全球最大的金融信息提供商之一。它每天产生的数据量较大从宏观金融新闻至买卖打勾大量数据。汤森路透使用了DataFusion数据融合应用软件合并了金融、网上语义的数据和不同庞大机构内里的数据构形成了世界上最大的金融数据仓库。这方案能解决不少机构在使用内外数据的问题。 这些外部和内部数据是由开源PermIDs联系在一起。它用来代表无论是事实,事件,地理位置,任何主题,人或公司的用例。 PermIDs使用在汤森路透DataFusion数据融合软.这乃是一个图形数据库,能纳入不同样的数据来源. 它的架构是3层次包括Hadoop的MapReduce的计算法,搜索索引Solr的框架和Accumulo数据库键/值对存储图形的关系。 广泛的用途包括桶集群不同风险因素给于金融资产险经和风险经理参考,协助工业企业在供链关系的风险管理和在银行的KYC客户尽职调查的风险评估。
在大规模的机器学习和深度学习中,模型参数的维度往往非常高,比如几千万,几亿以上的维度,这对内存、计算/网络传输是很大的挑战。本议题讲述参数服务器如何高效地解决这一问题,并结合Spark讲述一些实际中的使用。

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

来自全球Strata+Hadoop 会议的照片。

Stay Connected Image 1

北京

Stay Connected Image 3

新加坡

Stay Connected Image 2

伦敦

阅读关于大数据的最新理念。

ORB Data Site