O'Reilly、Cloudera 主办
Make Data Work
2017年7月12-13日:培训
2017年7月13-15日:会议
北京,中国

讲师幻灯片

议题幻灯片会在讲话结束后并且讲师已经上传文件的情况下提供给大家。如果您没找到需要的议题内容请稍后再回来查看 —— 可能稍晚就会有!(请注意有些讲师选择不分享讲话的幻灯片。)

ximeng zhang (GrowingIO)
当流量红利渐消,数据驱动用户和收入增长成为新的核心;用数据驱动决策,而不是靠拍脑袋;数据分析究竟有哪些魅力?如何帮助企业创造巨大的商业价值,如何令公司全员做到数据决策;硅谷最前沿的方法论、工具、技术,最前沿的产品理念有哪些?
ming huang (腾讯)
在机器学习和人工智能领域,为了让模型达到更好的线上效果,特征的维度往往会膨胀到千万和亿级别。在这种情况下,传统的分布式计算框架,很难有高的性能。为此,腾讯推出Angel机器学习框架,支持超大维度模型的高性能机器学习。该框架即支持自主的高性能机器学习算法开发,也能作为PS引擎,为其它框架(例如Spark……)提供PS支持,整体形成良好的PS生态圈。
Dong Li (Kyligence)
Apache Kylin v2.0即将发布!作为领先的大数据OLAP分析引擎,现在的Apache Kylin羽翼更丰:支持雪花模型、更加全面的SQL语法、初出茅庐的Spark Cubing、更好地支持实时流式数据接入等等。Apache Kylin正逐渐从一个Hadoop上的传统OLAP平台,演变为一个Hadoop上的实时数据仓库。
Mingxi Wu (GraphSQL), Yu Xu (GraphSQL Inc.)
Mingxi Wu and Yu Xu offer an overview of GraphSQL, a high-performance enterprise graph data platform for real-time graph analytics that enables businesses to transform structured, semistructured, and unstructured data and massive enterprise data silos into an intelligent interconnected data network, uncovering implicit patterns and critical insights to drive business growth.
乔旺龙 (天云融创数据科技(北京)有限公司)
在电信运营商、银行、保险、公安、军队、广电、政府等多个行业,每天都有巨量的数据产生,为了及时准确从数据中获取价值,合理高效的处理数据,我们结合在各个项目上的实施工作,在大数据领域做了很多实际的研究,在这里分享下我们在大数据领域里是如何实现高并发实时事务的,完成大数据的最后一公里的
Liye Zhang (新智新氦科技)
HAP是一个实时分析系统,能够支持流式的输入,并且可以支持多流的碰撞,同时,可以根据查询层来动态的改变底层的流式处理方式以实现不同业务需求。另外在Kubernetes上可以实现水平扩展、高可用、高效、高速,并在保证数据exactly once语义的情况下实现秒级的数据分析和查询。
Biao Chen (Cloudera)
多年来Hadoop技术无法进入核心业务系统,其中无成熟稳定的异地多数据中心方案是其中重要原因之一。由于灾备等原因,存储重要数据的HBase集群通常要求跨数据中心进行备份。国内银行业监管单位更是提出了异地多中心的硬性要求。而现在的HBase多为单数据中心部署,目前HBase提供的replica,快照拷贝或export的方式,皆不能满足监管和异地灾备要求。在本session将分享现有多中心部署要求下HBase所遇到的问题、解决办法。未来HBase将增加增量备份功能,其提供的增量备份方案,避免了现有技术对全表数据的扫描,大大提高了备份性能,同时又提供了repica不具备的一致性。在本session中也将详细描述此功能对于多数据方案的重要性、使用介绍以及内部原理刨析。
蒋守壮 (Shouzhuang Jiang) (万达网络科技集团有限公司), 丛宏雷 (万达网络科技集团有限公司)
区块链,比特币背后的技术,是一个去中心的分布式账本技术。Hyperledger是一个开源,跨行业的区块链平台技术。它是一个由金融,银行,物联网,供应链,制造业的行业领袖协同组成的全球协作项目。我们将Hyperledger同CDH进行集成,以利用CDH的服务部署,监控,管理功能。通过这个项目,用户可以方便地在CDH托管的数据中心部署Hyperledger集群,而且便于利用CDH大数据平台分析Hyperledger的数据,提取更多的商业价值。在万达内部使用的项目包含:数字权益平台和共享商业平台。其中共享商业平台包含了金融和供应链等多个环节。我们相信这个项目对于Hyperledger开源社区将很有帮助。
Adam Gibson (Skymind)
Adam Gibson offers a high-level overview of jumpy, a better Python interface for deep learning applications, and explains why Spark's Py4J interface for deep learning makes it impractical for deep learning applications.
马晓宇 (PingCAP)
SparkTI (Spark on TiDB)是TiDB基于Apache Spark的独立于原生系统的计算引擎。它将Spark和TiDB深度集成,在原有MySQL Workload之外借助Spark支持了更多样的用户场景和API。这个项目在SparkSQL和Catalyst引擎之外实现了一套扩展的,为TiDB定制的SQL前端(Parser,Planner和优化器):它了解TiDB如何组织数据,并知晓如何借助TiDB本身的计算能力加速查询,而不仅仅是一个Connector。凭借SparkTI,TiDB将成为Hadoop生态的一部分,铺平了OLTP系统和离线分析集群之间的鸿沟。
李浒 (今日头条)
讲述今日头条是如何用Spark来处理海量数据,以及在实际使用中的一些改进。
李嘉璇 (58)
常常听到这种说法,自然语言处理是人工智能的桂冠。NLP从语言学上来看,研究的方向包括词干提取、词性还原、分词、词性标注、命名实体识别、词性消歧、句法分析、篇章分析等等。在这些基础的研究内容之上,面向具体的文本处理应用有机器翻译、文本摘要、情感分类、问答系统、聊天机器人等。使用的模型也在非常新颖地发展,从原来的RNN到GRU、到LSTM、到CW-RNN、到Seq2Seq、到加入Attention机制。从原本的Static unrolling到现在的Dynamic unrolling,甚至seqGAN。 自然语言处理的各个模型都有什么特点,除了加入双向以及加深网络外还有什么演化规律,每一次演化都是为了解决哪些技术哪点?接下来NLP基础模型还可能有哪些研究方向?在Sequential Data的处理及表示上有什什么演进规律和可以借鉴的经验?让我们来一起聊一聊这些话题。
Dihao Chen (第四范式技术有限公司), Jianwei Cui (小米)
介绍小米内部应用的cloud machine learning平台,分析通用深度学习平台的架构设计和实现原理,还有在企业内部支持开发环境、模型训练以及模型服务的实践经验。
陈雨强 (第四范式)
AI的强大让各行各业纷纷侧目,未来对AI的应用情况将极大影响一家企业在市场中的位置。 然而, 在实验室叱咤风云的AI技术一旦应用到实际,难免水土不服。 那么,AI工业应用的必要条件是什么?痛点有哪些?如何解决?如何从系统层面、模型&特征层面、模型维度层面、实施上线层面实现突破?针对常见场景中的常见难点,有哪些黑科技正在起作用? 本演讲旨在分享演讲者在互联网、金融、电信等领域的人工智能工业应用实践中的痛点及解决思路。
Jiangjie Qin (LinkedIn)
Apache Kafka作为近年来最流行的消息系统之一,其使用场景已经从最初的集中系统消息队列发展到更为复杂的一系列使用场景,包括流处理,数据库复制,CDC等等。本次演讲将以Kafka在LinkedIn的实践为基础详细介绍Kafka的各种应用场景。
Shaoshan Liu (PerceptIn)
The rise of robotics applications demands new cloud architectures that deliver high throughput and low latency. Shaoshan Liu explains how PerceptIn designed and implemented a cloud architecture to support these emerging user requirements using Alluxio.
Feng Cheng (Grab), Edwin Law (Grab)
Grab is sitting at the junction of the digital and physical worlds. Its vision is to drive Southeast Asia forward and transform the way people travel and pay across the region. Feng Cheng and Edwin Law explain Grab's data architecture and offer a history of its data platform migration and stream-processing apps.
Michael Li (The Data Incubator)
Michael Li demonstrates how to iteratively train and refine a simple yet robust credit model for loan-default prediction, based on real-world loan performance data using 100% open source machine learning and artificial intelligence tools. The data is based on US$26 billion in loans issued over 10 years.
Zhenxiao Luo (Uber)
As Uber continues to grow, its big data systems must also grow in scalability, reliability, and performance to help Uber make business decisions, give user recommendations, and analyze experiments across all data sources. Zhenxiao Luo shares his experience running columnar storage in production at Uber and discusses query optimization techniques in SQL engines.
Haifeng Chen (Intel)
Although the processing capability of modern platforms is approaching memory speed, securing big data using encryption still hurts performance. Haifeng Chen shares proven ways to speed up data encryption in Hadoop and Spark, as well as the latest progress in open source, and demystifies using hardware acceleration technology to protecting your data.
Amr Awadallah (Cloudera)
Amr Awadallah explains how data science and machine learning methods are evolving to bring a more comprehensive, secure, and enterprise-grade data science experience to the enterprise.
Fangshi Li (LinkedIn)
Kafka和Hadoop是LinkedIn数据基础设施online和offline部分的核心。Kafka是LinkedIn创造并且开源的,目前集群有超过一千台机器,每天收集并处理14万亿条消息。LinkedIn的Hadoop集群有超过1万台机器和50pb数据,每天处理20万个任务。在本议题中,我将会以一个Hadoop成员的角度讲解linkedin如何搭建Hadoop和Kafka的桥梁,让他们更好的一起工作。内容包括 1)讲解LinkedIn数据架构 dataset从产生到Kafka到Hadoop并且最终呈现给用户(数据分析师)的整个ETL流程 2)讲解我们的一个use case来使用Apache Flume和Kafka收集分析Hadoop集群的数据并且搭建实时分析程序 3)讲解我们最新的工作,提供统一的sql接口让用户可以同时处理Kafka数据流和hdfs的数据
Ron Hu (Huawei Technologies), 王振华 (Huawei Technologies)
我们把基于成本的优化器框架贡献给社区版本Spark 2.2。在我们的框架中,我们计算每个数据库操作符的基数和输出大小。通过可靠的统计和精确的估算,我们能够在这些领域做出好的决定:选择散列连接(hash join)操作的正确构建端(build side),选择正确的连接算法(如broadcast hash join与 shuffled hash join), 调整连接的顺序等等。这个基于成本的优化器框架对Spark SQL查询的性能有很好的提升 。在这次演讲中,我们将展示Spark SQL的新的基于成本的优化器框架及其对TPC-DS查询的性能影响。
杨帆 (Lenovo)
在无法直接收集个人信息的情况下,企业需要根据用户行为数据,来预测用户的特定属性(如性别、职业、学历、购买力、年龄以及其它个人生命周期的状态等)。(目标) 一些有监督机器学习算法被用来实现这一目标,但是,面对数千万甚至上亿的海量用户、数百亿甚至更多的行为数据,标注量需要达到一定规模,才能保障机器学习的效果,而为了获得标注数据,是成本非常巨大的工作。(难点) 在实践中,我们通过多个角度对用户进行建模,构造不同的用户数据视图,在每个视图下选择合适的机器学习算法,应用cotraining半监督学习算法,通过多个数据视图机器学习算法的协同训练(cotraining),在使用非常少量的标注数据的情况下,就能在用户属性预测方面达到良好的效果。(方法)
Zhe Zhang (领英)
领英是全球最早应用大数据技术的公司之一。在过去9年的时间里,领英的大数据平台扩展了将近500倍,从20台节点支持10个用户运行MapReduce,到现在超过1万台节点支持几千名工程师和科学家运行从交互式Presto查询到TensorFlow深度学习的各种大规模数据分析。这个报告会分享领英的大数据平台团队怎样解决大规模和高速增长带来的各种挑战。
Lukas Biewald (CrowdFlower)
As companies take machine learning out of R&D and into production, they face a whole new set of challenges. Lukas Biewald explains why human in the loop, active learning, and transfer learning are all essential design patterns for making deep learning real.
Yu Li (Alibaba), Ramkrishna Vasudevan (Intel)
Yu Li explains how Alibaba met the challenge of tens of millions requests per second to its Alibaba-Search HBase cluster on 2016 Singles' Day. With read-path off-heaping, Alibaba improved the throughput by 30% and achieved a predicable latency.
Dennis Weng (JD Group)
Online shopping accounts for over 15% of China's overall shopping market and has been growing more than 20% every year. Over the past 13 years, JD has successfully become a direct sale online retail giant. Dennis Weng explains how JD has used rich and high-value customer and business data to become one of the most important data companies in China.
本主题将突出英特尔多方面的努力:大数据技术借助民主化进程,通过广泛的产品组合而整合生态系统;通过新的高度优化的AI解决方案的贡献,推进创新;并释放智慧以解决世界上最大的挑战,同时提供给客户最大的商业价值。
Luke Han (Kyligence)
大数据已成企业的核心竞争力,在大数据技术及平台相对复杂,人才短缺的现状下,大数据生产力无法得以充分释放,过多的依赖于人,特别是专业培训过的工程师很难让企业可以快速构建大数据平台,快速相应业务变化。 本次主题演讲,将从一个新的角度去看待这个问题,介绍为什么将传统的DW/BI能力、理论、方法论等在大数据平台上进行使能是如此的重要,如何通过这种办法,充分发挥现有人才的能力,为企业提供释放大数据生产力的可能
Mick Hollison (Cloudera), Jien Zhou (UnionPay)
Mick Hollison and Jien Zhou discuss how organizations are applying machine learning and advanced analytics to improve customer service and reduce the threat of fraud and cyberattack and explain how China UnionPay is using big data to deliver a better customer experience and manage risk.

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

 

Stay Connected Image 1
Stay Connected Image 3
Stay Connected Image 2

阅读关于大数据的最新理念。

ORB Data Site