O'Reilly、Cloudera 主办
Make Data Work
2017年7月12-13日:培训
2017年7月13-15日:会议
北京,中国

数据科学&高级分析 (Data science & advanced analytics)

Add to your personal schedule
11:15–11:55 Friday, 2017-07-14
地点: 多功能厅5B+C(Function Room 5B+C) 观众水平 (Level): 中级 (Intermediate)
Xiaoyong Zhu (Microsoft)
平均得分:: *****
(5.00, 1 次得分)
R is a popular data science tool for data analysis. However, it has many drawbacks, such as its memory utilization and single-thread design, that limit its usage for big data analysis. Xiaoyong Zhu explains how to use R to analyze terabytes of data. 了解更多信息.
Add to your personal schedule
13:10–13:50 Friday, 2017-07-14
地点: 多功能厅5B+C(Function Room 5B+C) 观众水平 (Level): Intermediate
张夏天 (TalkingData)
平均得分:: *****
(5.00, 1 次得分)
TalkingData的一些核心业务能力如Lookalike十分依赖大规模机器学习的能力,我们发现现有的大规模机器学习技术都不能很好的满足我们的需要。因为我们需要支持大规模数据的高速,稳定,无需调参的机器学习算法,而这是目前的一些主流平台和工具无法提供的能力。为此我们在算法和系统方面做了一些研究,取得了一些成果。我们开源的Fregata机器学习算法库完全基于Spark标准接口,在Logisti Regression, Softmax算法上能够做到无需调参,高速,支持万亿维度的模型。Fregata Logistic Regression算法,在消耗大约2-4台服务器的机器资源,对于5.1亿条,1万亿维度的训练数据,可以在15分钟内完成训练。我们在本次演讲中将介绍Fregata在算法上和系统方面的一些工作。 了解更多信息.
Add to your personal schedule
13:10–13:50 Friday, 2017-07-14
地点: 多功能厅6A+B(Function Room 6A+B) 观众水平 (Level): 高级 (Advanced)
ximeng zhang (GrowingIO)
平均得分:: *****
(5.00, 1 次得分)
当流量红利渐消,数据驱动用户和收入增长成为新的核心;用数据驱动决策,而不是靠拍脑袋;数据分析究竟有哪些魅力?如何帮助企业创造巨大的商业价值,如何令公司全员做到数据决策;硅谷最前沿的方法论、工具、技术,最前沿的产品理念有哪些? 了解更多信息.
Add to your personal schedule
14:50–15:30 Friday, 2017-07-14
地点: 报告厅(Auditorium) 观众水平 (Level): 中级 (Intermediate)
王玮 (中国人寿), Qinyan XU (中国人寿), 顾佳盛 (中国人寿), Pengfei Yue (Intel), Binggang Wo (Cloudera)
平均得分:: ***..
(3.33, 3 次得分)
中国人寿多年来积累了大量数据,如何深度挖掘数据的价值,用于业务推动、风险管理、客户服务等领域,是我们数据部门的主要目标。我们将介绍中国人寿如何使用Spark以及Spark上的深度学习库BigDL构建针对保险业务场景的高级分析应用。我们尝试了多种前沿的高级机器学习和深度学习技术,我们将分享我们的机器学习系统的架构,应用构建的流程,以及从中吸取到的经验和教训。 了解更多信息.
Add to your personal schedule
14:50–15:30 Friday, 2017-07-14
地点: 多功能厅8A+8B(Function Room 8A+8B) 观众水平 (Level): Beginner
Michael Li (The Data Incubator)
平均得分:: ***..
(3.00, 1 次得分)
Michael Li demonstrates how to iteratively train and refine a simple yet robust credit model for loan-default prediction, based on real-world loan performance data using 100% open source machine learning and artificial intelligence tools. The data is based on US$26 billion in loans issued over 10 years. 了解更多信息.
Add to your personal schedule
16:20–17:00 Friday, 2017-07-14
地点: 报告厅(Auditorium) 观众水平 (Level): 中级 (Intermediate)
吴炜 (万达网络研究院)
广告点击率(ctr)预估的是一个热点问题,从事计算广告的公司一般都有自己的ctr系统,如何稳定可控地改进点击率预估系统,数据,架构,算法这三方面在不同的时间点要做什么是我这次想要分享的主题.通过回顾一个点击率预估系统是如何从最初的单纯的ETL+LR的形式逐步演变为包括模型在线训练,自动baddit,自动大规模特征探索的成熟在线系统.着重介绍在演化的几个关键节点上基于当时情况选择那个技术方向的思考过程,相当于结合ML&DL的知识体系和最近2年的发展,以业内几个比较知名的应用场景为线索,以几个关键节点(千人千面的上下线,双11的逐年演化)为例子来介绍大规模机器学习,分布式最优化的相关知识点,为参会者在面对在具体业务中遇到ML,DL相关问题如何做选型提供一份历史案例的参考 了解更多信息.
Add to your personal schedule
13:10–13:50 Saturday, 2017-07-15
地点: 多功能厅5B+C(Function Room 5B+C) 观众水平 (Level): 中级 (Intermediate)
杨帆 (Lenovo)
平均得分:: ****.
(4.67, 3 次得分)
在无法直接收集个人信息的情况下,企业需要根据用户行为数据,来预测用户的特定属性(如性别、职业、学历、购买力、年龄以及其它个人生命周期的状态等)。(目标) 一些有监督机器学习算法被用来实现这一目标,但是,面对数千万甚至上亿的海量用户、数百亿甚至更多的行为数据,标注量需要达到一定规模,才能保障机器学习的效果,而为了获得标注数据,是成本非常巨大的工作。(难点) 在实践中,我们通过多个角度对用户进行建模,构造不同的用户数据视图,在每个视图下选择合适的机器学习算法,应用cotraining半监督学习算法,通过多个数据视图机器学习算法的协同训练(cotraining),在使用非常少量的标注数据的情况下,就能在用户属性预测方面达到良好的效果。(方法) 了解更多信息.
Add to your personal schedule
14:50–15:30 Saturday, 2017-07-15
地点: 紫金大厅B(Grand Hall B) 观众水平 (Level): 中级 ()
Pengshan Zhang (PayPal Shanghai)
PayPal风险控制部门一直致力于利用基于大数据的机器学习的模型检测欺诈交易以及欺诈用户。本次演讲主要分享PayPal风险控制部门内部如何利用Hadoop/YARN实现分布式的逻辑回归、神经网络以及梯度提升树等机器学习算法,以及如何针对不同的算法做特征工程,构建端到端的机器学习管道。最后分享如何将这些算法组合起来提升模型的性能和稳定性。 了解更多信息.

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

 

Stay Connected Image 1
Stay Connected Image 3
Stay Connected Image 2

阅读关于大数据的最新理念。

ORB Data Site