O'Reilly、Cloudera 主办
Make Data Work
2017年7月12-13日:培训
2017年7月13-15日:会议
北京,中国

大规模机器学习在PayPal风险控制部门的实践 (Large-scale machine learning in PayPal’s Risk Management department)

此演讲使用中文 (This will be presented in Chinese)

Pengshan Zhang (PayPal Shanghai)
14:50–15:30 Saturday, 2017-07-15
数据科学&高级分析 (Data science & advanced analytics)
地点: 紫金大厅B(Grand Hall B) 观众水平 (Level): 中级 ()

必要预备知识 (Prerequisite Knowledge)

1. 基本的大数据的知识,了解Hadoop/Spark 2. 基本的机器学习知识,了解机器学习的基本原理

您将学到什么 (What you'll learn)

1. 如何构建机器学习管道和平台应用到像风险控制这样的具体业务场景上 2. 如何利用Hadoop/YARN/Spark构建分布式的机器学习平台以及处理慢任务和容错的实践

描述 (Description)

PayPal作为领先的,支持200多个国家、20多种货币的第三方支付平台,风险控制在其中扮演了非常关键的角色。PayPal的风险控制部门一直致力于利用基于大数据的机器学习的模型检测欺诈交易以及欺诈用户。本次演讲主要分享构建大数据机器学习平台应用到风险控制场景的实践和经验,内容包括:
1. PayPal风险控制部门的机器学习应用场景介绍;
2. 如何针对不同的算法做特征工程,构建端到端的机器学习管道,构建大数据的机器学习平台;
3. 如何利用Hadoop/YARN/Spark实现分布式的逻辑回归、神经网络以及梯度提升树等机器学习算法;如何解决分布式算法运行过程中的容错和慢任务问题;
4. 如何将各种算法模型通过不同的方式组合起来提升模型的准确性和稳定性。


PayPal is a leading third-party payment platform that supports more than 200 countries and more than 20 currencies, so risk management plays a very critical role. PayPal’s Risk Management department has been working on leveraging big data-based machine learning models to detect fraudulent transactions and users. Pengshan Zhang explores how PayPal built a big data machine learning platform for risk management scenarios, covering how PayPal conducts feature engineering for different algorithms; how to build end-to-end machine learning pipelines; how to build a big data machine learning platform; using Hadoop, YARN, and Spark to achieve distributed logic regression; neural networks, gradient boosting trees, and other machine learning algorithms; how to solve fault tolerance and slow task problems during the running of distributed algorithms; and how to combine various algorithm models in different ways to improve accuracy and stability of models.

Photo of Pengshan Zhang

Pengshan Zhang

PayPal Shanghai

2008年硕士毕业于上海交通大学,2012年初加入PayPal Risk Data Science团队。2013年初开始研发基于Hadoop/YARN的机器学习框架,以满足PayPal日益增长的风控大数据的需要。主要负责使用Hadoop/YARN实现分布式的神经网络、逻辑回归以及梯度提升树等算法。目前在PayPal Risk负责分布式机器学习的框架的研发以及机器学习工程化的端到端的系统建设。

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

 

Stay Connected Image 1
Stay Connected Image 3
Stay Connected Image 2

阅读关于大数据的最新理念。

ORB Data Site