O'Reilly、Cloudera 主办
Make Data Work
2016年8月3-4日:培训
2016年8月4-6日:会议
北京,中国

基于Apache Spark的金融欺诈检测

11:55–12:35 2016年8月05日
Spark及更多新发展
地点: 紫金大厅B(Grand Hall B)

必要预备知识

  • Spark基本背景

  • 描述

    在金融领域使用现代大数据分析技术正在逐步成为趋势。数据正在以更大的规模和更多的维度涌入,丰富了信息的同时也带来了数据分析领域快速增长的复杂度,在数据统计,特征工程和模型调优方面也对自动化框架提出了更高要求。通过与一些顶级的支付公司进行合作,我们开发出了基于Spark构建欺诈检测系统的完整解决方案。本次分享将介绍我们基于Spark DataFrame和机器学习Pipeline搭建的完整工具链和相关经验。
    听众将了解:

    1. 整体系统架构和软件栈,怎样利用和改进Spark来形成最终方案。
    2. 如何搭建快速强大的特征衍生,选择和转化流程(Pipeline)。我们会在细节方面展示真实数据所带来的挑战和我们开发的采样,填充,缩放和其他领域专用的特征转换模块。我们正在将其中的许多内容贡献给Spark社区。
    3. 深入分析我们使用的算法怎样解决数据的不平衡性及与其他算法的对比结果。
    4. 在实现过程中累积的其他开发经验
    Photo of Yuhao Yang

    Yuhao Yang

    Intel

    杨玉皓,Intel大数据技术部门软件工程师,主要关注分布式机器学习应用和基础框架,为企业大规模机器学习应用提供合作与支持。Apache Spark contributor,为Spark MLlib贡献多个算法和改进。

    Photo of 王奕恒

    王奕恒

    Intel

    王奕恒来自于Intel大数据技术团队,专注于大数据分析领域。他的同事和他致力于在Apache Spark平台上开发分布式机器学习算法,以满足大数据背景下的机器学习需求。他还为这些分布式机器学习算法在Intel平台上进行优化,以及帮助Intel的客户为他们的业务开发大数据分析程序。

    Photo of Shengsheng Huang

    Shengsheng Huang

    Intel

    Shengsheng (Shane) Huang is a software architect at Intel leading the development of large-scale analytical applications and infrastructure on Spark in Intel, as well as an Apache Spark committer and PMC member. Shane’s area of focus is distributed machine learning, especially deep (convolutional) neural networks. Previously at NUS (the National University of Singapore), her research interests are large-scale vision data analysis and statistical machine learning. Before that, she worked at Intel as lead engineer on distributed big data frameworks (e.g., Hadoop and Spark) for over six years.

    黄晟盛是Intel BigDL团队的架构师,同时也是Apache Spark committer及PMC member。她目前专注的领域是大规模分布式深度学习和人工智能应用。她有十多年的分布式系统及性能优化的经验,在Hadoop和Spark生态系统中搭建基础架构和应用的经验超过八年。

    联系OReillyData

    关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

    WeChat QRcode

    来自全球Strata+Hadoop 会议的照片。

    Stay Connected Image 1

    北京

    Stay Connected Image 3

    新加坡

    Stay Connected Image 2

    伦敦

    阅读关于大数据的最新理念。

    ORB Data Site