O'Reilly、Cloudera 主办
Make Data Work
2017年7月12-13日:培训
2017年7月13-15日:会议
北京,中国

多视图建模与半监督学习:应用于海量用户数据挖掘与行为分析 (Multiview modeling and semisupervised learning applied to massive user data mining and behavior analysis)

此演讲使用中文 (This will be presented in Chinese)

杨帆 (Lenovo)
13:10–13:50 Saturday, 2017-07-15
数据科学&高级分析 (Data science & advanced analytics)
地点: 多功能厅5B+C(Function Room 5B+C) 观众水平 (Level): 中级 (Intermediate)
平均得分:: ****.
(4.67, 3 次得分)

必要预备知识 (Prerequisite Knowledge)

对机器学习的概念有一定了解。

您将学到什么 (What you'll learn)

1.根据用户行为数据,进行多视图用户建模 2.使用半监督学习,在标注量不大的情况下,在海量数据中获取良好的学习效果。

描述 (Description)

1. 用户属性预测的目标。越来越多的企业构建了以用户为中心的数据运营管理体系,对用户的理解是这一运营体系的关键。许多大数据技术在这个方向得以应用与发展,形成了一整套用户画像技术体系。在无法直接收集个人信息的情况下,企业需要根据用户行为数据,来预测用户的特定属性(如性别、职业、学历、购买力、年龄以及其它个人生命周期的状态等),从而达到理解用户状态、掌握用户习惯、捕捉用户需求的目标,实现以用户为中心的数据化运营。

2. 多视图用户建模。 根据用户的行为日志,我们可以把用户抽象为:
a. 由行为状态按时间先后顺序组成的序列模型、
b. 在行为序列基础上提取的频繁模式特征向量、
c. 基于传统RFM理论改进形成特征向量、
d. 由兴趣点或兴趣点类型构成的BoW模型及相应的tf-idf向量

3. 多种学习方法。在不同的数据视图中,我们可以用不同的分类算法对用户属性进行预测:
a. 在序列模型下,可以用Markov条件转移矩阵和序列距离计算的方法,对用户进行分类;
b. 在各种向量模型下,包括深度学习在内的许多经典的向量空间的分类方法可以用来预测用户属性;
c. 此外,在“用户-兴趣点”二部图上进行的标签传播,也能用于用户属性分析。

4. 协同训练。在一种视图下,在通过机器学习方法获得的预测结果中,筛选出一批高置信度的样本,做为新的训练样本,与原来的训练集一起,放到另一种视图中去学习;由于我们构建的用户数据视图相互之间比较独立,在新的视图中,我们可以得到新的高置信度样本,这批样本可以再纳入训练集;如此,在各个视图间反复迭代,训练样本集可以不断扩大。这样,我们就可以在只有较少标注样本的前提下,滚雪球似的不断扩充标注集,在有充足标注集的情况下,获得较好的机器学习效果。


杨帆 shares the goals of user profile attribute prediction. More and more enterprises are building user-centric data operations and management systems. Understanding users is the key to this operating system. Many big data technologies have been applied and developed in this domain, forming a set of user profile technology systems. When personal information cannot be collected directly, companies need to predict users’ specific attributes, such as gender, occupation, education, purchasing capacity, age, and lifecycle status based on user behavior data, so as to understand users’ status, learn users’ habits, capture the needs of users, and eventually achieve user-centric data operations.

Topics include:

  • Multiview user profile modeling: Sequence models based on the time sequence of behavior status, frequent pattern attribute vectors extracted from behavior sequence data, attribute vectors evolved from the traditional RFM theory, and a BoW model composed by the point of interest or point of interest types, and its tf-idf vector
  • Multiple learning methods: Markov conditional transit matrix and sequence distance computing method to classify users (sequence model), vector space classification methods, including deep learning (vector model), and the user-POI bipartite network to conduct label diffusion, which can be used for user attribute analysis too
  • Collaborative training
Photo of 杨帆

杨帆

Lenovo

研究生毕业于中国科学技术大学,现任联想大数据产品研发部高级经理,负责大数据产品架构与算法研究等工作。曾在施乐、阿里巴巴、华为、百度、万达电商等公司从事数据挖掘研发工作,工作涉及机器学习/模式识别在图像处理、电子商务、搜索推荐、知识图谱、零售方面的应用。

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

 

Stay Connected Image 1
Stay Connected Image 3
Stay Connected Image 2

阅读关于大数据的最新理念。

ORB Data Site