编者按:腾讯首席科学家孙国政在SDCC大会上发表了题为《超大规模用户数据挖掘和推荐算法最新进展》的演讲,这是孙国政先生在国内少有的公开分享之一。孙博士是搜索界的泰斗级人物,有28年的海外工作经验,2009年由美国加盟腾讯公司。孙博士在神经网络、人工智能、机器学习、信息提取、数据挖掘等领域和产品开发上有丰富的工作经验和诸多著作,曾领导雅虎全球搜索相关性技术研发。

2012中国软件开发者大会(SDCC)于9月8-9日在国家会议中心召开,本次大会由CSDN、《程序员》杂志、ITEye合办。作为年度最具实战的技术盛会,大会云集了来自国内外一线互联网和企业级软件公司的实战专家,就高可用性系统架构、海量数据挖掘、开放平台服务与架构、智能推荐系统、异构计算等话题和参会者进行了深入分享与探讨。
在大会主会场,腾讯首席科学家孙国政带来了主题为《超大规模用户数据挖掘和推荐算法最新进展》的精彩演讲。他表示现在是一个互联网时代,也是一个大数据时代,新的时代也带了了更多的挑战,包括大数据挖掘和智能推荐的难题,但挑战也同时伴随着更多的机遇。
以下为部分观点整理稿,更详细
现在这个世界是一个互联网时代,也可以说是一个大数据时代。比如说我们现在每天能出现2.5Q的数据,如果现在开始每年能够在将来10年中有50倍数据增长量,这就给大家带来一个挑战,这些数据怎么办?现在世界五百强每个公司都有一个新的计划就是怎么来收集大数据,可见大数据现在很重要。
究竟大数据问题是个烦恼还是商机,这是所有公司和开发者思考的一个重要问题。我们现在所看到的好多公司一些管理层把大数据都当成烦恼,怎么来处理?美国健康总署表示,如果把现在的数据都用好了,相当于每年收入300万美元,这相当于大数据带来很大商机。
KDD-CUP 2012 Solutions剖析
现在我们面临的挑战一方面是大数据如何能够存储和处理,更重要的是大数据怎么为我们造福!现在就有一个为用户、为广大网民服务怎么发展数据的问题。在这样的背景下,就出现了KDD-CUP比赛。今年KDD—CUP选的题目有两个,一个是根据腾讯微博数据,让你算一下用户收听推荐的名人机率。第二个是根据搜搜商业搜索的数据,推荐有用的广告。
KDD—CUP有三个基本特点:第一,数据比往年量大,直接来自真实产品运营日志,没有经过任何改变;第二,参加人数与往年比也是最多的,track1三千多人,track2五千多人;第三,数据集非常复杂,参赛者需要自己进行处理,形成所需的特征变量,且变量的最终数目还取决于参赛者处理方法,没有标准答案。
推荐系统的意义和挑战
现在数据用途从广告搜索、娱乐、内容等等都要服务用户,所以推荐技术应运而生。但是推荐系统有几个要关注的问题:
第一个是Context aware处理,Context包括时间、地点、涉及公司和用户的情绪、属性、社交网络等等属性。这个问题是我们要很好研究的课题,现在微博推荐也是这样,就是不同场景下收听率是不一样的。
其次是Heterogenity,有不同形式不同渠道的,你怎么统一到一块儿。另外你推荐应该跟它的内容,比如你了解不了解这个人的背景等等。
第三个做推荐必须以用户为中心,最重要的是用户接不接受,你别推荐了半天人家不接受,那也没用啊。在这里有很多算法来研究,我们怎么能让用户感到满意,这样界面交互很重要,你显示不好人家不接受,或者写的词跟内容不搭界人家也不接受。
推荐方面有很多挑战,我总结了这几点:主动推荐不光是推荐什么,怎么推荐也很重要,另外隐私保护性也很重要,每个人都有个人行为,你每次推荐都是个性化的,怎么个性化又怎么保护隐私这是一个对立的问题,在移动互联网下怎么推荐这对我们提出很多挑战。