​


引言:6.14日“腾讯创新日:科技年技术盛宴”代表腾讯各个事业群技术实力的四级专家、腾讯微创新2016年度创意获奖团队欢聚一堂,一起畅谈AI、系统安全、架构设计、社交传播、推荐模式、游戏引擎等前沿科技和腾讯应用创新的台前幕后。来自WXG的搜索应用部数据中心总监、专家工程师陈川,就基于机器学习与动力学的社交传播研究,给大家进行了分享。


本次分享介绍了基于微信数据的社交传播研究,包括同质性、社会强化、传播价值等技术,以及在广告、表情等业务精准投放上的应用。



以下为陈川演讲实录


各位同事下午好,我是来自微信数据中心的陈川,今天非常高兴能有这样一个机会代表我们团队来和大家分享我们在社交传播上面所做的一些探索和思考。


首先我想通过一个案例来和大家一起感受一下在微信这样一个复杂的系统上面,任何一个微小的事件都有可能通过传播被放大,形成热点事件。



这是去年的微信公开课团队做的活动,叫我与微信的故事,当你打开这个微信就可以去到这个页面,正好是2016年的年初,总结了2015年你使用微信的一些情况,包括你发了多少朋友圈,点赞多少,收发了多少红包。这个活动非常火爆,一推出之后大家都在朋友圈里面晒自己的成绩单,活动火爆的程度超过了公开课的预期,导致大量访问失败。这时候有一个非常偶然的事件,有一个用户支付的帐户被盗了,在访问之前正好打开链接失败,所以认为这个链接是木马链接。这被带动传播起来,所以可以看到右边的图,在两个小时左右也达到了非常大的传播量,甚至还引起百万用户的解绑卡。所以在公开课这里有一个小小的蝴蝶,轻轻的扇动了一下翅膀,在微信支付这里刮起了一场风暴。



经过一段时间的实践,我们对于社交传播的研究主要收拢在两个方向。在宏观层面,我们主要是研究信息传播的规律,看我们能否对这种信息传播做一些预测,提前去规避一些风险。在微观层面我们主要研究用户个体在群体里面的行为决策,优化我们的个性化服务系统。



对于宏观层面的信息传播研究,我们研究的对象,最经典的当然是信息的传播。与此同时,我们也会去研究一些创新的研究,例如一款APP,一款游戏是如何在我们的朋友圈里面引爆的,更前沿一些的还包括情绪如何在社交网络里面进行传播。研究的内容包括传播的模式,这里也有一些关键的节点和路径,最重要的是,我们能否提前对这个信息的传播进行预测。



我仍然以这个案例为例,我们在事后复盘的分析里面看到,首先这个传播是由大量用户的二次转发所引起的,我们抽取了一个比较完整的传播树出来,可以看到树层非常深,可以达到20层,所以我们基本判断传播是由正常的用户正常转发所引起的,所以我们排除了幕后推手的原因。但是我们还发现有一些关键的节点在传播过程中扮演了非常重要的角色,非常少,只有8%,但是引起了60%以上的转发。我们把它单独提取出来进行研究,发现了两个非常重要的特点。第一,它是整个信息传播网络的信息枢纽。第二,从它的历史行为来看,转发行为一直都是非常高的回路,所以我们定义为HUB节点。微商就是一类非常常见的HUB节点,微商通常会有一个庞大的客户群体,而他们往往来自于不同的社交圈,所以微商在里面扮演着连接不同的社交圈客户的角色。微商为了保持客户对于他所发信息的关注度,所以经常发一些社会事件。正是基于这两个特点,使得HUB的传播行为对于整体的传播行为有很强的预测性。



我们前面做这些分析,最重要的目标是想对信息的传播进行预测,假设我们能够提前预测到传播事件的到来,就可以做一些风险的规避。现在对于信息传播来讲已经有一些比较成熟的方法,不过这些方法目前还停留在提取信息特征方面,例如公众号的特征,历史上转发文章怎么样,标题里面是否有一些诱惑性的词语,包括这篇文章本身主题分类是怎样的,是比较小众的分类还是受众比较广的分类。当然也包括了用户是否有一些特殊行为,是否有大量的用户收藏这些文章。


基于前面我们对于传播模式的分析,我们认为HUB节点的转发时序,对我们的传播非常重要。具体的做法是,我们把这些节点的传播时序按照不同的维度进行切分,例如转发的渠道、节点的属性进行切分,最后形成一个多维传播时序图谱。然后把这个特征加入到预测中。目前我们能大致做到,一篇文章出来两个小时之后,就能预测它最终的传播范围。



在微观层面,我们的研究方向主要聚焦在群体环境下一些个体的行为,这个方向一方面具备很强的学术研究价值,另一方面它的研究成果可以指导我们构建社交推荐系统,所以有很强的业务价值。


大数据最主要的应用趋势就是个性化,也就是通过我们一些数据去精准的刻划客户,再给他们提供精准的服务。在技术上,我们往往把给一个用户提供什么样的服务转化为二分类问题,我们会利用用户的属性,去预测客户的行为转化概率。对于一些业务分发、业务推荐来讲,我们会预测这个用户是否使用这个业务。对于社交征信来讲,就是去预测这个用户是否还款。


在社交推荐系统里面,我们这套方法论可以得到非常大程度的优化。首先我们可以通过社交相似性,去辅助计算用户的兴趣标签。因为在传统的做法里面,我们往往根据用户的历史行为计算他的兴趣,例如关注了什么公众号、看了什么文章,玩了什么游戏。但是有一些用户的行为非常稀疏,对于这部分用户的行为估算非常难,在社交推荐里面,我们可以用用户好友的兴趣推断用户本身的兴趣。


同时我们注意到一个用户的行为还受到其他的影响,例如前一段我们组里面来了几个新同学,经常喜欢骑自行车,经常发起讨论,所以很快就在组里面流行起来,包括我自己也积极参与了讨论。这就是非常典型的社交影响因素在一个用户个体行为决策中发挥作用的案例。


最后在社交推荐系统里面,我们在筛选一个业务的目标用户的时候,除了考虑用户本身的转化概率以外,还会考虑这个用户转化之后给我们带来的价值。当然在已有的一些推荐系统里面,在部分产品中也有考虑用户转化后给我们带来的价值,例如社交广告,还会考虑哪个广告的出价更高,两方面综合,给用户出广告。在我们社交系统里面,更多的是考虑用户户的传播价值,用户转化后主动的传播,甚至他的二次、三次传播能够给投放带来更多的转发,使得我们的投放能够通过一个投放度之间的传播触达更多的用户,带来更多的转化。


社交相似、社交影响、传播价值是我们对于传统推荐的优化和补充。这三个维度中最理想的状态是综合作用在社交系统里面,但事实上不同的场景每个模块作用不一样,而且也可以单独发挥作用,我们团队也分模块在进行,最终也是在不同的场景下去应用到这三个模型。



首先我们在广告LookAlike模型里面验证了社交相似性。它现在大致的工作模式是广告主会提供一批种子用户,我们结合他们的属性,应用机器学习的算法,训练一批相似性模型,找出一批最相似用户进行投放。这样做有两个好处,首先在业务上,保证了同一条广告在同一个社交圈曝光,增加互动的可能性。第二是技术上的好处,它可以保证一些行为比较稀疏的用户也能被扩散到,而不是总是活跃的用户被扩散到。这就需要我们根据种子用户的相似性对他的好友进行排序,尽量把相似的好友排在前面。这个排序过程中,我们大量的应用了行为网络、关系链网络行为数据,如何对这个网络进行特征表达,就成了关键技术。



最早我们对于社交图特征表达,是通过网络物理意义进行的。我们会根据他的共同关注的公众号数、共同阅读的文章情况来衡量他的行为兴趣的相似性,我们会根据年龄相似的程度和物理位置的远近,来衡量基础属性的相似性。这种基于物理含义的启发式算法,对于我们的业务理解和用户行为的认知要求非常高。所以一直也在思考,能否用一种更高效的图特征表达方法。



最终我们采取了Network  Embedding。一方面可以非常快速的做相似性的简单计算,同时还可以把相应的数据直接放到机器学习模型中进行训练。这是我们非常重要的技术。从学术界的创意到工业级的是先有不小的距离,我们在算法上结合微信数据的特点做了有针对性的优化。



微信的用户数据经过一段时间的历史沉淀,大量积累了用户的属性,包括你的年龄、性别、地域等等。最自然,最直接的方法,就是把前面构造的向量进行拼接,这样做显然太生硬粗暴,所以我们将个体属性和社交属性融合表达。这边年龄比较相似的点,绿色之后的向量位置也会比较接近。



微信众多业务覆盖了线上线下的行为,不同行为形成的网络映射之后都不在一个向量空间里面,最后我们是构造一个多源异质网络来把多个行为网络统一映射到同一个空间。



我们在游戏分发的场景验证了探索了社交影响模型,游戏注册行为指示性比较明显,这个颜色的深浅代表了用户群的注册率。可以看到越往右颜色越深,代表了注册率越高。在用户邀请好友的时候,转化概率,我们一方面考虑了这个好友的兴趣,也考虑了用户对好友的影响。



我们在表情业务场景里面验证了传播价值的模型,表情是一个传播效率非常明显的业务,用户下载表情一个非常典型的场景不是去表情商城浏览然后下载,他下载的主要场景是看到好友发了一个很好玩的表情,他会去收藏和下载。从这个角度来讲传播效应非明显,而且里面大量存在对于传播起到关键作用的关键节点。微信热门表情包,二次传播带来大于50%的下载量。我们会通过关系链网络和历史传播网络去计算这个传播价值,再结合转化概率,去进行投放用户的筛选。



以上是我们目前在社交传播上面所做的一些工作,现阶段所取得的一些进展。遇到非常多的挑战,包括前面所说的传播预测,我们现在大概是在2个小时左右,这篇文章发出之后,我们能够知道它的大致传播范围。但事实上现在很多热点事件的传播从发生到流行、引爆,一共用不了几个小时,这给我们提出了更高的挑战。多个好友的社交影响怎么去叠加也是一个问题。包括在计算传播价值的时候,我们需要考虑用户二次传播,甚至三次传播所带来的价值,这是很难的问题。最关键是多社交因素综合模型的构建问题,这都是我们现在面临的一些挑战,而且正好是整个团队未来要去攻克的方向。