YouTube 推荐算法透视

正如跨象乘云™ 的视频点播推荐系统大数据实训项目工程案例所描述,目前,算法已经成为驱动 YouTube 收入增长最有效的工具,使用神经网络通过大量数据和用户观看记录对用户进行分析,YouTube 的工程师将其描述为目前规模最大、最复杂的商用推荐系统。那这个推荐系统到底是怎么工作的呢?

本质上,过滤气泡(filter bubble,一种网站针对个人化搜索而提供筛选后内容的结果)的生成方式,也是所有推荐算法的工作原理。一小段电脑代码跟踪你正在进行的动作,比如你最常看的视频分类、最长观看时间,然后推荐给你同一类型的视频。内容推荐算法的过程一般包括以下三步:

  1. Item Representation:为每个 item 抽取出一些特征(也就是 item 的 content 了)来表示此 item;
  2. Profile Learning:利用一个用户过去喜欢(及不喜欢)的 item 的特征数据,来学习出此用户的喜好特征(profile);
  3. Recommendation Generation:通过比较上一步得到的用户 profile 与候选 item 的特征,为此用户推荐一组相关性最大的 item。上图内容推荐算法的步骤展示出了推荐算法的基本原理。

Google 前员工 Guillaume Chaslot 自建了一个网站 Algotransparency.org,用来揭示 YouTube 和 Google 算法的工作原理,让这个被称为全世界目前最复杂的商业推荐系统算法透明化。Chaslot 编写了一款软件,旨在为大家提供全球首个探究 YouTube 推荐引擎的窗口,该程序模拟用户在观看一个视频后引发推荐视频链,并跟踪数据。在过去的 18 个月中,Chaslot 利用该计划探索法国、英国和德国选举期间 YouTube 上推广内容的偏差,全球变暖和大规模枪击事件,并在他的网站 Algotransparency.org 上发布了他的调查结果。从目前该网站披露的项目来看,至少在 2016 年美国大选、拉斯维加斯枪击案、德国大选等事件中,YouTube 算法都发挥了重要的作用。

通过该网站的检测,有助于我们更好地了解 YouTube 算法带来的影响,同时带给我们关于机器学习算法透明化的思考:从用户的角度来看,算法透明化是趋势,也是有必要的,这就给破除“黑盒子”问题提出了更迫切的要求。