“在今日头条工作前三年,我收到用户反馈,的一个问题,就是怎么老给我推重复的?”
在1月11日,今日头条召开的《让算法公开透明》交流会上,资深算法架构师、中国科学技术大学计算机博士曹欢欢在今日头条总部带来了题为《让算法公开透明》的分享,消除社会各界对算法的一些误解,同时接受意见和建议。
曹欢欢详细解释道:“每个人对重复的定义不一样。有人昨天看到一篇讲巴萨的文章,今天又看到两篇,可能就觉得烦了。但对于一个重度球迷来讲,比如巴萨的球迷,可能恨不得所有的报道都看一遍。解决这个,实际上需要精确抽取文本特征,比如哪些文章说的是一个事儿,哪些文章基本一样等等。“
曹欢欢强调道,文本特征对于推荐的独特价值在于,没有文本特征,推荐引擎无法工作,同时,文本特征颗粒度越细,冷启动能力越强。
“今日头条推荐系统主要抽取的文本特征包括以下几类。首先是语义标签类特征,显式为文章打上语义标签。这部分标签是由人定义的特征,每个标签有明确的意义,标签体系是预定义的。“曹欢欢表示,”此外还有隐式语义特征,主要是topic特征和关键词特征,其中topic特征是对于词概率分布的描述,无明确意义;而关键词特征会基于一些统一特征描述,无明确集合。”
分享过后,曹欢欢在现场解答了社会各界人士对算法的疑问,包括今日头条如何实现冷启动,广告和内容该怎样平衡,怎样准确地拓展用户兴趣图谱等切实的工程性问题。同时,听取接纳了大家对今日头条算法的意见和建议。
算法原则历来属于公司行业机密,极少有公司会对外公布。此次今日头条将算法透明化,并接受建言,属于行业首例。
今日头条方面表示,人工智能发展带来的挑战,是人类此前没有遭遇过的。当企业发展壮大时,有责任也有义务,与行业一道积极思考与研究新技术可能带来的机遇和风险。