“灵犬”技术原理首次披露 今日头条反低俗、反色情全靠它
7月30日,今日头条正式推出灵犬反低俗助手3.0版本,新增了图片识别功能。据悉,新版“灵犬”重点拓展了反低俗识别类型和模型能力,现已覆盖图片识别(反色情低俗、反血腥暴力)和文本识别(反色情低俗、反暴力谩骂、反标题党),后续,灵犬还将支持语音识别和视频识别。
自去年3月灵犬正式上线之后,在一年的时间内,今日头条已经对其进行了两次迭代:2018年5月,“灵犬”在1.0版本的基础上完成服务能力升级,增加反色情短文本模型和反谩骂模型,并将准确率从73%提升至82%;2019年2月,“灵犬2.0”上线,除了反色情低俗模型,加入反暴力谩骂和反标题党模型,整体识别准确率接近85%。
基于“灵犬”,用户只需要输入一段文字或文章链接,就可以检测内容健康指数。对于用户输入的内容,“灵犬”会先进行提取、分词和语义识别,然后根据相关规则, 输出对应的分数、评级和结论。据今日头条披露,截至2019年6月,灵犬反低俗助手的使用人次已经超过了300万。
“灵犬”背后技术原理首次披露
当天下午,字节跳动人工智能实验室总监王长虎还首次向外界阐述了“灵犬”背后的技术原理。
王长虎表示,“灵犬”背后的文本分类模型已经进行过三次迭代。而且每个新版本相对于旧版本,在技术和数据集层面,都有一个明显的提升。
据介绍,第一代“灵犬”应用的是“词向量”和“CNN(卷积神经网络)”技术,训练数据集包含350万数据样本,对随机样本的预测准确率达到79%;
第二代“灵犬”应用的是“LSTM(长短期记忆)”和“Attention”技术,训练数据集包含840万数据样本,准确率提升至85%;
而新版“灵犬”同时应用了“Bert”和半监督技术,并且在此基础上使用了专门的中文语料。“Bert”是当前最先进的自然语言处理技术,也是该领域近年来重大进展的集大成者。这项技术在常见的阅读理解、语义蕴含、问答、相关性等各项任务上,大幅提高了性能。
王长虎称,这一代“灵犬”训练数据集总量是1.2个T,相当于20倍百度百科或100倍维基百科的数据总量,包含920万个样本,准确率提升至91%。
除了文本识别,新版“灵犬”还新增了图片识别。王长虎表示,图片识别的技术难点主要在于非均衡、类内方差大和不可穷举等三方面,即低俗图片占整体图片内容的比例较低,低俗图片的种类丰富、繁杂,构成低俗图片的特征千差万别。
对此,“灵犬”运用的解决方案是深度学习。据王长虎介绍,今日头条分别在数据、模型、计算力等方面做了很多优化。其中数据层面,“灵犬”已累积上千万级别的训练数据;模型层面,“灵犬”针对许多困难样本做了模型结构调优,尝试解决多尺寸、多尺度、小目标等复杂问题;计算力层面,“灵犬”利用分布式训练算法以及GPU训练集群,加速模型的训练和调试。
反低俗需要算法与人工相结合
王长虎表示,低俗的定义相对笼统,很难完全精确地定义出来,这项工作即使对人来说也不容易,交给机器做更难实现。因此,一些技术难以搞定的问题,现阶段还有赖于人工判断。
6686体育官网最新版至于哪些是技术无法搞定的问题?王长虎举例进行了解释,比如技术暂时难以制定标准的案例。“世界名画中常常出现裸体女子,如果完全交由机器判断,机器通过识别画中人物的皮肤裸露面积,就会认为这幅画是色情低俗的;而某些拍摄芭蕾舞的图片,以机器的视角来看,其实类似于裙底偷拍。”
此外是因为使用场景、人群不同而导致标准变动的案例。比如内衣和内衣模特出现在购物平台上,会被默认为正常,但如果频繁出现在新闻资讯平台上,就可能被认为有低俗嫌疑;正常的热舞内容,提供给成年人看,符合常规标准,但如果开启了青少年模式,这些内容就不应该出现。
王长虎说,针对低俗判断问题的复杂性和不同判断方式的局限性,一方面需要不断进化技术模型,一方面需要有效结合技术和人工判断两种方式。据其介绍,“灵犬”建设了比较完善的模型迭代系统,会通过“数据收集—数据标注—数据清洗—模型训练—模型评估—badcase分析”这一套完整的流程持续做优化。
更多内容请下载21财经APP