科技巨头聘用大量人力来做内容审核,已经不是什么稀奇事。Google、百度、腾讯、新浪、今日头条都设置了类似岗位。而这个岗位有一个让人想入非非的名字——“鉴黄师”。
随着互联网的飞速发展和信息量的猛增,大量的色情、暴力、政治敏感、违法等不良信息夹杂在其中,严重影响着互联网的健康发展。尤其是在UGC领域,每天都有大量的用户在不断地生产内容。对于互联网平台而言,需要支出非常大的成本来进行内容审核。
因为如果没有做好内容审核的话,首先是大量的不良内容会让平台用户产生反感,从而降低使用产品的频率,最终导致用户远离产品,不利于平台的长期发展。然后,不良内容的发布,很有可能触犯国家法律,引来平台管制甚至是平台关闭。
日前,全球社交巨头之一的Facebook,就因为内容审核问题遇到了不小的麻烦。4月25日,一名泰国男子在Facebook上发布了两则杀害11个月女儿的视频,随后该男子自杀,该视频在24小时之后才被删除。其中第一段视频的播放量超过11万次,第二段视频播放量超过25万次,视频还被其他用户上传到视频网站Youtube。这此事件,让Facebook陷入了争议,甚至逼得FacebookCEO马克•扎克伯格不得不在5月3日宣布,将在全球再雇3000余人,这些新雇员将和现有的4500人组成网站社区运营团队,在世界范围内监控每周所有用户上传的数以百万条的内容,更快地发现并处理那些包含仇恨犯罪和伤害儿童内容的视频和帖子。
弊端逐渐明显,传统“鉴黄师”大势已去
科技巨头聘用大量人力来做内容审核,已经不是什么稀奇事。Google、百度、腾讯、新浪、今日头条都设置了类似岗位。而这个岗位有一个让人想入非非的名字——“鉴黄师”。鉴黄师是近年来随着网络视频行业的发展,尤其是直播的兴起,而频频进入人们的视野一个特殊岗位。其工作内容,就是将网站产生的内容一一审看,并根据内容进行鉴定结论。近两年,各大互联网公司为了保证自己所提供的内容不触犯国家法律和法规,使得鉴黄工作变得尤为重要。
然而,随着互联网信息的极速增长,人工鉴黄师的弊端逐渐变得明显。首先是,成本越来越高。鉴黄师其实是一个准入门槛比较高的职位,有数据显示,鉴黄师的工作强度非常之大,往往一个人一天需要审核上万条信息,同时这份工作还要忍受因为接受了大量的诸如色情、暴力等负面信息带来的心里问题。企业培养一个合格的鉴黄师往往需要大量的投入,可以说鉴黄师实际上是一种稀缺资源。然而,随着互联网信息的极速增长,所需要去审核的信息也变得越来越多,导致这个岗位的缺口越来越大,而物以稀为贵,这就导致公司在内容审核上的成本也在迅速增长。
第二、传统鉴黄师效率低下。人的精力是有限的,尤其是重复做一件相同的事情更是如此,可能开始时效率非常高,但随着时间的推移,效率会快速下降。
第三、人的主观性太强,容易影响鉴别结果。只要是人,对于一个事物的判断或多或少都会加入主观判断,对于同一张图,两个不同的人,可能会给出完全不同的结果,而没有严格根据判断标准给出结果,难免有不少漏网之鱼,而如果要是审核过度,平台又会被指责侵犯公民的言论自由。
正是由于这种种弊端的出现,使得行业内对于成本更低、效率更高的内容审核方式提出了需求,而这种需求为人工智能内容审核带来了巨大的市场。
人工智能内容审核如何进行?
近年来,随着深度学习理论的突破,AI领域很多经典的难题都已被得到很好地解答,尤其是计算机视觉领域,已经进入了有史以来最好的时代。深度学习在计算机视觉领域的应用,给利用人工智能进行内容审核提供了基础。
那么人工智能内容审核一般从哪些方面进行鉴定呢?我们知道如今互联网内容主要可以分类为:文字信息、图片信息和视频信息,其中视频信息可以再细分为直播视频信息和在线视频信息,相对来说直播信息的鉴别是难度最大的,也是不良信息的重灾区,是目前来说鉴别需求最为迫切的。我们就以视频直播内容的鉴别来进行分析。直播内容的智能审核主要依赖图像识别技术。虽然说审核的是视频内容,但是实际上因为视频内容涵盖的信息较为复杂,难以进行分析,因此智能审核并不以视频为单位,而是从视频内容中提取相应的视频帧进行图像识别,同时辅以语音识别等手段进行判断。
直播视频的审核,一般可以分为以下几个步骤:识别图像中是否存在人物体征,统计人数;识别图像中人物的性别、年龄区间;识别人物的肤色、肢体器官暴露程度;识别人物的肢体轮廓,分析动作行为;通常会根据肤色裸露程度、姿势、肢体轮廓判断是否涉及色情元素。除了图像识别之外,同时辅以语音识别,判断是否存在敏感信息;同时对实时弹幕进行文字识别,判断当前视频是否存在违规行为。多种鉴别方式的相互组合和印证大大提高了智能审核的准确性。
相对于传统鉴黄师人工智能内容审核优势何在?
上文中已经提到过了利用人工进行内容审核的弊端,其实与人工内容审核的弊端进行一一比对,就能得出人工智能内容审核的优势所在了。
第一、能有效降低成本、提升效率。与人工鉴黄不同,人工智能审核不存在疲惫和精力不集中等问题,人工智能系统可以进行7*24小时不间断的工作。有数据显示,人工智能审核的效率是人工识别的1000倍,那智能审核相对人工审核能降低多少成本呢?以一家月直播10万小时的中小直播平台为例,如果采用传统的内容审核技术,100人的内容管理团队每月所花费的成本在80万上下。如果借助人工智能进行内容监控,人力投入可以削减到10人左右,综合投入不过10万到20万之间,将大大降低人力成本和管理费用。此外还有因此而节省的监视设备费、办公场地费等等。
第二、准确率大大上升。相对人工审核而言,智能审核排除了主观意识的影响,能够做到更为客观的判断。以目前的技术水平来判断,智能审核能够做到99.9%以上的准确率。不仅如此,依赖深度学习算法,可以使系统变得更智能,更精准。
安防企业能得心应手地应对网络视频内容审核
在安防行业,智能视频分析已成为常态,并且相对于网络视频内容审核更具规模化、智能化效应。对安防智能视频分析而言,人工智能技术在网络视频内容审核方面的应用,智能鉴黄算是“轻量级”应用,可以非常简单的应对。首先是视频数据量不成正比,我们以一个摄像头密度为6000的小型城市为例,6000个高清摄像头一小时的视频大小将有10800000MB,一天下来,将产生247TB的视频数据,更别提更大的城市一天所产生的视频数据量了。除此之外,由于安防视频监控的数据主要由社会实时画面构成,相对于网络视频来说识别的环境跟为复杂,需要识别和计算的内容更多。因此,相对于专业级的安防监控视频的规模而言。同样是视频内容检测、分析和搜索,网络视频和监控视频完全是两个级别。
再让我们来看看网络内容审核这个市场究竟有多大?2015年的数据显示,我国在线直播平台数量超过200家,网络直播平台用户数量已经达到2亿,大型直播平台每日高峰时段同时在线人数接近400万,同时进行直播的房间数量超过3000个。而经历过2016年的百播大战之后,这个数据至少要增加好几倍。上文中提到过,以一家月直播10万小时的中小直播平台为例,如果采用传统的内容审核技术,100人的内容管理团队每月所花费的成本在80万上下,一年的费用接近千万。
除此之外,内容审核还有诸如Facebook、Twitter、微信、QQ等社交平台;网易、搜狐等内容平台;以及贴吧、天涯等社区平台大量的UGC内容,目前来说,这些内容审核是智能内容审核的大头,由此可以看出,智能内容审核存在至少数百亿的市场。
当然,有市场就有竞争,近两年人工智能鉴黄市场竞争已经愈演愈烈,此前,Facebook应用机器学习部门主管表示,Facebook正在开发一项新的系统工具,可以在直播视频中对令人反感的违规内容进行自动标记。雅虎也对外开源了一套深度学习神经网络,它专门用于自动检测图片是否含有色情内容。
国内也有多家公司开始布局。阿里的绿网、腾讯的万象优图等巨头纷纷入局,创业公司也积极参与鉴黄业务。
总结
随着互联网数据量的飞速增长,互联网内容审核已经成长为一个巨大的市场,而因为数据量的剧增,传统的人工内容审核已经不能适应时代的发展,网络内容审核作为一份重复率很高的工作,是一个人工智能非常适合的应用领域。而网络内容审核作为图像识别技术的重要应用领域,对安防企业来说,技术难度并不大,因此可以成为安防企业大展宏图的重要市场。
但是,人工智能鉴黄虽然在不断发展,但还是存在很多犯错和脱离不了人力的地方。网络本身的深度、参数的设置、训练的方式、数据样本的齐全性都影响着鉴黄的精准度。举一个简单的例子,一个裸露着上半身的男人,如果是人工审核的话,可以很简单地判断并不是色情内容,但是人工智能通过肌肤裸露程度的判断却会做出色情内容的判断。所以,这需要技术需要不断突破,才能使人工智能识别更精准。此外,鉴黄过程中很多流程都依赖人的参与,例如模型的训练、模型的测试、原因的排查等等,所以还不能对人力进行完全的解放。