自动抽查审核不给出款处理方法 内容审核逻辑|从入门到被门槛绊倒
文章开始之前,给大家两条建议:
1.除非你别无选择,尽可能不要从事纯粹内容审核岗位
2.如果你的工作和运营或产品有关,都需要了解内容审核的逻辑
“儿童送养”这个话题在大多平台都是极为罕见的,但知乎最近就因此爆发了一场危及平台声誉的危机。
内容审核就是这样一种职业,违法违规信息覆盖范围极广,新的违规信息层出不穷。无论你多么有经验、无论审核系统多么先进,只要发生问题,看起来都是很基础甚至很愚蠢的问题。
知乎这样一个有很强的技术实力和内容审核经验的平台,也会在这个问题上摔跟头,并且可以预料的是,不知道在多久的以后,知乎一定还会发生一次又一次因为存在违规内容带来的危机事件,这事情无可避免。有人说,对于内容审核人员来说这是从入门到被门槛绊倒,一点都不夸张。
读完这篇文章,你可以详细了解文字类内容审核的逻辑,还会了解一些图片和短视频审核的技术,足以补充一个运营或产品在这方面的知识储备了。
在不同公司,对审核类职位的划分标准不同,比如有内容安全审核、内容推荐审核、内容质量审核等类似职位。虽然在侧重点和具体操作上有所不同,但有许多逻辑都是共通的。为了避免文章过于复杂,我们在这里侧重最常见的内容安全审核。
1审核模块
不管是什么内容的审核,都应该包含以下四个基础模块:机器审核、人工审核、用户投诉审核、结果复审。
机器审核,是按照制定好的规则或机器学习算法对内容进行审核,通常,成熟的审核系统能将95%甚至99%以上的内容都自动审核并做出处理。确定有问题的会被自动删除,难以判断是否有问题的会被标注,进入人工审核程序。
人工审核,虽然用户投诉审核和结果复审大多时候也是人工审核,但这里所说的人工审核,特指审核机器无法判别的内容,通常占平台内容数量的比例不超过5%,但对于一些大型的内容平台,绝对数量已经很多了。在内容爆炸的时代,我们看到许多平台在全国都有多个审核中心,每个审核中心的员工数量都成千甚至上万。
用户投诉审核,是前两者的弥补,有很多违规内容以前没有出现过,所以不在规则可以过滤的范围内,或者非常隐蔽,规则难以严格过滤。用户的投诉是发现新问题的重要渠道。通过知乎的危机事件,我们更应该重视对投诉的审核,并及时据此对机器审核做出补充。
结果复审,通常采取抽查方式,比如通过复审机器删除的内容,看规则或算法是否过于严格;比如通过查看人工删除和通过的内容,看员工的工作是否按要求执行;比如通过内容的整体巡查,看是否存在新的问题未被注意到。
在文字类内容平台,比如知乎、简书、豆瓣以及各类论坛网站,机器审核主要是基于关键词过滤的逻辑,逻辑比较简单,但也没有想象的那么简单。
2关键词过滤
一篇文章发布到平台后,需要至少经历以下环节:
词语过滤的环节,关键词主要分为三类:
禁止关键词,只要匹配到这个词,内容就被自动删除或禁止提交。通常只有极少数词会被纳入禁止关键词,比如明确的**、邪教以及广告的专属关键词。
审核关键词,这是最常见的关键词种类,只要匹配到就会自动进入后台进行审核,文章中的关键词会被高亮并罗列出来,有助于审核人员快速判断。审核关键词也应该尽量是专属关键词,以防止太多内容被拦截到后台。
替换关键词,在许多平台,我们会在文中看到莫名的*号或字母缩写,这可能不是文章作者写的,而是这个词被系统自动替换。平台不希望出现这个关键词,但用别的代替读者通常也能读懂。比如一些政治、宗教、不文明用语类词语,都有可能被自动替换。
当然,管理员在添加关键词时,很多时候并不是直接把关键词添加到后台。否则用户用很简单的方式就可以避过关键词过滤,比如在关键词内加一个空格,系统就难以匹配到。
所以,一般后台都会支持限定符{x} 以限定相邻两字符间可忽略的文字,x 是忽略的字节数。在!网站后台有明确说明,如 “a{1}s{2}s”(不含引号) 可以过滤 “ass” 也可过滤 “axsxs” 和 “” 等等。对于中文字符,若使用 GBK、Big-5 版本,每个中文字符相当于 2 个字节;若使用 UTF-8 版本,每个中文字符相当于 3 个字节。
另外,关键词还可以支持正则表达式,来匹配具有一定模式的关键词,比如”/1d{10}([^d]+|$)/”(不包括引号)用来匹配手机号码。正则表达式的内容过多,大家有兴趣可以搜索学习一下。
3技术概览
以上讲述的,主要是文字类内容的审核和规则,逻辑简单,但应用最为广泛。近年随着短视频类产品的兴起,内容审核的逻辑需要更加深层的技术支持。
技术上的东西,对大多人来说如同天书,而且也没有必要深入了解。我们挑选几个容易理解的点,来窥探几分内容审核背后的技术。
