与变异风险词赛跑，「CCKS 2021通用百科知识图谱实体类型推断」比赛冠军方案分享

与变异风险词赛跑，「CCKS 2021通用百科知识图谱实体类型推断」比赛冠军方案分享-第1张图片-今日热点分享

在禁售的风险防控库里，有一种屡见不鲜的「玄学骗局」：不法分子试图不断地在平台「上新」新品种，借助在社交媒体上走红的「魔法改运」等说辞，引人入套。

而尽量提前发现风险问题，提早布防，是阿里安全风控部门的日常工作。「但是，风险对抗是不断升级的，各类风险词不断变异试图躲避各家平台管控，如果单靠人力防控，只会是杯水车薪。」阿里安全一线风控小二可粒说道。

针对类似具有行业共性的风险治理难题，业界和学界推动以技术创新探索网络风险治理。今年中国中文信息学会语言与知识计算专业委员会主办了「CCKS 2021通用百科知识图谱实体类型推断」比赛，邀请了国内283支队伍参赛。12月25日，比赛结果出炉，阿里安全升级包含封建迷信、软色情、野生动植物保护、血腥暴力等重难点风险治理领域在内的AI技术折桂。

与变异风险词赛跑，「CCKS 2021通用百科知识图谱实体类型推断」比赛冠军方案分享-第2张图片-今日热点分享

图注：「CCKS 2021通用百科知识图谱实体类型推断」竞赛公布获奖情况

1任务介绍「通用百科知识图谱实体类型推断任务」围绕通用百科知识图谱构建中的实体类型推断展开，评测从实体百科（包括百度百科、搜狗百科等来源）页面出发，要求从给定的数据中推断相关实体的类型。数据示例如下：

与变异风险词赛跑，「CCKS 2021通用百科知识图谱实体类型推断」比赛冠军方案分享-第3张图片-今日热点分享

任务涉及的类型包括组织机构、人物、作品、位置等多个领域，54实体类型。并且实体类型之间具有层级关系。标签体系如下：

与变异风险词赛跑，「CCKS 2021通用百科知识图谱实体类型推断」比赛冠军方案分享-第4张图片-今日热点分享

「实体类型推断任务」是指通过上述实体的信息，对实体进行分类，上面示例中的卡米尔陨坑，其对应的标签是「位置_自然景观」。

2任务难点与目前主流的学术评测不同，本次任务提供的60w训练数据，全部都是没有标签的。这样的比赛设定更贴近于实际的工程场景，因此对参赛选手解决问题能力有着更高的要求。

实体类型更加丰富，不同领域下包括多个具体的实体类型，整体任务包括几十个实体类型。某些实体可能只属于一个实体类型，某些实体可能属于多个实体类型，因此更加增添了任务的难度。比如「刘德华」既属于「歌手」类型，又属于「演员」类型；「知识图谱概念与技术」就只属于「书籍」类型。

3 数据处理由于训练数据没有标签的特性，如何利用最小的成本给训练数据打上标签，则成为了整个方案最重要的一环。本次评测阿里安全采用了多种低成本的方案，对数据进行打标。

弱监督

通过外部高置信度的数据，训练模型，回标训练集。使用到的外部数据有维基百科、CN-DBpedia。

维基百科中的实体都是带有实体标签的，比如通过的标签映射中国男歌手即「人物>文艺工作者>歌手」, 即可得到外部的歌手数据。通过此种方法，得到外部数据共计30w条。给定树状结构标签，广度优先+剪枝进行递归遍历，获取每个子类别。利用类似的方法，在CN-DBpedia中得到数据70w条。

基于句法分析标签抽取

通过分析训练数据，基于统计结果，大部分实体的首句都包含了实体类型。基于LTP依存句法分析和语义角色标注的事件三元组抽取，可抽取出(海贼王，是，漫画)。通过此部分逻辑，可给Train打标20W条数据。

与变异风险词赛跑，「CCKS 2021通用百科知识图谱实体类型推断」比赛冠军方案分享-第5张图片-今日热点分享

4模型baseline

实体类型推断任务，本质上为一个文本的多分类任务，因此模型的选择，采用了预训练模型 + finetune的方式作为baseline。

与变异风险词赛跑，「CCKS 2021通用百科知识图谱实体类型推断」比赛冠军方案分享-第6张图片-今日热点分享

特征选择

需要进行分类的实体，本身包含名称、正文内容、多个属性对和关键词等特征。为了挑选出最佳的特征组合，进行了多组对照试验，最终得出结论：输入为「实体名 + 数据源 + 摘要 + 属性名 + 关键词」效果最好。

预训练模型

尝试了多种预训练模型，其中Roberta-large效果最好。

Hierarchy Loss

越细粒度的类别，父子标签所占的比重应该是不一样的。例如如果选择了子标签，那么较粗的粒度肯定要选择父标签，而传统的Loss Function在优化时，就是将他们平等对待的。因此，阿里安全引入了层次分类最常用的几种Loss，有效的解决了上述问题。选用Hierarchy loss作为最终方案。

与变异风险词赛跑，「CCKS 2021通用百科知识图谱实体类型推断」比赛冠军方案分享-第7张图片-今日热点分享

层次标签示意图

5模型数据相互迭代优化方案本方案类似于强化学习的思想，模型和数据相互正向优化，直至收敛。

以游戏为例，通常游戏类型会出现schema这样的字段，反之，若一个实体若出现游戏类型，则大概率是游戏。类似游戏类型这样的schema或keyword，称之为「必杀」特征。这种方式类似漏斗，可以通过必杀属性，进而过滤出具体类别的实体，如下图所示：

与变异风险词赛跑，「CCKS 2021通用百科知识图谱实体类型推断」比赛冠军方案分享-第8张图片-今日热点分享

图4：必杀属性示意图

基于第一部分生成的train，构建了一套自动生成「必杀」特征的逻辑，如下：

1. 对所有标签为游戏的数据进行统计，生成如下统计结果：

a. 游戏类型 310次

b. 发行厂商 320次

c. 中文名 2000次

2. 统计每个特征在其它类型中出现次数；

3. 用在本类中出现的次数/其它类出现的次数，即为该特征的「必杀」特征。

与变异风险词赛跑，「CCKS 2021通用百科知识图谱实体类型推断」比赛冠军方案分享-第9张图片-今日热点分享

表：必杀属性计算样例

利用分值大于6的「必杀」特征，进行数据的重新打标。除了「必杀」属性外，阿里安全基于「模式匹配法」统计相同属性出现的频率。一方面，可以过滤掉低频属性，另一方面，基于假设：待验证实体的属性与M类属性共现的次数，远远大于N类属性共现次数，可以判断该实体属于M类。用这种方法纠正了错误实体分类，如下图所示：

与变异风险词赛跑，「CCKS 2021通用百科知识图谱实体类型推断」比赛冠军方案分享-第10张图片-今日热点分享

整体迭代的过程如下：

与变异风险词赛跑，「CCKS 2021通用百科知识图谱实体类型推断」比赛冠军方案分享-第11张图片-今日热点分享

图：模式匹配法示意图

6应用场景违规商品检测

各电商平台上每天都会上新各种各样的产品，当面对新型商品时，如何判断其是否属于违规的商品类型则成为了一个非常重要的事情。

当出现以一个新的商品种类的时候，实体类型推断模块可以借助商品的描述信息，对此品类的商品进行类型推断，根据自动发现新的禁限售商品，提升违规商品的防控水位。

更多应用场景实体类型推断在知识图谱中具有非常重要的价值，因此该任务也一直是研究的热点。在实际应用场景中，新实体往往不会有百科那样多的文本特征使用，因此如何利用有限的数据资源，训练出更准确的实体类型推断系统则成为了一个极具挑战性的问题。

随着近期prompt方式的飞速发展，小样本甚至零样本的分类方法的效果都得到了大幅度的提高。但是目前在工业界主流的应用场景，还是强依赖于标注数据的高成本运作方式。未来，希望可以出现一套低成本且快速的范式，有效解决目前实体类型推断的难题。

7现实场景难题阿里安全高级风控专家杜衡介绍，阿里安全在平台部署了上述新升级的新一代安全架构核心AI能力，让AI对风险商品进行「联想」，以此对抗突发新增、变异的风险商品。此前阿里风控平台对多类风险商品出台了明确的管理规则，进行了禁售规范，今年绿网计划则针对相关风险词上线了科普宣导。

虽然该AI技术在竞赛的公开数据集上获得了突出的成果，但据反馈，技术应用在真实环境中遇到了更多难题。

阿里安全算法工程师科蓝解释，第一个难点是商家发现相关风险词被平台管控后，立马试图用新词代替，为了让AI的能力跟上变异的节奏，甚至提前布防，AI会基于风险防控经验以及公共新闻事件等，自动挖掘一些新词，并对这些词进行扩充解释，让AI系统理解这些词的真正含义和匹配的风险场景，最后候选风险词还要经过运营的人工校验。

「相当于你在跟一个不断易容、换衣服的人赛跑，他跑着跑着就换一层皮，你得找准对手，不停地往前跑。」科蓝说，目前依靠AI自动搜寻生产的非正常风险词汇，最终被人工运营审核后的采纳率为60%，逐步降低了人工寻找新风险词的成本，同时尽量提升覆盖更多风险区域的效率。

第二个难点是，除了风险词变异速度快，平台发现有些商家会以正常商品介绍的「外套」引导消费者到其他社交工具上进行沟通和成交。

「这种情况比较难以通过某种技术防控，一方面我们通过各种渠道向商家进行合规知识的宣导，一方面也希望互联网平台联合起来，针对此类风险共同探索合作治理机制。」杜衡说。

该AI目前已升级覆盖17个风险场景。阿里安全资深算法专家薛晖介绍，阿里安全在加大技术治理风险场景的投入，比如建立人工智能治理与可持续发展的新型实验室，与顶尖高校联合发起「安全AI挑战者计划」等项目，培养实战型AI人才。

「要强调的是，AI技术不是万能的，平台遇到各种风险变异与挑战也正说明，治理多类风险场景将是持续的博弈，但使用技术进行风险治理是其中一个发展方向，我们还在继续提升AI联想的准确率，希望依靠科技创新构建更清朗的平台环境，探索如何更好地解决大众遇到的网络安全风险问题。」薛晖在最后解释道。

GAIR 2021大会首日：18位Fellow的40年AI岁月，一场技术前沿的传承与激辩

2021-12-10

致敬传奇：中国并行处理四十年，他们从无人区探索走到计算的黄金时代 | GAIR 2021

2021-12-09

时间的力量——1991 人工智能大辩论 30 周年纪念：主义不再，共融互生｜GAIR 2021

2021-12-12

论智三易，串联通讯，贯通边缘，演进认知，汇于机器：听五位IEEE Fellow畅谈AI未来 | GAIR 2021

2021-12-25

由于微信公众号试行乱序推送，您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道，请将“AI科技评论”设为星标账号在看”。

标签：

推荐文章

热门文章

发表评论

精彩评论

推荐资讯

热门资讯