CCKS知识图谱问答大赛作为中文知识图谱领域的最高比赛,在国内知识图谱问答技术等相关研究中有着重要地位,该项赛事的评测也成为全国知识图谱与语义计算大会上最受关注环节之一。
12月25日-26日,第十五届全国知识图谱与语义计算大会(CCKS 2021)正式召开,会上发布了“2021 CCKS知识图谱问答大赛”最终结果,百分点认知智能实验室在“CCKS 2021:生活服务知识图谱问答评测”任务中荣获季军和技术创新奖两项荣誉。
百分点认知智能实验室
荣获大赛季军及技术创新奖
CCKS由中国中文信息学会语言与知识计算专业委员会主办,是国内知识图谱和计算语义领域的核心学术盛会,聚集了知识表示、自然语言理解、知识获取、智能问答等相关技术领域的和研究人员的学者和研究人员。
本次大会以“知识图谱赋能新基建”为主题,致力于为研究者们提供一个测试技术、算法、及系统的平台,共同探讨大数据环境下语言理解、知识获取、知识融合、知识推理等方面的关键技术,以及在新基建背景下的各种智能应用。
2021 CCKS知识图谱问答大赛于2021年3月启动,吸引了2300多支参赛队伍,其中,在“CCKS 2021:生活服务知识图谱问答评测”任务中,有430支队伍、460人参赛,该任务是自然语言处理领域兼具前沿性和综合性的任务,开发难度较大。
经过激烈的竞争,最终进入排名的仅16支队伍,百分点认知智能实验室“系统之神与我同在”团队提交的技术方案荣获季军,以明显的优势进入第一梯队,与第二梯队拉开较大的差距。
知识图谱作为承载底层海量知识并支持上层智能应用的重要载体,在智能时代中扮演了极其重要的角色,但由于知识图谱高度结构化的特点,常常需要构建结构化查询语句(SPARQL等)来查找相关知识,这为普通用户使用知识图谱造成了不便,因此在知识图谱上进行自然语言问答(KBQA)近年来也成为了前者的热门应用之一。
本次评测任务是希望参赛者们可以提出创新性的KBQA系统,同时处理“专而深”的特定领域和“广而浅”的开放领域知识图谱,对用户提出的复杂多样的自然语言问题给出准确答案。此外,更希望此次评测可以为KBQA的下一步研究和落地提供一些理论及实践层面的启发。
传统问题类型
赛题任务的问题分为传统问题类型和特殊问题类型,特殊问题类型添加了filter、order等函数和http://www.w3.org/2001/XMLSchema#float等RDF标准类型后缀的美团生活服务类问题。
经典问题
问题:
武汉大学出了哪些科学家
查询语句:
select ?x where {?x<职业><科学家_(从事科学研究的人群)>.?x<毕业院校><武汉大学>.}
答案:
"<郭传杰> <张贻明> <刘西尧> <石正丽> <王小村>"
问题:
凯文·杜兰特得过哪些奖?
查询语句:
select ?x where { <凯文·杜兰特> <主要奖项> ?x . }
答案:
"7次全明星(2010-2016)” “5次NBA最佳阵容一阵(2010-2014)” “NBA得分王(2010-2012;2014)” “NBA全明星赛MVP(2012)” "NBA常规赛MVP(2014)"
问题:
获得性免疫缺陷综合征涉及哪些症状?
查询语句:
select ?x where {<获得性免疫缺陷综合征><涉及症状>?x.}
答案:
"<淋巴结肿大><脾肿大> <心力衰竭> <肾源性水肿> <抑郁> <心源性呼吸困难> <低蛋白血症> <不明原因发热> <免疫缺陷> <高凝状态> <右下腹痛伴呕吐> "
问题:
詹妮弗·安妮斯顿出演了一部1994年上映的美国情景剧,这部美剧共有多少集?
查询语句:
select ?y where {?x<主演><詹妮弗·安妮斯顿>.?x<上映时间>""1994"".?x<集数>?y.}
答案:
"236"
本次CCKS评测任务中还添加了排序、过滤条件、聚合函数、limit等问题,例如:
在竞赛过程中,百分点认知智能实验室总结了本次评测任务的四大挑战:
知识图谱量级巨大,检索和召回复杂度高;
无效实体数量极多, 定位实体的难度较大;
赛题涉及的子任务多,且周期长,容易造成误差传播,且难以定位误差;
自然语言问法变化多,复杂程度高,机器难以理解中文的博大精深。
对此,百分点认知智能实验室创造性地提出了信息检索与语义解析结合的技术方案,通过实体链接、路径生成、路径排序等方式进行信息检索和语义解析,形成集成互补,对比信息检索和语义解析的答案路径分数,选取分数更高的路径,并结合NL2SQL算法,将知识图谱与预训练模型融合,通过逻辑推理进行复杂问题查询,让问答查询更接近于人的解析能力,更接近强人工智能。
业务赋能
实现复杂场景问题查询
本次评测得分及获奖证明该技术方案性能优异,执行效率高,具有良好的可扩展性,适用于众多不同业务场景的知识图谱系统中,能够实现多跳和夹式等包含多种语法现象的复杂问题的查询。
例如,在“运动员李娜的丈夫的主要奖项有哪些”问题查询中,首先进行语义解析生成Sparql语句。
第一步:利用句法解析技术,我们将其中与“修饰”关系相关的字词取出,得到“运动员-李娜&李娜-丈夫&丈夫-奖项&主要-奖。
第二步:利用百分点科技自研的基于知识图谱的知识预训练生成模型对问句进行语义解析,按照从序列到树的形式,先生成问句的意图,再生成意图的中间路径,然后生成问句中实体的约束条件,最终合并得到解析后的Sparql语。
但由于直接生成的Sparql可能与KG中存在的实体关系有差异,例如“李娜”的“丈夫”是用“配偶”存储的,故不能直接查询到答案。因此,百分点科技从Sparql中的实体出发(若不存在该实体,则利用信息检索中的实体链接模块),生成候选路径,以Sparql为参考,弥补差异。
知识图谱、NLP
数据智能技术应用实践
本次评测任务属于中文知识图谱自然语言问答任务,是百分点认知智能实验室的重点研究方向。
早在2018年,百分点科技就成立了认知智能实验室,并将自然语言处理技术(NLP)与知识图谱技术相结合,将非结构化数据集成到知识图谱产品系统中,通过语音识别、机器视觉和自然语言处理技术(NLP)从多模态数据中提取语义标签,并融合知识图谱技术将其转化为知识,基于在知识理解、知识问答和知识挖掘方面的优势,帮助客户进行科学、精准的决策。
实践中,百分点科技不断实现创新突破,尤其是对认知层和决策层的智能技术和产品的投入,依托自然语言处理等技术,为客户提供最前沿、最全面的技术产品支撑。
目前,百分点认知智能实验室已经打造了业界领先的AI认知引擎,推出了智能问答机器人、智能翻译系统和智能审校系统等认知智能产品。
未来,百分点科技将继续深耕数据智能领域,充分发挥大数据全栈技术和NLP、知识图谱、智能交互等认知智能技术的优势,服务更多政府和企业进行智能化转型,助推数字经济产业发展。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。