1.摘要
本数据集由哈尔滨工业大学社会计算与信息检索研究中心(哈工大scir)秦兵教授和刘铭教授主持开发,是一个通用领域大规模条件性知识图谱数据集。本数据集源自于ag news文本分类语料,包含四个类别,2440 条数据,每条数据都是人工标注的条件知识图谱。该数据集的提出能够为条件性知识图谱的研究提供数据支持。
2.条件性知识图谱
在大多数情况下,事实的成立都是有条件的。条件和事实起着同样重要的作用,然而目前的知识图谱只关注事实而忽略了条件的存在。与此同时,信息提取技术也只关注从给定文本中提取事实,而忽略了条件信息。
为了能够让知识图谱建模条件信息更加充分,我们提出了一个三层的网络结构条件性知识图谱(conditional-kg)。条件性知识图谱和传统知识图谱都是由三元组组成,但是条件性知识图谱同时包含事实元组和条件元组,以及元组之间的条件关系。
3.数据集
为了支持条件性知识图谱的研究,我们手动标注了一个条件性知识图谱数据集。我们选择了ag news文本分类语料作为条件性知识图谱的语料。ag news语料具有三大优势:
ag news中的数据是新闻的标题和一部分正文,每条数据平均包含2.1个句子、6.4个元组和3.5个条件关系;
ag news中的数据具有完整的语法结构,长度较长,语言严谨,代词、口语、习语等较少。
ag news的文本数量足够大,多样性丰富。它包含12万条训练数据和7600条测试数据,涉及world、sports、business、 和sci/tech四个类别。
我们标注的数据集追求信息的完整性和元组的原子性。完整性的意思是标注者应该尝试从句子中提取所有断言和条件,我们将原子性定义为每个元组必须是一个不可分割的单元。只要有可能,标注者必须从带有连词的句子中提取多个原子元组。
我们通过两轮标注最终得到了人工标注的通用领域条件性知识图谱数据集。本数据集源自于ag news文本分类语料,包含四个类别,2440 条数据,每条数据都是人工标注的条件知识图谱。
4.结语
为了建模条件信息,我们提出了一个具有三层网络结构的条件性知识图谱,并且为社区贡献了一个人工标注的通用领域大规模条件性知识图谱。
雷曼光电荣膺2023行家极光奖三大年度奖项
为什么选择软件定义GNSS模拟器?优势有这些
汇顶科技进入触控IC市场 商业化NB-Ito即将推出
【首创】三方平台入OH主线,RK3568标准系统芯片平台适配
如果说除了小米以外,还有哪些手机能够被称为价格屠夫?
通用领域大规模条件性知识图谱数据集
云计算已证明将会彻底改变会计行业,但是物联网呢?
OPPOR1s拆解评测:超越前代不止于屏
亚马逊前高管解答如何打造一台创新机器?
STM32中的位带(bit-band)操作
安捷伦E4438C信号发生器输出功率低维修
智能变电站的作用
国内SSD卖得最好的是哪些品牌
研华致力于加速AIoT生态圈布建与发展
08年美国国际包装博览会
夏季高温天气将对光伏电站组件带来多个不利影响
同样是全面屏和骁龙710,坚果Pro 2S与360手机N7 Pro有何区别?你会选哪款?
吸引着手机厂商跨界做电视的主要原因是什么
整流电源的过压保护-压敏电阻及其应用
如何识别交换机性能的好坏,有哪些方法