在暑假的社会实践中,我们一项十分重要的工作就是数据标注工作,这是我们扩充数据源的基础,在假期我们将《中国共产党简史》全书进行数据标注,从中提取了有效三元组三千余条。
对于数据标注,在开始工作前我们团队首先了解了什么是实体和关系,实体是人类认为有意义的事物,而关系就是实体中之间有意义的联系,实体和关系合起来称作:“实体关系”。有了实体和关系,接着要了解的是三元组,三元组可以简单理解为两个节点及它们之间的关系构成的一个单元,即(node1,edge,node2)。而对于这样的一个三元组,人们按照语言学的习惯可以形式化的表示成主语谓语宾语三者,即(subject,predicate,object),从而成为了所谓的“SPO三元组”。想要构建知识图谱,就得从各种各样的数据中获取三元组,也就是进行实体关系的抽取。即为把一个句子中的各实体之间的关系进行分析抽取,使实体关系能够组成一个三元组,例如,在“1973年,釉型杂交水稻优良品种育成”一句中,主语(subject)是事件“釉型杂交水稻优良品种育成”,谓语(predicate)是起始时间,宾语(object)是时间“1973年”,从而主语与宾语的关系就是谓语:起始时间。
实体关系抽取的过程大致分为三步,第一步:找到语料中存在的实体关系;第二步:确定实体的类型和关系的类型;第三步:将实体关系抽取出来形成三元组。
在后续工作中,我们团队还计划对”四史“中的另外两部《改革开放史》、《社会主义发展史》进行数据标注工作并提取有效三元组。
http://www.dxsbao.com/shijian/525714.html 点此复制本页地址