KGB知识图谱引擎助力NLPIR中文信息处理 原创
随着信息时代的到了,计算机在人们生产生活的各个方面将起到越来远大的作用。而对于以汉语为母语的我国来说。中文信息处理技术已经在我国信息化建设中占据了一个非常重要的地位。
汉语在世界上属于汉藏语系,是一种孤立语。汉语在历史上先后吸收和同化了匈奴、鲜卑、突厥、契丹、满、蒙古、梵语等语言里面的许多成分。其主要特点有:
(1)汉语的独一无二的特色是:完全使用由象形文字演化而来的方块汉字;
(2) 词语没有形态标记; 汉语是以字为基本单位,词之间没有明显的标记,词本身也没有明显的形态标志。所以中文信息处理的基础课题和特有的问题就是中文分词,分词本身的也有一定的错误率,这无疑降低了后续处理的实际效果。
(3)结构松散,比如:我上街买菜,看见一个人,穿着一件军大衣,打了卖菜的一巴掌, 脸都肿了。
(4) 语法灵活,即缺乏狭义的形态,汉语句子中各个成分之间的关系一靠词序,二靠“意 合”,三靠虚词。
(5) 语义灵活,一方面语法的灵活主要来源于语义的灵活;另一方面同一结构可以表达 不同的意思,同一意思可以用不同结构表达。
中文信息处理是一门以计算机对中文(包括口语和书面语)进行转换、传输、存储、分析等加工的科学。中文信息处理可概括的分为三个平台:字处理平台、词处理平台和句处理平台,其中的每个平台都是以前者为基础的。字处理平台技术是中文信息处理的基础,经过多年的研究,字平台技术已经达到了一个比较成熟的阶段;词信息处理平台技术是中文信息处理的中间环节,它是连接字平台和句平台的关键纽带,因此也是关键环节;句处理平台技术是中文信息处理的高级阶段,它的研究主要包括机器翻译、汉语的人机对话,这一方面的研究已经取到了一定的成果。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
其中KGB(Knowledge Graph Builder)知识图谱引擎是我们自主研发的知识图谱构建与推理引擎,基于汉语词法分析的基础上,采用KGB语法实现了实时高效的知识生成,可以从非结构化文本中抽取各类知识,并实现了从表格中抽取指定的内容等。KGB同时可以定义不同的动作,如抽取动作,并能自定义各类后处理程序。利用KGB知识图谱引擎可以抽取到产品的详细报价信息,方便进行下一步的数据挖掘与图谱构建。
例如KGB语法:
Knowledge: { [/LE;/w]+[采购方;甲方;发包方; 需方]} +1+{[-(/LE;/w)]20}s+{[(/LE;/w)]}
Action: Extract
Argument:甲方单位
表示的是:
如果 句首或者标点后,跟了{采购方;甲方;发包方};后面1步内跟的不是标点也不是是句尾,20个单元内的部分,将选中的词抽取为甲方单位。
因此,数据挖掘技术是一个发展十分快的领域, 随着对数据挖掘技术在各领域日益广泛的应用,实现了数据资源共享及技术发展的跨域,从而大大提高了工作效率,并带来巨大的成功。21世纪是信息时代的社会,“信息不仅是资源,更是财富”,要实现经济的腾飞,需依赖高新尖科技的发展,故利用提供的信息,充分进行数据挖掘,则将为数据库的应用开辟了广阔的前景,也为人类的文明开辟了一个崭新的时代。同时NLPIR大数据语义智能技术将对中文数据挖掘技术进行深入研究,必将提供出高质量、多功能的中文数据挖掘算法并促进自然语言理解系统的广泛应用。
版权声明:原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处、作者信息和本声明,否则将追究法律责任。https://m.blog.kokojia.com/ljrj123/b-1980.html