NLPIR-Parser大数据技术实现深度文本语义理解原创

2018-12-18 11:49

　　随着互联网、云计算、社交网络的发展，网络空间中的信息总量在飞速膨胀，网络大数据时代已经到来。如何充分挖掘大数据中蕴含的价值成为全社会共同关注的话题。

　　在数据快速增长、数据类型多样、数据结构复杂的背景下，传统的基于静态、浅层的数据分析方法，已经无法适应当前越来越多的对数据语义深层理解和计算应用的需求。因此，大数据的分析、挖掘成为学术界、工业界共同的研究热点。文本大数据是网络大数据的重要组成部分，人们日常工作和生活中接触最多的电子文档也是以文本的形式存在。从海量文本数据中挖掘有价值的信息、知识，一直都是学术界研究的热点问题，但是文本大数据的复杂性和规模性，导致传统的全量数据模式下对文本进行分析变得异常困难。挖掘海量文本数据的特征是降低计算时空复杂性、实现文本语义理解的重要手段。

　　文本大数据特征人类是通过识别出物体的特征来认识不同的物体的，因此，特征作为数据本质的反映是理解数据的重要手段。将文本大数据映射到其特征空间，首先需要确定文本大数据的特征表示方式，正如不同的人认识同一物体时，会以不同的方式抽象物体的特征，特征表示方式也不尽相同，但是一个良好的特征表示方式是保证特征可理解、可计算的基础;在确定了特征表示方式的基础上，从文本大数据中学习能够精确表达文本语义的特征是实现内容理解的关键。

　　近年来，表示学习(representation learning)或非监督的特征学习(unsupervised feature learning)由于其可以自动地发现数据特征，从而有效地避免繁琐的人工参与，成为重要的研究方向。深度学习作为特征学习的主要手段，不仅可以利用海量训练数据实现分类、回归等传统机器学习的目标，还可以在模型的训练过程中产生层次化的抽象特征，该特征表示是提高训练准确性的重要基础。学习和深度学习在实现步骤上的不同。一般而言，特征学习的目的在于学习一种数据的转换方式，用于从数据中抽取有效的特征信息，最终使得数据的分类、预测更加准确。

　　北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR-Parser大数据语义智能分析技术是对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。

　　NLPIR-Parser大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块，平台提供了客户端工具，云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中，可兼容Windows，Linux， Android，Maemo5, FreeBSD等不同操作系统平台，可以供Java，Python，C，C#等各类开发语言使用。

　　随着云计算、移动互联网以及物联网等技术的发展和完善，相信大数据在各个领域的应用会越来越广泛和深入，相关的研究也会越来越全面和深入，在信息管理领域，综合应用数据挖掘技术和人工智能技术，获取用户知识、文献知识等各类知识，将是实现知识检索和知识管理发展的必经之路。

阅读 11787 / 评论 0