标题: NLPIR系统实现自然语言处理实际运用
  本主题由 admin 于 2019-11-17 18:09 审核通过 
ljrj9988
高考冲刺班
Rank: 1



UID 140833
精华 0
积分 243
帖子 32
威望 0
金钱 82
阅读权限 255
注册 2018-9-29
状态 离线
发表于 2019-11-15 17:18  资料  个人空间  短消息  加为好友 
NLPIR系统实现自然语言处理实际运用

自然语言处理是计算机对自然语言 所包含的字形、读音和含义等信息进行处理,包括对字、词、句和篇章的输入输 出、识别分析、理解生成等操作和加工,是当前人工智能研究的核心课题之一。NLPIR大数据语义智能分析平台是一个全链条的分析工具,今天为大家详细介绍一下NLPIR平台的自然语言处理部分的功能。
语言统计 语言统计功能针对切分标注结果,系统可以自动地进行一元词频统计、二元 词语转移概率统计(统计两个词左右连接的频次即概率)。针对常用的术语,会自 动给出相应的英文解释。词频统计及翻译分析结果有四个Excel输出文件。其中, 一元概率指的是单个词独立出现的概率,信息熵指的是该词包含的信息广度,其 公式为:H(X)=–∑P(X)logP(X)。 n 1
(1)按词频排序的统计结果文件
按词频排序的统计内容如下,包括:词语、词性、词频、一元概率、信息熵 与译文。
(2)按字典排序的词频统计文件 输出到一个名为FreqSortByWord的文件,按字典排序词频统计结果包括:词 频统计结果(总词数与平均频率)、词语、词性、词频、一元概率与信息熵。
(3)Bigrams输出文件 输出到一个名为Bigrams的文件,Bigrams结果包括:二元词对总数、前一个词、 后一个词、共现频次与二元词对信息熵。共现频次指的是两个词以前后顺序同时出 现的频率,二元词对信息熵指的是这两个词包含的信息广度。
(4)文件统计信息输出文件 文件统计结果包括:文档名、总词频、总词数、用户词典总词频与用户词典 总词数。
批量分词
对原始语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及 词性标注。可在分析过程中导入用户定义的词典。 目前多数的分词算法都采用规则和统计相结合的方法,这样做的目的是为了 降低统计对语料库的依赖性,可以将已有的词法信息进行充分利用,同时还能弥 补规则方法的不足。现在经常使用方法是利用词典进行初次切分,得出切分结果 后,使用其他的概率统计方法和简单规则消歧进行未登录词的识别。NLPIR分词 法(Chen et al. 2014)利用词典匹配进行初词切分,得到词切分图后,利用词频信 息求词图N条最短路径的N最短路径法。
新词发现
新词发现模块包括新词提取与关键词提取两个功能。 系统可实现对于新词、关键词提取结果的高维可视化展示,可视化形式有三种:文 本格式、二维格式与三维格式。用户可根据需要直接使用,无须再次设计美化。 新词发现能从文本中挖掘出具有内涵的新词、新概念,用户可以用于专业词 典的编撰,还可以进一步编辑标注,导入分词词典可提高分词系统的准确度,并 适应新的语言变化。 关键词提取能够对单篇文章或文章集合,提取出若干个代表文章中心思想的 词汇或短语,可用于精化阅读、语义查询和快速匹配等。
(1)新词提取 新词提取内容包括:词语、词性、权重和词频统计。本步骤所得到的新词, 可以作为分词标注器的用户词典导入,从而使分词结果更加准确。
(2)关键词提取 关键词提取能够对单篇文章或文章集合,提取出若干个代表文章中心思想的 词汇或短语,可用于精化阅读、语义查询和快速匹配等。关键词分析内容包括: 词语、词性、权重和词频统计。系统默认词汇以权重值高低排序。
NLPIR大数据语义智能分析平台为语义分析提供数据和技术支持,在大数据 背景下,可以满足常见的需求,支持用户专业词典与微博分析、支持多种编码、 多种操作系统、多种开发语言与平台。一方面为语言处理,提供友好、实用的工 具,另一方面为软件开发人员和研究人员提供二次开发的接口满足特定的空间信 息处理和应用程序的需要;同时也为研究者提供统计数据和实例支撑。

顶部
ljrj9988
高考冲刺班
Rank: 1



UID 140833
精华 0
积分 243
帖子 32
威望 0
金钱 82
阅读权限 255
注册 2018-9-29
状态 离线
发表于 2019-11-22 18:08  资料  个人空间  短消息  加为好友 
NLPIR平台实现文本聚类的实际应用

文本聚类的实现是建立在著名的聚类假设上:同类的文档相似度较大,不同类的文档相似度较小。作为一种典型的无监督式机器学习方法,聚类方法的选择取决于数据类型。首先,文档聚类发现与某文档相似的一批文档,帮助知识工作者发现相关知识;再着,文档聚类可以将一类文档聚类成若干个类,提供一种组织文档集合的方法;然后,文档聚类还可以生成分类器以对文档进行分类。
作为无监督的机器学习方法,由于不需要训练过程和预先对文档手工标注类别,文本聚类有着较高的灵活性和自动化处理能力,这些特性也使得其成为对文本信息进行有效地组织、摘要和导航的重要途径。在实际应用中,文本聚类可用于提供大规模文档内容总括:识别隐藏的文档间的相似度;减轻浏览相关、相似信息的过程。
NLPIR大数据语义智能分析平台是一个全链条的分析工具,完全本地化部署, 不上传用户数据,安全可靠。融合了网络精准采集、自然语言理解、文本挖掘和 网络搜索的技术,提供客户端工具、云服务以及二次开发接口,包含了大数据背 景下有关语义分析的各个环节的工具,无论对没有任何编程背景但要大量处理语 言、媒体信息的文科生辅助处理分析,还是对需要二次开发才能完成特定领域的 信息服务都可以满足要求。平台先后历时20年,融入了20年的科研成果。服务了全球40万家机构用户和100余家高校用户,免费给研究人员从事研究工作。

  NLPIR文本聚类模块是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成标题和主题词。基于文章集合核心语义理解技术,不仅聚类速度快,而且准确率高,并能自动得到类别间的演化趋势。其能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述,适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用,能够实现长文本和短信、微博等短文本的热点分析。使用NLPIR平台的文本聚类模块进行分析,能够查看同属一个类别的多个文件。聚类详情文件名称包含:聚类特征词、媒体来源与新闻标题。

顶部


当前时区 GMT+8, 现在时间是 2020-10-28 16:51
本论坛支付平台由支付宝提供
携手打造安全诚信的交易社区 Powered by Discuz! 5.5.0 Licensed 京ICP备17069522号-2 海淀公安分局1101082153号 © 2001-2006 Comsenz Inc.
当前时区 GMT+8, 现在时间是 2020-10-28 16:51
清除 Cookies - 联系我们 - 向北航行