标题: NLPIR平台在文本分类方面的技术介绍
  本主题由 admin 于 2019-11-21 16:19 审核通过 
ljrj9988
高考冲刺班
Rank: 1



UID 140833
精华 0
积分 220
帖子 29
威望 0
金钱 73
阅读权限 255
注册 2018-9-29
状态 离线
发表于 2019-11-20 17:16  资料  个人空间  短消息  加为好友 
NLPIR平台在文本分类方面的技术介绍

文本分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这种文本分类,即根据事先指定的规则和示例样本,自动从海量文档中识别并训练分类,文本为大家讲解一下NLPIR大数据语义智能分析系统是怎样实现文本分类的。
NLPIR大数据语义智能分析平台的文本分类有两种模式:专家规则分类与机器学习分类。
专家规则分类指的是根据事先人为制定的分类规则进行分类,比如“中国建 筑”类别,可定义该类别的规则:“长城;牌坊;园林;寺院;钟;塔;庙宇;亭台楼阁;井;石狮;民宅;秦砖汉瓦;兵马俑;故宫;紫禁城;颐和园;布达拉 宫;平遥古城;乔家大院;苏州园林;杭州园林;徽派建筑;十里长亭;长城; 天坛;鸟巢;水立方”,系统会根据文本中出现的特征词语判定文本类别为:中国 建筑。
机器学习分类是利用机器自动学习的能力,通过大量文本的训练,是系统 具有分类的能力。比如准备军事、政治类别的大量语料,通过训练,机器自动学 习类别特征,经过不断的语料训练,分类效果越来越精准。 通过“专家规则分类过滤”、“机器学习分类过滤”,分类结果会呈现在结果提示框中。
NLPIR采用深度神经网络对分类体系进行了综合训练。演示平台目前训练的类别只是新闻的政治、经济、军事等。内置的算法支持类别自定义训练,该算法对常规文本的分类准确率较高,综合开放测试的F值接近86%。
在应用方面,NLPIR 深度文本分类可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面,还能够实现文本过滤,从大量文本中快速识别和过滤出符合特殊要求的信息,可应用于品牌报道监测、垃圾信息屏蔽、敏感信 息审查等领域。

顶部
ljrj9988
高考冲刺班
Rank: 1



UID 140833
精华 0
积分 220
帖子 29
威望 0
金钱 73
阅读权限 255
注册 2018-9-29
状态 离线
发表于 2019-11-22 18:09  资料  个人空间  短消息  加为好友 
NLPIR平台实现文本聚类的实际应用

文本聚类的实现是建立在著名的聚类假设上:同类的文档相似度较大,不同类的文档相似度较小。作为一种典型的无监督式机器学习方法,聚类方法的选择取决于数据类型。首先,文档聚类发现与某文档相似的一批文档,帮助知识工作者发现相关知识;再着,文档聚类可以将一类文档聚类成若干个类,提供一种组织文档集合的方法;然后,文档聚类还可以生成分类器以对文档进行分类。
作为无监督的机器学习方法,由于不需要训练过程和预先对文档手工标注类别,文本聚类有着较高的灵活性和自动化处理能力,这些特性也使得其成为对文本信息进行有效地组织、摘要和导航的重要途径。在实际应用中,文本聚类可用于提供大规模文档内容总括:识别隐藏的文档间的相似度;减轻浏览相关、相似信息的过程。
NLPIR大数据语义智能分析平台是一个全链条的分析工具,完全本地化部署, 不上传用户数据,安全可靠。融合了网络精准采集、自然语言理解、文本挖掘和 网络搜索的技术,提供客户端工具、云服务以及二次开发接口,包含了大数据背 景下有关语义分析的各个环节的工具,无论对没有任何编程背景但要大量处理语 言、媒体信息的文科生辅助处理分析,还是对需要二次开发才能完成特定领域的 信息服务都可以满足要求。平台先后历时20年,融入了20年的科研成果。服务了全球40万家机构用户和100余家高校用户,免费给研究人员从事研究工作。

  NLPIR文本聚类模块是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成标题和主题词。基于文章集合核心语义理解技术,不仅聚类速度快,而且准确率高,并能自动得到类别间的演化趋势。其能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述,适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用,能够实现长文本和短信、微博等短文本的热点分析。使用NLPIR平台的文本聚类模块进行分析,能够查看同属一个类别的多个文件。聚类详情文件名称包含:聚类特征词、媒体来源与新闻标题。

顶部
ljrj9988
高考冲刺班
Rank: 1



UID 140833
精华 0
积分 220
帖子 29
威望 0
金钱 73
阅读权限 255
注册 2018-9-29
状态 离线
发表于 2019-11-26 17:24  资料  个人空间  短消息  加为好友 
知识图谱和行业分析接轨-KGB知识图谱概述

知识图谱是将客观世界中概念,实体和相互关系用结构化形式表述出来,通过学习人类认识世界的方式,增强互联网对海量信息的管理、组织和理解能力。知识图谱主要包括对实体,概念和属性的三种节点的示意图。
KGB知识图谱的背景
1.构建领域知识图谱意义重大
传统知识图谱不具有深度知识结构,无法解决专业的业务问题。将专业领域知识赋予机器,让机器代替业务人员从事简单知识工作,实现重复性、基础性劳动的智能化过程。
2.传统人工构建领域知识图谱的弊病亟待解决
传统领域知识图谱主要采用专家人工构建费时费力的方式,投入极大且效率不高,急需自动化、智能化构建行业知识图谱的工具。
知识图谱加工厂服务特点
知识图谱加工厂对用户领域海量文档进行解析与知识抽取,深入挖掘知识关联与知识推理,并实现知识的智能校验,为客户提供高效的专业知识图谱服务。用户只需提供数据与需求,可快速获取知识图谱成果。
1.文档解析
KGB知识图谱引擎,可解析多种格式与版本文档:TXT、DOC、EXCEL、PPT、PDF、XML等。对于图片信息,OCR可自动识别并抽取图片中的文字信息。KGB知识图谱引擎自适应解读并抽取文档关键知识(主体、金额、条款等),实现知识的快速生成结构化表格和非结构化文本。
2.知识关联
KGB知识图谱引擎深入挖掘知识关联,将知识实体链接为有意义的知识事实。并具有强大的知识推理能力,推理暗含的知识与结论,丰富知识图谱。
3.知识校验
KGB知识图谱加工厂能够对多种知识错误与冲突进行自动智能核查与校验,更有知识工程师进行知识精准校验,保证知识图谱的准确性。
4.知识校验
KGB知识图谱加工厂能够对多种知识错误与冲突进行自动智能核查与校验,更有知识工程师进行知识精准校验,保证知识图谱的准确性!
KGB知识图谱的应用场景
1.保险行业
KGB知识图谱现已在多类行业开展应用,KGB(Knowledge Graph Builder)知识图谱能够实现保险行业利用知识图谱加工厂对关键知识进行抽取,进行不同险种的智能推荐。
2.分析上市公司影响因素
在分析上市公司影响因素方面,KGB知识图谱加工厂能够实现对相关文档进行知识抽取,构建企业上市知识图谱,帮助企业研究上市影响因素。
3.智能文档核查
KGB知识图谱完成各种文件类内容核查,通过构建知识图谱,实现人工对海量合同进行智能核查。

顶部
ljrj9988
高考冲刺班
Rank: 1



UID 140833
精华 0
积分 220
帖子 29
威望 0
金钱 73
阅读权限 255
注册 2018-9-29
状态 离线
发表于 2019-11-26 17:25  资料  个人空间  短消息  加为好友 
知识图谱和行业分析接轨-KGB知识图谱概述

知识图谱是将客观世界中概念,实体和相互关系用结构化形式表述出来,通过学习人类认识世界的方式,增强互联网对海量信息的管理、组织和理解能力。知识图谱主要包括对实体,概念和属性的三种节点的示意图。
KGB知识图谱的背景
1.构建领域知识图谱意义重大
传统知识图谱不具有深度知识结构,无法解决专业的业务问题。将专业领域知识赋予机器,让机器代替业务人员从事简单知识工作,实现重复性、基础性劳动的智能化过程。
2.传统人工构建领域知识图谱的弊病亟待解决
传统领域知识图谱主要采用专家人工构建费时费力的方式,投入极大且效率不高,急需自动化、智能化构建行业知识图谱的工具。
知识图谱加工厂服务特点
知识图谱加工厂对用户领域海量文档进行解析与知识抽取,深入挖掘知识关联与知识推理,并实现知识的智能校验,为客户提供高效的专业知识图谱服务。用户只需提供数据与需求,可快速获取知识图谱成果。
1.文档解析
KGB知识图谱引擎,可解析多种格式与版本文档:TXT、DOC、EXCEL、PPT、PDF、XML等。对于图片信息,OCR可自动识别并抽取图片中的文字信息。KGB知识图谱引擎自适应解读并抽取文档关键知识(主体、金额、条款等),实现知识的快速生成结构化表格和非结构化文本。
2.知识关联
KGB知识图谱引擎深入挖掘知识关联,将知识实体链接为有意义的知识事实。并具有强大的知识推理能力,推理暗含的知识与结论,丰富知识图谱。
3.知识校验
KGB知识图谱加工厂能够对多种知识错误与冲突进行自动智能核查与校验,更有知识工程师进行知识精准校验,保证知识图谱的准确性。
4.知识校验
KGB知识图谱加工厂能够对多种知识错误与冲突进行自动智能核查与校验,更有知识工程师进行知识精准校验,保证知识图谱的准确性!
KGB知识图谱的应用场景
1.保险行业
KGB知识图谱现已在多类行业开展应用,KGB(Knowledge Graph Builder)知识图谱能够实现保险行业利用知识图谱加工厂对关键知识进行抽取,进行不同险种的智能推荐。
2.分析上市公司影响因素
在分析上市公司影响因素方面,KGB知识图谱加工厂能够实现对相关文档进行知识抽取,构建企业上市知识图谱,帮助企业研究上市影响因素。
3.智能文档核查
KGB知识图谱完成各种文件类内容核查,通过构建知识图谱,实现人工对海量合同进行智能核查。

顶部
ljrj9988
高考冲刺班
Rank: 1



UID 140833
精华 0
积分 220
帖子 29
威望 0
金钱 73
阅读权限 255
注册 2018-9-29
状态 离线
发表于 2019-11-28 13:48  资料  个人空间  短消息  加为好友 
KGB知识图谱技术提升和产业应用紧密结合

知识图谱系统的落地主要包含四个重要环节:知识表示、知识获取、知识管理与知识应用。这四个环节循环迭代。知识应用环节明确应用场景,明确知识的应用方式。知识表示定义了领域的基本认知框架,明确领域有哪些基本的概念,概念之间有哪些基本的语义关联。比如企业家与企业之间的关系可以是创始人关系,这是认知企业领域的基本知识。知识表示只提供机器认知的基本骨架,还要通过知识获取环节来充实大量知识实例。
知识实例获取完成之后,就是知识管理。这个环节将知识加以存储与索引,并为上层应用提供高效的检索与查询方式,实现高效的知识访问。四个环节环环相扣,彼此构成相邻环节的输入与输出。在知识的具体应用过程中,会不断得到用户的反馈,这些反馈会对知识表示、获取与管理提出新的要求。
NLPIR大数据语义智能挖掘平台,针对大数据内容处理的需要,融合了网络精准采集、自然语言理解、文本挖掘和网络搜索的技术,提供了客户端工具、云服务、二次开发接口。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux,Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,C,C#等各类开发语言使用。
KGB知识图谱凭借其在知识图谱的构建,更新方面的技术优势,现在已经多行业等得以广泛应用。
KGB知识图谱功能
1.文档解析
KGB知识图谱引擎,可轻松解析多种格式与版本文档:TXT、DOC、EXCEL、PPT、PDF、XML等。尤其是PDF文件,可直接解析输出为word格式文件,保留文件中表格与文字格式等重要信息。对于图片信息,OCR可自动识别并抽取图片中的文字信息。
2.知识抽取
KGB知识图谱引擎,可从结构化表格与非结构化文本中自适应识别并抽取关键知识(主体、客体、时间、地点、金额、条款等),准确率高达90%,实现知识的快速生成。
3.知识关联
KGB知识图谱引擎深入挖掘知识关联,将一个个知识实体链接为具有完整意义的知识事实。并具有强大的知识推理能力,推理出暗含的知识与结论,丰富知识图谱。
4.知识较验
KGB知识图谱加工厂能够对知识质量智能校验,包括对多种知识错误与冲突进行自动智能核查与修正,更有知识工程师进行知识精准校验,保证知识图谱的准确性。
KGB知识图谱特色
1、跨领域可扩展
知识图谱加工厂具有通用的图谱构建引擎。知识抽取、知识关联与质量核查过程不依赖特定业务知识,结合用户知识图谱构建的需求,可以快速构建用户领域知识图谱。
2、知识质量智能核查
知识图谱加工厂实现对多种知识错误与冲突的智能核查与校验,并对知识库进行实时自动更新,保证知识图谱准确性。
3、人机结合的服务
知识图谱加工场人机构成:90%机器+10%的人工,只需要提供语料,就可以快速得到对应的知识图谱构建成果。

顶部


当前时区 GMT+8, 现在时间是 2020-1-29 10:22
本论坛支付平台由支付宝提供
携手打造安全诚信的交易社区 Powered by Discuz! 5.5.0 Licensed 京ICP备17069522号-2 海淀公安分局1101082153号 © 2001-2006 Comsenz Inc.
当前时区 GMT+8, 现在时间是 2020-1-29 10:22
清除 Cookies - 联系我们 - 向北航行