ljrj9988
高考冲刺班
Rank: 1



UID 140833
精华 0
积分 83
帖子 6
威望 0
金钱 18
阅读权限 255
注册 2018-9-29
状态 离线
发表于 2019-8-7 09:31  资料  个人空间  短消息  加为好友 
浅谈自然语言处理

1948年,数学家香农在题为“通讯的数学理论”的论文中指出:“信息是用来消除随机不定性的东西”。创建一切宇宙万物的最基本单位是信息。
而人类通过语言来传递信息。在这个以互联网为主要标志的海量信息时代,人们通过发微博、发消息、写文章等方式,每天生产出大量的信息。此时,数据作为信息的载体也大量涌现。
      数据主要是以文本形式存在,而这种方式却是高度非结构化的。
也就是说,不经过人工的处理(如阅读并理解数据),我们很难得到数据所表达的信息。然而,在科技高速发展的今天,我们可以用更为高效便捷的方式来处理数据。
    自然语言处理(Natural Language Processing,简称NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。
    自然语言处理具有广泛的应用前景。特别是在信息时代,自然语言处理的应用包罗万象,例如:机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

     自然语言处理兴起于美国,当时美苏两国正处于“冷战”对峙时期,美国希望能利用计算机翻译大量俄语材料,以快速掌握苏联的最新动态。当时的研究者认为,不同的语言只不过是对“同一语义”的不同编码而已,从而想当然地认为可以采用译码技术像破译密码一样“破译”这些语言。然而,事实证明,理解人类语言与破译密码不可同日而语。
     虽然自然语言处理难度不小,但是随着电子计算机的计算能力的飞速提高和制造成本的大幅下降,研究者们经过数十年的探索和发展,在自然语言处理方面已经取得了不小的成果。例如,带有语音识别的计算机和手机的涌现,机器翻译的寻常化。
     但是,在自然语言处理的光明前景中,存在着不少亟待解决的问题。其中,中英文自然语言处理更是大不相同。
      从NLP研究角度而言,中英文在词性标注、句法分析等任务上颇有差异。主要体现在英语有明显的屈折变化(单复数、时态等)而汉语缺少这些屈折变化,亦即有学者总结的“汉语重义合,英语重形合”。所以,英语里一个词被标为动词还是名词,没有太多争议;汉语里一个词应该被标为动词还是名词,则需大加斟酌。
从更为广阔的前景来讲,中英各自承载了两种截然不同的人类群体的文化信息,所以在更深层的文化内涵会有更明显的分野。而作为世界上使用人口最多的语言——汉语,中文自然语言处理的发展势在必行。
由北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
  NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。
       随着信息技术在我国社会生活各个领域应用的深入,中文信息处理正在成为人们工作和生活中不可或缺的手段,中文信息处理将具有更加广阔的市场。这将促使中文信息处理方面的高效中文搜索引擎、实时机器翻译、大规模中文文本处理、跨平台中西文自动识别转换、泛中文语义理解、中文电子商务等技术实现重大突破。中文信息处理已成为我国信息技术研究、发展、应用和产业的基础,在互联网日益成长的今天,中文信息处理技术将会更加成熟并创新。
参考文章《NLP研究入门之道:自然语言处理简介》

顶部


当前时区 GMT+8, 现在时间是 2019-11-20 00:08
本论坛支付平台由支付宝提供
携手打造安全诚信的交易社区 Powered by Discuz! 5.5.0 Licensed 京ICP备17069522号-2 海淀公安分局1101082153号 © 2001-2006 Comsenz Inc.
当前时区 GMT+8, 现在时间是 2019-11-20 00:08
清除 Cookies - 联系我们 - 向北航行