自然语言处理入门基础之hanlp详解

自然语言处理定义:
自然语言处理是一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部分。这个星球上有许多生物拥有超过人类的视觉系统,但只有人类才拥有这么高级的语言。
自然语言处理的目标是让计算机处理或说“理解”自然语言,以完成有意义的任务,比如订机票购物或qa等。完全理解和表达语言是极其困难的,完美的语言理解等效于实现人工智能。
自然语言处理涉及的几个层次:
自然语言处理的几个层次
作为输入一共有两个来源,语音与文本。所以第一级是语音识别和ocr或分词(事实上,跳过分词虽然理所当然地不能做句法分析,但字符级也可以直接做不少应用)。接下来是形态学,援引《统计自然语言处理》中的定义:形态学(morphology):形态学(又称“词汇形态学”或“词法”)是语言学的一个分支,研究词的内部结构,包括屈折变化和构词法两个部分。由于词具有语音特征、句法特征和语义特征,形态学处于音位学、句法学和语义学的结合部位,所以形态学是每个语言学家都要关注的一门学科。
hanlp自然语言处理开发包:
从事大数据方面工作的人对自然语言处理必然都是不陌生的,在github上用户量最多的开源汉语自然语言处理工具是hanlp。hanlp的初始版本是在2014年初开发的,3月份的时候开始在github上开源。2015年的时候集成在了大快搜索的dknlp中,目前大快已经把dknlp技术成果已经开源,并且整体装如hanlp项目,hanlp的版本已经到了v1.50。
hanlp自然语言处理技术优势:
支持中文分词(n-最短路分词、crf分词、索引分词、用户自定义词调、词性标注),命名实体识别(中国人民、音译人民、日本人民,地名,实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(maxent依存句法分析、神经网络依存句法分析)。提供lucene查件,兼容solr和elasticsearch。
hanlp自然语言处理技术
hanlp自然语言处理应用领域:
hanlp已经被广泛应用于lucene、solr、elasticsearch、hadoop、android、resin等平台,有大量开源作者开发各种查件与拓展,并且被包装或移植到python、c#、r、javascript等语言上去。
hanlp自然语言处理应用领域
文章来源于网络

谷歌回应公司内部成立“Alphabet工会”
关于自动驾驶汽车的三大关键技术
电子工程师:是否会后悔选择这个专业
大数据分析技术在发电企业的应用
三相电机倒顺开关怎么接 三相电机怎么改单相电机
自然语言处理入门基础之hanlp详解
小米手环3代到5代 NFC 功能已至此16张公交卡
华为擎云生态&鸿蒙系统,国产系统还远吗?
板载音效详解
小米Note又有新品“小米note3”希望雷军不再耍猴!
智能镜面显示器问世,智能科技时代将来临
dual link/Xvid,dual link/Xvid是
KiCad在仿真模拟电路方面的应用与功能
电机综合保护器如何接线
多媒体视频编码方式
大族激光提供顶盖激光钎焊技术解决方案
“苹果汽车”会由于收集数据不正确干扰车辆的自动驾驶功能?
什么是3DNow/CISC指令
小米12发布会:小尺寸高端旗舰
Ampere Computing推出了首批采用ARM构架的数据中心芯片