数极客首页

大数据文本分析:灵玖自然语言中文语义分词系统

自然言语
通常是指一种自然地随文化演化的言语
。英语、汉语、日语为自然言语
的例子,而世界语则为人造言语
,即是一种为某些特定目的而发明

的言语

自然言语
具备两个属性:言语
属性与自然属性。“言语
”属性表现为公认的某些商定
俗成的内在规律性;“自然”属性是说并不存在某个人为制造的、严厉
的语法规则体系来商定
人们的言语
表达方式,这是和程序设计言语
大相径庭的。自然言语
需求
遵照
一定的内在规律,但更大水平

上是“存在即合理”。

一个自然言语
处置
系统必需
思索
许多言语
自身

与结构

方面的学问
——如什么是词、词怎样
组成句子、词的意义是什么、词的意义对句子意义有什么贡献

等,但这些却还是远远不够的。比如

一个系统假定

要回答

提问

或者直接参与对话,它不只
需求
知道

很多言语
结构

的学问
,而且还要知道

人类世界的普通
性学问
并具备人类的推理才干

。因而

许多言语
学家通常把对言语
的剖析

和了解

分红
如下几个主要层次:词法剖析

、句法剖析

、语义剖析

、篇章剖析

从自然言语
的视角权衡
逻辑言语
,其缺乏
有:初始词项的种类

不够多样;量词的种类

比较

贫乏;存在量词的辖域在公式系列中不能动态的延伸;由于语境的缺失而使言语
传达信息的效率不高。而灵玖软件 NLPIR文本搜索与挖掘

系统充沛

处置

了这些问题。NLPIR是一套特地
针对原始文本集中止

处置
和加工的软件,提供了中间件处置
效果的可视化展示

,也能够

作为小范围
数据的处置
加工工具。用户能够

运用
该软件对自己

的数据中止

处置

NLPIR文本搜索与挖掘

系统的分词原理主要的运用了以下几种算法:

1、基于词典和规则的汉字分词

切分时,用待切分的字符串去匹配词典中的词条,假定

匹配胜利

,则将其切分红
一个词。这类办法

包括各种形态的最大匹配分词办法

、全切分分词算法等。

1) 最大匹配分词办法

最大匹配分词办法

又分正向最大匹配、反向最大匹配和双向最大匹配办法

。正向最大匹配从左到右每次取最长词;反向最大匹配每次是从右到左取最长词;双向匹配则是中止

正向、反向匹配,然后关于
两种匹配结果不同的中央
再应用
一定的规则中止

消歧。

最大匹配法可能无法处置
部分

掩盖
歧义、交叉

歧义。但这种办法

完成
简单且切分速度快。

2) 全切分分词算法

应用
词典匹配,取得

一个句子一切
可能的切分结果。由于全切分的结果数随着句子长度的增加呈指数增长,因而

这种办法

的时空开支
大;关于
比较

长且包含较多歧义的句子,常常
要经过很长时间才干
遍历完一切
的切分途径

3) 基于了解

的中文分词算法

分词中歧义消弭
的过程是一个了解

的过程,这不只
需求
词法信息,还需求
句法和语义信息。所以目前也有些研讨
者尝试模仿

人的了解

过程,在分词过程中参与

句法和语义剖析

来处置
歧义问题。由于汉言语

学问
的复杂性,难以将各种言语
信息组织成机器可直接读取的方式
,因而

目前基于了解

的分词系统还处在实验
阶段。

2 基于大范围
语料库的统计学习的分词办法

这类办法

主要是应用
从大范围
语料库中经过
统计得到的各种概率信息,来对中文字符串中止

切分。这种办法

常常
不需人工维护规则,也不需复杂的言语
学学问
,且扩展性较好,是现今分词算法中较常用的做法。

3 规则和统计办法

相分别

的汉字分词办法

往常

多数分词算法都采用规则和统计相分别

的办法

,这样做既可降低统计对语料库的依赖性,充沛

应用
已有的词法信息,同时又能补偿
规则办法

的缺乏
。常用的分别

办法

是应用
词典中止

初切分,然后用其它的概率统计办法

和简单规则消歧来中止

未登录词辨认

发表评论

评论已关闭。

相关文章