数极客首页

基于统计学模型的无指导中文文本分析

摘要:以下为清华大学统计学研究中心邓柯分享的主题为“基于统计学模型的无指导中文文本分析”的演讲。

基于统计学模型的无指导中文文本分析

刚才主持人介绍了我的教育背景。我本科和博士都是在北大念的,拿的统计学博士。北大毕业之后到哈佛大学统计系,做了几年博士后,做了一些研究工作。在2013年加入到为清华大学邱成同数学科学中心做助理教授,去年我们清华大学刚刚成立了统计学研究中心,统筹统计学科的建设和发展,我就从数学中心出来到了统计中心,现在也是做的助理教授,同时帮助(刘军)主任建设中心,这是我自己简单的情况。
基于统计学模型的无指导中文文本分析

我们“统计中心”刚刚成立,哈佛大学统计系的刘军教授和哈佛大学生物统计系的林希虹教授是我们中心主任和共同主任。两位教授都是华人统计学界非常知名的统计学家,都在美国拿到国际统计学最高奖,在国际领域上统计学领域是非常有影响的学者。
基于统计学模型的无指导中文文本分析

我们讲医疗大数据,医疗大数据中非常重要的组成部分是医院里的电子病历。这是一个病例的例子,它是非结构化的自由文本,不同类别的名词,我们用不同的颜色标了出来。拿到这种文本以后,我们还是蛮头疼,这个文本是非结构化,对它进行分析结构处理不是很容易。我们想通过分析把非结构化的文本变成结构化的文本,这个过程当中还是需要艰苦的努力,并不是非常容易。医生写出医疗文本,专业性很强,医生叙述的语言、方式和我们新闻、人民日报有非常大的差别,这样的文本怎么挖掘、分析也是有它的一些难度的地方。现在,很多公司都在关注做这件事情,但是在技术上还是有难度的。
基于统计学模型的无指导中文文本分析

同时我们已知的方法,假定这个词库还是知道比较全,稍微有点不清楚。同时倾向于用语法规则或者用rules帮助词法分析。我们可以看到举出三个问题,这三条好像基本上都不太对。第一,我们不能够假定我们有一个很好的训练文本,同时那个问题里面新词和未知技术名词很多,我们很难假定有一个完整的词库,同时在那些里面语法结构跟我们想象当中新闻文本的语法结构是很不一样的,医生写的语法根本就不是语法。我们传统的一些方法在这里面也都有它的一些局限性。

基于统计学模型的无指导中文文本分析

我们在处理之前做了一些试验,斯坦福大学有一个著名的切词工具,哈工大也发展过一套算法来测中文分析,做得非常好。我们当时做过测试,随便网上抓了一条新闻,用斯坦福大学的软件分析,分得挺对,什么州,州党都分对了,但挺遗憾,马英九分错了。总体来讲对于抓取新闻文本还挺好。
基于统计学模型的无指导中文文本分析

基于统计学模型的无指导中文文本分析

这里解决一个问题,回到这个问题里面,我们知道词典,但词频不知道,你给我一个数据,可以词频可以有效估计出来。这个框架20年前有人做过。

基于统计学模型的无指导中文文本分析
基于统计学模型的无指导中文文本分析

这是我们目标文本,这是数据挖掘中的算法,很快把所有的字符字块选出来,你装进来,得到超级大的初始词典,如果有训练可以用,用EM算法估计词频。我们加了模型控制,控制完得到非常精简的词典,进行排序,重要的词排在前面,把原始文本再做分析。

我们看看做法的效果,效果非常简单算法还是非常实用非常好。为了验证这个概念,我们找了一个英文小说,《白鲸记》,我把英文小说拿过来以后,标点符号全部去掉,空格去掉,英文小说变成字符串,20万个英文单词,有了这个以后就把原始数据输入到方法里面学习,这个是我们算法就是输出的结果,这里面英文单词我不知道,这个算法自动把词学出来,看一看,这个做得还是不错的,有红线的地方,就不是单词的,整体来讲在英文里做的不错。我们也做了精细的分析,我们知道有哪一些单词,我们做了一些比较,如果从找词角度,真实小说有1.7万词,出现两次以上的词是1700个,出现一次词从统计学很难发现,但是看我们的结果,6700个词,大概6300词非常准确抓取到,我们找到3000多个词组,新词发现做得非常好。从切词角度,大概有75%到80%,大家觉得87%还可以。大家来看看少了20%是在哪儿?我们少了20%在这个地方,原来moby和 dick中间应该有一个空格,我们没有把这个空格放进去。这虽然是个错误,但是从统计分析的角度是有道理的:这两个词经常在小说里出现,虽然不是一个单词,但是从统计分词的角度,它是一个词,我们缺了20%都在这个地方。如果把这个地方不算,做一个调整,我们切词大概在95%左右,这是非常高的标准。

基于统计学模型的无指导中文文本分析
基于统计学模型的无指导中文文本分析

我们还做了精细的比较,从识别人名,《红楼梦》当中有将近780个人名,其中371个人名出现两次以上,我们分析的结果,370个人名成功抓取345个,这是斯坦福的算法,这是哈工大的方法,这两个算法在人名识别上很低,只识别了312个,miss了将近60个,这个方法更差,miss了90多个,我们只有25。我们用的信息很少,但是在识别人名角度比这些方法都做得好。

基于统计学模型的无指导中文文本分析
基于统计学模型的无指导中文文本分析
基于统计学模型的无指导中文文本分析
基于统计学模型的无指导中文文本分析
基于统计学模型的无指导中文文本分析
基于统计学模型的无指导中文文本分析
基于统计学模型的无指导中文文本分析

来源:199it

本文采用「CC BY-SA 4.0 CN」协议转载学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请联系「我们」处理。

发表评论

评论已关闭。

相关文章