数极客首页

杂谈TTS(Text to speech):文本转语音

杂谈TTS(Text to speech):文本转语音

其实,最早接触,或者说就应该知道

TTS应该是两年前。

那时分
Chris去了众所周知
的一家公司,那个步步高点读机哪里不会点哪里工作了一段时间,当时,接触到了内容制造
方面的学问
,而且亲身
制造
了几本英文教材书的内容。当时没有往常

这样喜欢总结,所以,流于做事而做事,没有太多自己

搭起来的学问
框架,比较

乱(固然
往常

也没有学问
框架也很乱,哈哈哈)

第一次听到TTS应该是在今年4月份的时分

去了去哪儿,公司的买卖
平台TTS(Total solution)就是这个名字。说这个名字,估量
大家还是蒙圈,整体处置

计划
?是什么意义

了解

过的童鞋都知道

,去哪儿是最大的中文旅游搜索平台,望文生义
,要为用户提供价钱
比较

,让用户选择最低价

、最便利
、最安全

的效劳
和产品。那么一个重要的问题来了,全国各地有那么多酒店、机票、旅游产品代理商、官方旗舰店,假如
都跟去哪儿协作
的话,用户在去哪儿上面比较

了价钱
,点击置办

,一定要保证用户体验抵达

最佳,优化置办

流程,保证
其中的安全

性和便利
性。于是,买卖
平台TTS(Total solution)整体处置

计划
这个系统就出来了,统一了一切
第三方平台的管理,这个平台也增强
了去哪儿对各大代理商的控制权。

说去哪儿这段,只是想通知
大家一个事实:很多事情,我们都知道

,但是,没有上升到理论层次,或者说没有搭建自己

的学问
框架,所以,当说出tts的时分
,就懵逼了,其实背后的事情,你是知道

的。(其实,我也是后来才知道

,所以,努力吧,骚年们~)

言归正传。

今天说的TTS是text to speech,从文本到言语
,文本转语音,文本朗诵
,差不多是一个意义
。在语音系统开发中经常要用到。

记得有一次,我打了一辆Uber,在车里,置信
大家都听到过一句:“百度地图将持续为您导航”。当时,我就傻叉似的问了同行的同伴
,这个说话的女声,是特地
找人录制的吗?(作为在百度待过的,觉得
凌辱

万分)。

先说tts的用处
,让大家有点概念。

这里,又要触及
两个个概念:CTI和IVR。

CTI技术从计算机通讯
集成(Computer Telephony Integration)展开

而来,最初是想将计算机技术应用到电话系统中,能够

自动地对电话中的信令信息中止

辨认
处置
,并经过
树立
有关的话路衔接
,而向用户传送预定的录音文件、转接来话等。而到往常

,CTI技术曾经
展开

成“计算机电信集成”技术(Computer Telecommunication Integration),即其中的“T”曾经
展开

成“Telecommunication”,这意味着目前的CTI技术不只
要处置
传统的电话语音,而且要处置
包括传真、电子邮件等其它方式
的信息媒体。

在CTI技术中扮演重要角色的就是IVR技术。

IVR(Interactive Voice Response),互动式语音应对
。这个概念会让大家对tts豁然开朗

IVR:只须用电话即可进入效劳
中心,能够
依据
操作提示收听手机文娱
产品,也能够
依据
用户输入的内容播放有关的信息。最常见的业务有:语音点歌、语音聊天交友、客服中心。IVR另一重要应用是在呼叫中心中,分为前置和后置,前置IVR是语音先进入IVR处置
,在无法处置

客户问题的状况
下才转入人工座席。后置IVR是指IVR与人工座席处在均衡
的位置,人工无法满足客户入话时转IVR,主要是为了拖延时间或增值效劳

刚刚说的IVR也就是tts的一个代表性用处

目前市场上的TTS很多,完成
方式也形形色色
,有的很昂贵,如科大讯飞,听说
当初得到863计划

的资助

,有很高的技术;有的相对低价

,如捷通华声, InfoTalk;也有免费的,如微软的TTS产品。

这里贴一张TTS技术道路
图:

杂谈TTS(Text to speech):文本转语音

图中划分出了三个部分

:数据支持、TTS内核、外部应用。

数据支持部分

包括:语法学问
库、语音语料库、语法词典。这里,今天我跟师傅沟通了一下,然后看了我们公司的语料库后台,明白了,数据支持部分

就是经过
自然抓取和人工录入的方式,将需求
发音的文字准备好。

外部运用
自然就是用户客户端央求

之后的响应了。

重点是TTS内核的三个部分

文本剖析
对输入文本中止

言语
学剖析
,逐句中止

词汇的、语法的和语义的剖析
,以肯定
句子的低层结构

和每个字的音素的组成,包括文本的断句、字词切分、多音字的处置
、数字的处置
、缩略语的处置
等。

语音合成:把处置
好的文本所对应的单字或短语从语音合成库中提取,把言语
学描画

转化成言语波形。

韵律生成:是指语音合成系统所输出的语音的质量,普通
从明晰
度(或可懂度)、自然度和衔接

性等方面中止

客观
评价。明晰
度是正确听辨有意义词语的百分率;自然度用来评价合成语音音质能否
接近人说话的声音,合成词语的语调能否
自然; 衔接

性用来评价合成语句能否
流利

要合成出高质量的语音,所采用的算法是极为复杂的,因而
对机器的请求
也十分
高。算法的复杂度决议
了目前微机并发中止

多通道TTS的系统容量。这一部分

也是最难的。

相关于
ASR(Automatic Speech Recognition,自动语音辨认
)来说,完成
一个TTS产品所需求
的技术难度不算大,在我看来也就是个力气活。

要是让我们来做一个能够

把汉语句子朗诵
出来的TTS,我们会怎样
做呢?

有一种最简单的TTS,就是把每个字都念出来,你会问,岂不要录制6千多个汉字的语音?侥幸
的是,汉语的音节很少,很多同音字。我们最多只是需求
录制: 声母数×韵母数×4,(其实不是每个读音都有4声),这样算来,最多只需求
录制几百个语音就能够
了。

在合成的时分
需求
一张汉字对应拼音的对照表,汉字拼音输入法也依赖这张表,能够
在网上找到,不过通常没有4声音调,大不了自己

加上,呵呵,要不怎样
说是力气活呢。

这样做出来的TTS效果也还能够
,特别是朗诵
一些没有特别含义的如姓名,家庭住址,股票代码等汉语句子,听起来足够明晰
。这要归功于我们巨大
的母语通常都是单音节,从古代的时分
开端
,每个汉字就有一个词,表达一个意义
。而且汉字不同于英语,英语里面很多连读,音调理
奏变化很大,汉字就简单多了。

当然,你依然
要处置
一些细节,比如

多音字,把“银行”读成“yin xing”就不对了;再比如

,标点符号的处置
,数字、字母的处置
,这些问题关于
写过很多程序的你,当然不难了。

国内的一些语音板卡带的TTS,不论
是卖钱的还是免费的,大致
都是这样做出来的,也就是这样的效果。

假如
要把TTS的效果弄好一点,再来点力气活,把基本

的词录制成语音,如常见的两字词,四字成语等,再做个词库和语音库的对照表,每次需求
合成时到词库里面找。这样以词为单位,比以字为单位,效果自然是好多了。当然,这里面还是有个技术,就是分词的技术,要把复杂的句子断成合理的词序列,也有点技术。这也要怪新文化那些先驱们,当初倡导文言
文,引进西文的横排格式、标点符号的时分
,没有引进西文中的空格分词。不过即便
分词算法那么不高效,不那么精确
,也问题不大,如前面所说,汉字是单音节词,把声音合起来,大致
上不会有错。

当然,科大讯飞的力气活又干的多了些,听说
曾经
进化到以常用句子为单位来录音了,大家能够
想像,这要耗费

更多的力气,换来更好的效果。

至于增加一些衔接处的“词料”,弄一些修饰性的音调,我以为
是无关紧要的,对整体的效果改进

不是太大。

市面上商品化TTS普通
还支持粤语,请个粤语播音员录音,把上面的力气活重做一遍就是了。

再说句题外话,很多人觉得录音最好找电台、电视台的播音员,其实找个你周围

的女同事来录制,只需
吐字明晰
就能够
了。在某种状况
下,寻常声音比字正腔圆的新闻联播来得心爱

再来说说文本的标识,关于
复杂文本,某些内容程序没有办法

处置
,需求
标识出来。比如

,单纯的数字“128”,是应该念成“一百二十八”还是“一二八”?处置

办法

通常是参与

XML标注,如微软的TTS:”<context ID = “number_cardinal”>128</context>”念成“一百二十八”,”<context ID = “number_digit”>128</context>”将念成“一二八”。TTS引擎能够
去解释这些标注。遗憾的是,语音XML标注并没有构成
大家都完整
认可的规范
,基本

上是各自一套。

再说说TTS应用编程,微软的TTS编程接口叫SAPI,是COM接口,开发起来还是有点省事

,还好MSDN的网站上资料

很全面。微软的TTS固然
免费,但其中文角色目前是个男声,声音略嫌混浊,觉得
不爽。

国内普通
的厂家提供API调用接口,相对比

简单,能够
便当
地嵌入应用程序中去。

商品化的TTS还有个并发答应
限制,就是限制同时合成的并发线程数,我觉得这个限制用处

不大。无论哪种TTS,都能够
将文本文件转换成语音文件,供语音卡播放。大部分

应用句子比较

短小,普通
不会超越
100个汉字,合成的时间是十分
短的,弄个线程特地
担任
合成,其它应用向该线程央求

就是了,万一句子很长,把它合成
成多个短句子就是了,播放的速度总是比合成的速度慢。

也很多应用是脱机合成,没有实时性请求
,就更不用
买多个答应
了。

更多状况
下,我们以至
没有必要置办

TTS,比如

语音开发中常见的费用催缴,拨通后播放:“尊崇
的客户,您本月的费用是:212元”,前面部分

对一切
客户都一样,录一个语音文件就是了,而数字的合成是很简单的,你只需
录制好10个数字语音,再加上十,百,千,万,再加上金钱的单位“元”。

 

作者:Chris,微信公众号:产品运营(pm-2020),一个产品运营菜鸟。曾在百度、美团、去哪儿从事产品运营工作。希望将点滴积聚
记载
成文字,给需求
的你作为参考。

本文由 @Chris 原创发布 ,未经答应
,遏止

转载。

新一代大数据用户行为剖析
与数据智能平台:数极客(https://www.shujike.com),是支持无埋点、前端埋点、后端埋点、API导入四种混合数据采集方式,整合剖析
用户行为数据和业务数据,能够
自动监测网站、APP、小程序等多种渠道推行
效果剖析
,是增长黑客们必备的互联网数据剖析
软件。数极客支持实时多维剖析
、漏斗剖析
、留存剖析
、途径
剖析
等十大数据剖析
办法
以及APP数据剖析
网站统计网站剖析
小程序数据统计用户画像等应用场景,业内首创了六种提升转化率的数据剖析
模型,是数据剖析
软件
范畴
首款应用定量剖析
与定性剖析
办法
数据剖析
产品

发表评论

评论已关闭。

相关文章