数极客首页

与机器人对话! —— 初探语音智能交互

与机器人对话! —— 初探语音智能交互

  我们经常能在科幻影片里能看到各种机器人与人类同台出演,与人类自由

的沟通交流,以至
比人类愈加
聪明。大家肯定想知道

这样的人造机器是怎么做到的,我们往常

真的能造出这样的机器人吗?

  开玩笑,我在这绝不可能解释好这个问题,但是从另一个角度简单来讲,与机器人交流其实这是经过
语音来完成
与机器交互,互动的一种操作,人与机器人的沟通其中心
的一个方面便是语音的辨认
,就是说机器人得先听懂人说话。那此文就来浅聊下关于经过
语音来完成
人机交互的一些问题。

  我们先看一个较简单的例子 —— Windows语音辨认
程序:
与机器人对话! —— 初探语音智能交互

  Windows语音辨认
功用
主要是运用
声音命令指挥你的电脑,完成
分开
键盘鼠标来完成
人机交互。经过
声音控制窗口、启动程序、在窗口之间切换,运用
菜单和单击按钮等功用
。Windows语音辨认
功用
仅仅限于 Windows系统体系内的一些常用操作和指令,并且是与监视器显现
辅助来完成整个语音操作。

  例如你想用语音经过
主菜单翻开
某个程序,当你说出“开端
”后,系统将会提供一个“显现
编号”的区块划分功用
,(编号是半透明的,使你能知道

此编号下是哪个程序或文件夹)这样假定

你想翻开
“下载”这个文件夹,你只需说出它的编号“10”,程序就会给你翻开
“下载”这个文件夹了。这样做的缘由
一是由于
:假如
你需求
开启用户自行装置
的纷繁复杂的程序,Windows的语音库里面可能没有这些程序相应的称号
,会构成

辨认
不准,以至
无法辨认
,二是经过
显现
编号,和语音辨认
编号,响应指令的效率更高,因而
这样语音配合监视器的分模块显现
大大的进步
了用户运用
Windows系统的效率和精确
率。

与机器人对话! —— 初探语音智能交互

  同样,假如
你对桌面的快捷方式或文件中止

语音操作,系统将会提供一个称之为“鼠标网络”的功用
,对桌面中止

以前区域的划分和自动编号,用语音+视觉来进步
操作效率和辨认
的精准率:

与机器人对话! —— 初探语音智能交互

  在目前Windows的语音辨认
程序中,除文本的语音输入(包括文字和符号)之外,还包括16个常用命令,9项常用控件命令,31项文本处置
命令,15项窗口命令,5个点击屏幕恣意
位置命令,以及另外的几组键盘命令。用户所能语音指挥的也就是盘绕
这些预先准备好了的命令中止

交互操作,旨在这将有可能进步
运用
电脑的效率,和尽可能的把双手从鼠标键盘上解放出来。

  与此初衷相相似
的我们还能在目前主流的移动

设备上能看到语音辨认
功用
的应用:

与机器人对话! —— 初探语音智能交互

  然后我们在行进
一点,再想一下假定

往常

我们要面对的不是电脑,手机,而是一个机器人!一位拟人化,仿真化的机器人,对比

上面的例子你会很容易发现它和常用的电子设备的不同之处在于,它很可能是不会有一个我们通常所见的显现
屏,那以上那些经过
语音指令分离
屏幕可视化辅助来中止

的高效的交互方式在机器人身上就收到了限制。在这种状况
下你面对着机器人,你肯定会想它在听我说话吗?它能听懂我说话吗?我说什么它能听懂?我说什么它可能听不懂?等等这样一对问题会立刻
扑面而来。

  其真实
我们现有的技术水平

和条件下,特别是面向大众

商用的机器人,想做到像电影里面那种人和机器人自由

交流的情形
简直
是不可能。当然我们做一个产品,当然会有功用
定位和市场需求等等很多方面要思索
的,那我在这里讨论的是一台为用户提供各种咨询和能中止

简单语音逻辑“聊天”的机器人,需求
怎么处置
语音交互方面的问题,这里以Qrobot为例,尽可能不依赖电脑屏幕,而直接来与人互动和提供各种咨询的机器人。

  人是上帝发明
的,而机器人是由人发明
的,在现有学问
和技术条件下,在人类赋予他特定的才干

之前,机器人是什么也做不了的。下面我将分几点来讨论要想完成
与机器人交互沟通需求
做哪些工作:

  一,给机器人提供一个“大脑”—— 思想的资料
:学问
、言语
库。像Qrobot这样提供各种海量咨询和交流操作功用
的机器人,假如
把一切
的这些“原资料
”堆在一堆,一旦你有求于它的时分
,它可能会慌了手脚,不知所云。(机器人无法依据
对话的前后关系以及语境来判别
某一个词在当前情境下恰当的含义)因而
我们先会把机器人的语音学问
库中止

分类,把不同类型和专业的词语库分开来,以进步
机器人的工作效率和效劳
的精确
度。那这样用户如需求
取得
哪方面的信息和功用
,就要先让机器人“思想
”进入相应的言语
库中。比如

你经过
机器人来了解

“音乐”方面的信息的时分
,你需求
让机器人进入音乐相关的“语库思想
”中,那在这个状况
下它会把你说的任何话当作“音乐”相关的内容或指令了。

与机器人对话! —— 初探语音智能交互

  这里对比

下苹果最近发布的iPhone 4s 的Siri,依据
资料

剖析
来看Siri是一个集中统一的语音剖析
处置
中心,它经过
监听用户语音,然后提取关键词来了解
用户企图
,(当然用户事前
要知道

iPhone能帮他做些什么)然后可能经过跟你确认,再触发相应的功用
和效劳
。因而
它最终提供功用
咨询和效劳
来自于整个iPhone系统不论

是本地Apps或是云端(网络APIs)曾经
准备整合好了的咨询信息及功用
。这样的处置
方式能使产品看起来愈加
的聪明和易用。

与机器人对话! —— 初探语音智能交互

  当然除了被分区的专业语库外,机器人还得有个“正常人”的思想
,即辨认
专业言语
库以外的各种指令和普通对话,(上图的集成方式

)否则的话它将只能是“机器”而无“人”了。

  二,Qrobot各分区之间的的转换以及从语音库分区回到“集成方式

”除语音指令外,还需求
假定

非语音方式的的中间干预,这就触及
到触发监听和监听机遇
控制问题。

与机器人对话! —— 初探语音智能交互

  从上图能够
看到Windows的语音辨认
程序是经过
一个浮动控制器开关来使机器听取你的指令与否。这里能够
经过
语音来让程序进取关闭状态,但是处于关闭状态则无法用语音来命令它重新启动了,这时分
需求
回到鼠标操作。

  iPhone的语音控制功用
是经过
触摸屏幕启动Siri程序后进入一个语音方式

,在这个环境下用户才干
运用
语音操作手机和运用
效劳
,假如
退出Siri手机将不能听懂你任何声音。

  同样你不会让Qrobot机器人不时

听你说话,或是你需求
它提供某特定信息的时分
怎么让它疾速
的进入相应的语音区域,高效精确
的提供信息。机器人不可能用一只鼠标去操作,这里我们给机器人设计一个响应区和相应手势:
1,用触摸响应区域来控制机器人听或不听指令
2,用触摸响应区域+配合语音指令的复合方式来切换机器人的语音库
或运用
特定规范

的词语句来激起
机器人进入或切换语音区来高效精确
的获取信息。(同样也分以上两类指令)

  另外在不同的状况
下,机器人听用户指令的状态也是不一样的,比如

在“对话”状态下,机器人需求
连续语音辨认
,这既基于情境需求
同时也基于语音技术,而比如

在功用
操作或者咨询获取的以及机器人自己

说话的时分
并不需求
连续语音辨认
,而是设置一个恰当
的语音监听时长,一旦超出这个监听时间,机器人则不中止

辨认
,也不会构成

误听和误操作。

  三,同一个话题的表达可能会有很多种表述方式,同样任何问题的答案也都不是单一的,因而
第二个工作是需求
让机器人能尽可能的听懂关于一件事情的各种不同表述方式,和让机器人响应你的央求

或问题时每次会以不同的方式以至
心情
来表现出来(这样能让机器人显得愈加
的聪明和人性化)。

与机器人对话! —— 初探语音智能交互

  如上图,由于言语
的灵活

性和丰厚
度,在语音库的配置上面就需求
在输入和输出两方面做大量的工作,这包括本地(机器人内置存储空间)和云端两块。

  对一个指令的意义
需求
在语库中准备和配置好多种的言语
表述方式,和可能的关键字词,以便在用户运用
的各种表述方式的状况
下都能精确
的判别
出指令的企图
,来提供精确
的反响

和效劳

  另一方面,当机器人了解
了指令然后经过“大脑”处置
之后把结果反响

给用户的时分
,如上文所说,设计者不可能只需

一份准备,怎么既能让用户得到精确
的信息,又能表现
出机器人的“人情味”来,同样也需求
做大量技术算法的贮藏

和语句、关键字词准备配置工作等等,使每次输出既恰如其分,又灵活

生动。

  由于目前我们日常能接触到的和能运用
的语音交互产品不是很多,技术水平

也还不能尽如人意。以上文字只从几个基础

的方面浅浅的触碰了以语音辨认
为基础

的交互及产品,那目前来说语音交互对运用
者的价值可能体往常

以下种状况

1. 用户有视觉方面的损伤和缺陷
2. 用户肢体处于忙碌

状态
3. 用户的眼睛被其它事情占用时
4. 需求
灵活

反响

5. 在某些场所
不便当
运用
键盘、鼠标等其它输入方式

  但是语音交互方式
相关于
其它交互方式
还是有其缺乏
,比如

与手指交互比,语音交互增加用户认知担负
;语音交互容易遭到
外部噪音的干扰;还有遇到用户、环境等变化语音辨认
将会变的不稳定等等。我这里只是借Qrobot项目中触及
到的一些语音交互方面的问题,以简明开门见山
的言语
中止

一下梳理和讨论,也十分
欢送
对这范畴
有兴味
的同窗
来指点和讨论。

相关文章