亚马逊Echo大获成功,远场语音交互技术在其中究竟扮演了什么

李智勇 发表于 2017-05-26 16:00 | 分类标签:远场语音交互技术ECHO
关于远场语音交互,声智科技 CEO 陈孝良告诉雷锋网:“语音是最简单、最自然的人机交互方式,同时也是技术难度最大的交互方式,特别是语音交互从近场走向远场落地到真实场景,必须考虑噪声、混响、回声等声学问题,以及数据差异引入的机器学习模型问题,这些都是保证自由人机交互的核心技术。” 但是网络上横跨声学和计算机学科的教育资源太少,李智勇老师的这篇文章不仅揭示了远场语音交互的核心技术,还对商业化落地的路径进行了深入的解读,无论是语音交互的技术人员,还是产品经理,都值得一读。 手机之后国外各大巨头非常罕见的步调一致的在做同一件事情:智能音箱。而这一切最初的驱动力来自于Amazon Echo,但有意思的事情是Amazon Echo这产品根本没做任何的功能上的创新,听歌、看新闻、设闹钟、说笑话、控制家电等所有东西都可以在手机上找到替代品,它唯一的变化只是把语音交互的方式从近场升级为远场,并把精度和速度打磨到非常优秀的程度。只是这么一点点变化,似乎就要创造一个无比巨大的行业,那远场语音交互为什么有这么大的威力?

语音交互等价于远场语音交互

极端的讲法是世界上并不存在一种方式叫近场语音交互,语音交互基本等价于远场语音交互。事实证明过去很多年里各种近场语音交互的尝试(比如Siri)并没获得很好的进展,甚至简单实用的语音输入法也没能成为主流。从应用场景来看远场和近场的核心差别是拉开和语音设备的距离后,双手再也没用了。这样和触屏就可以彻底的差异化,可以彻底的发挥语音的快捷优势。想象下面的场景: 在微信里给一个人打视频电话,如果用手机那是下面这样的过程 亚马逊 Echo大获成功,远场语音交互技术在其中究竟扮演了什么角色? | 深度 如果变成远场语音,那核心步骤会变成两个 亚马逊 Echo大获成功,远场语音交互技术在其中究竟扮演了什么角色? | 深度 显然在这两种场景下便利程度是完全不一样的,这种便利理论上讲在近场的情形下同样存在,但核心点在于近场时就需要挑战用户根深蒂固的触屏习惯,这很难。触屏虽然大流行,但显然并没能在笔记本上挑战键盘鼠标的既有地位。这不单是偏好问题,也与各种应用与特定交互方式的绑定有关。触屏虽然好用,但并不能完全在Office上用起来,所以如果Office根深蒂固,那么键盘鼠标就根深蒂固。所以我们说,语音交互基本等价于远场语音交互,一旦它真的成为主流交互方式,培养了用户习惯,那反过来才可能在近场的场景(比如近场的Siri)下占有一席之地。

远场语音交互的核心技术

远场语音交互如果变的无处不在,那Amazon Alexa(以及同类产品)会变成新一代的Android,那个时候整个生态会像下面这样: 亚马逊 Echo大获成功,远场语音交互技术在其中究竟扮演了什么角色? | 深度 这个时候Alexa这样的系统同时覆盖了传统上Android和应用商店的角色,在其上面则会有新的今日头条、新的O2O等。而如果要把Alexa所依托的技术进行细分的话,那么基本上是三层: 前端的声学部分(算法+阵列) 识别 NLU 这样一来远场语音交互就正好面临一大一小两个瓶颈: 亚马逊 Echo大获成功,远场语音交互技术在其中究竟扮演了什么角色? | 深度 第一个瓶颈是眼下就要解决的问题,即在语义仍然有限制的条件下,打造偏命令控制的产品,这个时候产品的ID很难拟人化(想想Echo,Airpods这些产品),一旦拟人用户的潜在期望就会无限拔高,你也就不可能做出非常满足用户体验的产品。 第二个瓶颈则具有一定的不确定性,具有探索性质,我们仍然还不知道什么时候自然语言理解中可以体现出真的智能,但确实只有这点做了突破,并且同计算机视觉进行融合才能真的做好拟人的机器人。 而为了解决第一个瓶颈事实上需要做好的事情有两个: 一个是前端声学算法软硬件的持续优化 一个是通过获取的数据重新训练云端的ASR 这个过程可以用下图橙色的部分来概括。 亚马逊 Echo大获成功,远场语音交互技术在其中究竟扮演了什么角色? | 深度
123下一页全文

本文导航

除非注明,本站均为原创或编译,转载请注明:文字来自39度
分享给朋友:
条评论

评 论

提 交 请勿进行人身攻击,谩骂以及任何违法国家相关法律法规的言论。
正在加载评论...