文创投资股份有限公司

您现在的位置：首页-数字传媒

讲科技：智能语音正当时人机交互共支持

2017/11/28 13:35:00

来源：刚刚讲过

突然地就会发现，如今新出的智能电子产品中，各种智能音箱占了不少的比例，但是稍微了解一下这些产品，就会发现，它们很像是曾经的“智能手表”一样，打的是“手表”、“音箱”这样的传统产品名称，实际实现与增强的方面，却几乎已经脱离了原先名称的约定，智能手表只剩下可以戴在手腕这一点，而智能音箱自然也就保留了可以扩音之外，真正想向用户推销的，却是“语音交互”！

　　“语音交互”这个词语不只是看起来有些高大上，而且它是真正地把人类与智能机器的交互关系推进到了一个全新的高度，成为当前如火如荼的人工智能大潮里的重要推动力之一。

　　人类有着自己的语言与信息表达方式，尽管国家种族不同，但不外乎于文字与语言。而智能机器（实际上指的是电脑，有别于之前的机械类机器）也有着自己的二进制语言，只是它基本难以让正常人类直接理解与使用。所以，人类必须要寻找一个合适的中间语言，于是就有了最早的汇编语言，再到高级语言。从最难的C语言不断简化，直到当前所流行的PHP等等智能语言；

　　只是，尽管这些计算机语言越来越简化，越来越智能，但它毕竟是一门专业，至少是需要经过特殊培训后的工程师才能掌握。必须由他们用这些语言编写成我们普通人能够看懂的菜单、按钮以及表格、对话框的软件界面，这样我们才可以对着电脑以及手机下达类似于“选择”、“确定”、“购买”、“放弃”等等一系列的指令，这便是第一阶段的“软件交互”；

　　当智能手机发展起来之后，一个貌不惊人的小小功能附件开始改变了这一切，那就是手机上的摄像头。尽管软件工程师们已经可以把几乎所有的人机交互中的场景与需求都开发成了软件界面。可是，正是由于早期手机小小的屏幕与界面，让我们在手机上无论是点按钮还是输入内容都显得极不方便，充分利用摄像头功能的二维码应运而生；

　　二维码的本质是“视觉交互”的重要衔接介质。正是由于最初的视觉交互受限于当时摄像机的分辨能力以及手机芯片的识别判断能力，它需要把拍摄到的图形尽可能地标准化。于是，通过独特的、并有超强纠错能力的二维码图形编码来充当了其中的完美传递中介；

　　比如说，之前我们要向朋友推荐某个商品或是内容的网址，就需要有软件介面上找到对话框，要录入或拷贝很长一段的网址；又或者给朋友自己的联络方式，又是一堆文字甚至还有相关图片；再或者提供一段带有智能判断条件的程序地址，则会超出普通人交流复杂度的字符串等等，这些都可以通过一块块看起了区别不大的二维码让对方手机轻轻一扫，就完成了人与机器之间的交流与对话；

　　而在此基础上，以阿里集团为代表的、不断努力发展并推进的AR识别，其实就是在手机摄像头性能发生飞跃式提升，以及云端计算能力空前发展后，开始把原先局限在标准化编码后的二维码的识别，升格为所有图形图像的识别；而再下一步的突出代表就是人脸识别，这些的本质，都是第二阶段的“视觉交互”；

　　而实际更加符合人类日常社交、沟通以及信息传递行为规范的，理应是口头语言之间的交流，我们最直接、最简便以及最自然的指令方式就是开口说话。想想看，对于一扇门，我们用手去按门上的某个按钮来打开它，这就是软件交互；而如果我们对着门上的摄像头出示某个二维码证件或者直接是自己的脸庞，这便就是视觉交互，而走到跟前直接说一句“芝麻开门”就打开了大门，这便就是眼下兴起的“语音交互”；

　　正如软件交互的进化取决于高级语言的不断简洁化与智能化，而视觉交互取决于摄像部件的精准程度提升，语音交互首先就必须强化硬件的拾音能力，就是从生活场景里以最小的干扰程度收听到发出指令的声音，然后就是强大的运算处理能力，可以克服环境噪音、用户口音、语音歧义等等各种因素影响，准确接收并理解到语音指令，并作出适当的处理反应；

　　也就是说，只有从我们今天所回忆、反思之后的整个人机交互发展的历史轨迹中，我们才能真正理解当前智能音箱产品突然走火的根本原因，才会明白为何小小的语音识别、智能处理的技术，可以在当前的技术演进中处于如此重要的位置；也才能明白为何苹果公司会坚持不懈地推广它的Siri，微软推广它的Cortana、谷歌专注于Assistant、三星努力布局于Bixby，这些名称各异的产品，都有一个共同的职能定义——智能语音助手；

　　回头再来看看，我们就会发现，无论是软件交互、视觉交互还是语音交互，它们本身技术发展与完善的先后顺序，并不意味着后者的价值高于前者，也并非表示后者可以取代前者，而是随着科技发展的提高、计算与运算能力的提高，对于人类与智能机器之间的信息交流、指令管控能力的不断完善，未来最完美、或者说是最自然的交互方式，一定是这三者完全融合、相互补充、相互印证的全场景式交互，也许到那时的智能机器，才会被真正称之为人工智能。