智能的声音

原创
2017-08-13

从十九世纪末的打孔卡和纸带输入,到盛行了数十年的键盘鼠标,再到现在流行的触摸输入,人机交互正在变得更直观、自然和人性化。近几年,随着语音识别技术的快速发展,智能语音正成为新的人机交互方式。

  “以前我们说鼠标加水泥等于新经济加传统经济,现在鼠标已经不是新经济,手机的输入方式已经是手势、语音甚至图像。”百度CEO李彦宏说,去年一年语音识别的准确率提升比此前15年提升的总和还要多。智能手机的普及也使得这方面的需求大大激发。

     2011年10月4日,iPhone4S对外发布,让用户感到新奇的是,智能语音助手Siri被成功植入iPhone4S之中。Siri的横空出世,在全球引发了语音热潮,各类语音助手几乎成为智能手机的必备应用。

相比早期的语音控制系统,Siri将iPhone变成了一个智能机器人,用户对着手机说话,不仅可以让手机读短信和拨号,甚至能够查询天气、餐厅位置、航班等以往不可想象的功能。在Siri身上,人们看到了语音成为手机实用交互方式的可能,而不像以前只能通过键盘或手写输入文字来传递信息。

  除了手机内自带的语音助手,不少第三方语音助手应用也如雨后春笋般涌现,譬如讯飞语点、百度语音助手、搜狗语音助手、虫洞语音助手、智能360语音助手等。这些语音助手的功能也越来越强,不仅可以通过语音搜索内容、查询信息,还可以聊天解闷、讲故事、唱歌。

  最近中关村在线手机事业部针对手机语音功能现状进行了一项调查,结果显示,67.68%的受访者表示使用过语音助手软件,这足以证明手机语音助手类应用的市场热度。

  不单单是手机,语音技术也逐步应用于PC、平板电脑、家电、车载、玩具、手表、眼镜等智能终端,以及教育、电信、金融、保险 、客服等领域。在2013年英特尔信息技术峰会(IDF)上,英特尔“感知计算”概念的提出,意在建立起一个新的人机交互框架,掀起“重塑PC”的革命,而语音识别就是感知计算的一部分。

  实际上,“听话”的浏览器离我们并不遥远。Google Chrome浏览器已经开始尝试支持声控命令,或许要不了多久,我们就能通过声控浏览器完成浏览网页、发送邮件等。比如,你可以通过“暗一点”“亮一点”“字体大一号”等语音命令来控制浏览器。

  结合地图系统和智能语音识别的打车软件一经面世便得到消费者的广泛关注。曾在北上广风靡的打车叫车软件“嘀嘀打车”,前不久正式进入武汉运营。据了解,“嘀嘀打车”软件在武汉市场试运行的14天时间里,召车成功率达88%,远远超过武汉官方叫车平台“电召”的48.5%。

  4月10日~12日,第一届中国电子信息博览会在深圳举行。由工业和信息化部指导,19家单位联合发起成立的中国语音产业联盟组团参展,将神奇的智能语音体验带到了现场,全面展示了智能语音技术在移动互联网、教育、智能电视、车载终端、玩具等方面的新产品、新应用。

  清华大学吴及副教授表示,通过技术上的不断优化和完善,快则一两年,慢则三五年,语音识别技术会成为人机交互的重要组成部分。未来最可能还是混合的交互方式,语音成为主流交互方式之一,因为不同的场景、用户需要和用户习惯,都会造成选择交互方式的多元化。

发端于上世纪50年代的语音技术,经历了多次潮起潮落,这次是真正的变革,还是又一轮泡沫?吴及告诉记者,“这次的兴起与过去不太一样,超过以往任何一次的高度,商业化应用的规模,普通民众的接受和认可程度,都远远超过了以往。”

  对于语音产业爆发的原因,吴及有着自己的思考:一是移动互联网的发展,使手机成为重要的客户端,现在手机数量已经远远超过PC和笔记本,导致越来越多的交互行为通过手机来完成。苹果ios、安卓等智能手机操作系统推出后,手机应用和手机交互逐渐增多,但在手机上靠传统的键盘输入很不方便,手写又太慢,而使用语音输入很方便,这样用户的需求就被激发了。

  二是随着移动互联网和云计算的发展,语音识别不需要在本机做了,可以在云端做。这样资源条件大为放松,对语音识别引擎不需要非常严格地限制了。此外,用户的语音数据可以存放在云端,就能有大量的真实数据用于模型训练,语音识别性能得到了迅速地提高,识别率可以达到85%~90%以上,这就达到了用户使用的最低门槛。

  三是语音识别技术一直在进步,最近十年也不断有新的突破,例如声学模型的鉴别力训练和近年来非常热的深度神经网络。

   智能语音技术应用非常广泛,不单单是前面提到的手机、电视、玩具、汽车等领域,也包括即将兴起的智能客服、智能订单、智能营销等智能语音服务。

   几年前,语音行业不景气,从事语音技术研究的多以学术界为主,这使得国内的语音核心技术一直掌握在清华大学、中科院声学所、中科院自动化所、中国科技大学等几家单位,同时也导致语音行业的人才很稀缺。

  从2008年开始,伴随移动互联网的大发展,语音识别产业才真正兴起。谷歌于2008年在美国发布了英文语音搜索服务Voice Search,应用于Android、诺基亚S60、黑莓、iPhone等多个系列的手机。2009年,Google在全球范围正式发布了谷歌中文语音搜索。

  2009年苹果收购Siri,并于2012年推出中文版Siri,大受用户欢迎,掀起智能语音热潮。

   最近几年,智能语音产业之所以有突破性发展,有几个因素起到了关键作用:一是移动互联网的发展,使手机成为重要的客户端。现在手机数量已经远远超过PC和笔记本,导致越来越多的交互行为通过手机来完成。苹果ios、安卓等智能手机操作系统推出后,手机应用和手机交互逐渐增多,但在手机上靠传统的键盘输入很不方便,手写又太慢,而使用语音输入很方便,这样用户的需求就被激发了。

  二是云计算的发展。以前语音识别讲两头,一方面看电信领域能否应用,另一方面尽量挖掘手机的资源潜力,但手机的计算资源和存储资源很有限。现在随着移动互联网和云计算的发展,语音识别不需要在本机做了,可以在云端做。这样资源条件大为放松,对语音识别引擎不需要非常严格的限制了。此外,用户的语音数据可以存放在云端,就能有大量的真实数据用于模型训练,语音识别性能得到了迅速地提高,识别率可以达到85%~90%以上,这就达到了用户使用的最低门槛。有了服务端以后,数据形成了循环,计算资源的要求放松,这是智能语音产业发展的重要条件。

  三是语音识别技术一直在进步,最近十年也不断有新的突破,例如声学模型的鉴别力训练和近年来非常热的深度神经网络。


写下你的评论吧