语音识别进化简史：从造技术到建系统

2019-08-02 14:13 来源：A5专栏我来投稿撤稿纠错

　一键部署OpenClaw

美国知名投资机构Mangrove Capital Partners在《2019年语音技术报告》中，给语音下了一个宏大的定义——欢迎下一代的颠覆者。

可如果把时间倒退10年，大部分人还是会把“语音交互”定义为一场豪赌，都知道赢面比较大，却迟迟不敢下注，因为概念的落地还没有一个明确的期限，当正确的路径被走通之前，永远都存在不确定性。

不过在此前的80年里，人类对语音技术的希望从未破灭，就像是在迷宫中找寻出口一般，一遍又一遍的试错，最终找到了正确的路径。

01 漫长的孩提时代

“小度小度，明天天气怎么样?”“小度小度，我想听周杰伦的歌” “小度小度，我想给爸爸打电话”，诸如这样的指令每天有几亿次发生，哪怕是牙牙学语的孩子也可以和智能音箱进行流畅的对话。

但在50年前，就职于贝尔实验室的约翰·皮尔斯却在一封公开信中为语音识别下了“死亡诊断书”：就像是把水转化为汽油、从海里提取金子、彻底治疗癌症，让机器识别语音几乎是不可能实现的事情。

彼时距离首个能够处理合成语音的机器出现已经过去30年的时间，距离发明出能够听懂从0到9语音数字的机器也过去了17个年头。这两项创造性的发明均出自贝尔实验室，但语音识别技术的缓慢进展，几乎消磨掉了所有人的耐心。

在20世纪的大部分时间里，语音识别技术就像是一场不知方向的长征，时间刻度被拉长到了10年之久：

上世纪60年代，时间规整机制、动态时间规整和音素动态跟踪三个关键技术奠定了语音识别发展的基础；

上世纪70年代，语音识别进入了快速发展的阶段，模式识别思想、动态规划算法、线性预测编码等开始应用；

上世纪80年代，语音识别开始从孤立词识别系统向大词汇量连续语音识别系统发展，基于GMM-HMM的框架成为语音识别系统的主导框架；

上世纪90年代，出现了很多产品化的语音识别系统，比如IBM的Via-vioce系统、微软的Whisper系统、英国剑桥大学的HTK系统；

但在进入21世纪后，语音识别系统的错误率依然很高，再次陷到漫长的瓶颈期。直到2006年Hiton提出用深度置信网络初始化神经网络，使得训练深层的神经网络变得容易，从而掀起了深度学习的浪潮。

只是在2009年之前70年左右的漫长岁月里，中国在语音识别技术上大多处于边缘角色，1958年中国科学院声学所利用电子管电路识别10个元音，1973年中国科学院声学所开始了计算机语音识别，然后是863计划开始开始组织语音识别技术的研究，直到百度、科大讯飞等中国企业的崛起。

02 跃进的少年时代

2010年注定是语音识别的转折点。

前一年Hinton和D.Mohamed将深度神经网络应用于语音的声学建模，在小词汇量连续语音识别数据库TIMIT上获得成功。

从2010年开始，微软的俞栋、邓力等学者首先尝试将深度学习技术引入到语音识别领域，并确立了三个维度的标准：

数据量的多少，取决于搜索量、使用量的规模；

算法的优劣，顶级人才扮演者至关重要的角色；

计算力的水平，关键在于FPGA等硬件的发展。

在这三个维度的比拼中，谁拥有数据上的优势，谁聚集了顶级的人才，谁掌握着强大的计算能力，多半会成为这场较量中的优胜方。于是在语音识别的“少年时代”，终于开始了跃进式的发展，刷新纪录的时间间隔被压缩到几年到几个月。

2016年语音识别的准确率达到90%，但在这年晚些时候，微软公开表示语音识别系统的词错率达到了5.9%，等同于人类速记同样一段对话的水平，时任百度首席科学家吴恩达发声称百度在2015年末即达到了同等水平；2017年6月，Google表示语音识别的准确率达到95%，而早在10个月前的时候，李彦宏就在百度世界大会上宣布了百度语音识别准确率达到97%的消息。

一个有些“奇怪”的现象，为何在语音识别领域缺少前期积累的中国，可以在极短的时间内实现从无到有，甚至有后发先至的趋势？可以找到的原因有二：

首先，传统专利池被挑战，竞争回归技术。

语音识别进入深度学习时代，并没有背负太多的专利包袱，中美玩家们有机会站在了同一起跑线上。

比如2013年百度的语音识别技术还主要基于mel-bank的子带CNN模型；2014年就独立发展出了Sequence Discriminative Training(区分度模型)；2015年初推出基于LSTM –HMM的语音识别，年底发展出基于LSTM-CTC的端对端语音识别系统；2016年和2017年将Deep CNN模型和 LSTM、CTC结合起来，2018年推出Deep Peak 2模型，2019年又发布了流式多级的截断注意力模型……

而在不久前结束的百度AI开发者大会上，百度还推出了针对远场语音交互的鸿鹄芯片，可以实现远场阵列信号实时处理，高精度超低误报语音唤醒以及离线语音识别。

其次，语音识别进入到生态化、产业化的时代。

在Google发布了语音开放API后，对Nuance产生了致命的打击，不仅仅是Google在产品和技术上的优势，也来自于Google强大的人工智能技术生态，例如以TensorFlow为代表的深度学习引擎。

同样的逻辑，百度在2015年就开放了上百项智能语音专利，与海尔、京东、中兴通讯、中国普天等组建了智能语音知识产权产业联盟，同时PaddlePaddle、Warp-CTC、百度大脑的开放和开源，对中文语音识别有着潜移默化的影响，成为了中国语音识别领域标准的制定者。

除此之外，2018年公布的第二十届中国专利评审结果中，百度的语音、机器翻译、无人车相关三项专利获奖，成为人工智能领域至今为止在国内专利界获得的最高级别政府奖项。

其中“语音专利”涉及的新语音识别模型——采用深度学习算法在24时内对数以百亿级的大规模数据进行实时分析，高性能计算，令语音识别技术的准确率达97%，解决了语音识别领域关键性、共性的技术难题，被MIT 评为“2016年全球十大突破技术”。

语音识别的话语权，逐渐从大学和机构的实验室转移到了微软、Google、百度等商业巨擘手中，并最终迎来了跃进式发展的十年。或许语音技术的“少年时代”还有很长的路要走，但终究走出了漫漫黑夜，瞥见了黎明的曙光。

03 语音交互的“诱惑”

需要思考这样一个问题：为何语音识别在80年的技术长征中，出现了这样或那样质疑的声音，仍然对语音识别如此痴迷？前70年的答案可能是希望，最近10年的驱动因素则可能是庞大蛋糕的诱惑。

先来盘点一下2010年后语音识别走向应用的三个过程：

一问一答阶段：彼时语音识别在自我学习、逻辑推理方面还有很大欠缺，不能针对同一对话内容展开深入交互，比如你问天气如何，系统会自动调取天气数据，接着问明天天气如何？会调取明天的天气预报。但今天天气和明天天气之间都是各自独立的对答，不能连接贯通，也未能形成逻辑。

有问有答阶段：语音识别开始在问答的基础上有了对话的属性，对应的产品有苹果的Siri、Google Now、百度语音、微软Cortana等等，彼时仍然停留在“人机对话”，处于机器被动接受人类输入大量数据阶段，不能更深层次理解人的意思，无法实现自学习、自成长，与机器的语音交流还不能像人一样自然。

自然交互阶段：从语音识别到语音交互，不仅有问有答，人工智能还可以根据上下文逻辑和环境信息，作出个性化的决策或推荐。典型的场景就是智能音箱，亚马逊、谷歌、百度、阿里等无不开始在智能音箱领域发力，语音识别入口正逐渐撬开内容、IoT等生态，已然是AI入口之争的主战场。

印象深刻的是，在《向往的生活》第三季中，几乎每期嘉宾都会主动和小度对话，然后被智能音箱流畅的对答所折服，对比一些智能手机里还处于有问有答状态的语音助手，自然的语音交互阶段已经提前到来。

不难从中看到这样的变化：刚开始的语音识别还处于造技术的阶段，可能仅仅是为了新奇炫酷的体验，但随着智能音箱、语音助手等软硬件应用的普及，解决了一个又一个棘手的痛点，语音交互开始有了成为下一代人机交互方式的可能，进而打造一个以语音为入口的全新操作系统。

可以借鉴脑学界“感官侏儒”的说法，手和舌头是人类最灵活的两个部分，从DOS系统到施乐的图形化界面再到移动设备的触控交互，无不依赖于手的交互。

而当语音技术和人工智能同时走向成熟，或许就像《2019语音技术报告》中所描述的：“语音交互扭转了以往人机交互的存在形态，用户与设备间基于语音交互的全新关系开始搭建，与之前互联网向移动互联网过渡一样，其对底层平台的全新需求也在酝酿当中。”

甚至不排除语音优先的可能，亚马逊Alexa首席科学家Rohit Prasad曾直言：“我们希望消除与客户的摩擦，最自然的方式就是通过声音。它不仅仅是一个能提供一堆结果的搜索引擎，它还会告诉你答案。”言外之意，语音技术可以帮助人们摆脱文字和屏幕的束缚，提供一种升维的用户体验。

04 巨头们的新战场

接过前辈们的衣钵，Google、百度等巨头并非没有“私心”。因为在语音交互成为人机交互主流方式的同时，也在重构现有的商业规则。正如李彦宏在《人民日报》发表的文章中所说，“作为引领此次变革的战略性技术，人工智能对世界的影响将远超以往历次工业革命。”

比如在触控交互的世界里，人们与服务的连接通过这样或那样的App，生活中也出现了社交、搜索、电商、资讯等领域的诸多超级App，但语音交互是典型的服务找人，诸如搜索、电商、社交、广告等主流的盈利路径都将被重构，乃至颠覆现有的市场格局。

一个典型的例子，不管是国内百度的小度助手，还是Google Assistant、亚马逊Alexa，早已不再满足于“语音助手”的身份，在功能上开始向语音对话、内容服务、IoT设备管理等方向演进，在场景上覆盖了家庭、汽车、酒店等等，以语音交互为切入的生态系统早已有了雏形，成为触控之外的又一个杀手级应用。

同时语音的颠覆性也逐渐浮出水面，原先想要听一首歌、看一部电影的时候，需要在手机上打开特定的App，手动输入歌曲或电影的名字，在一连串的搜索结果中找到自己需要的。语音交互的场景下，只需要发出相应的语音指令，设备就可以自动播放你想要的歌曲或视频，不仅在效率上指数级提升，也在改变音乐或视频服务方的地位，从前端走向后台的内容供应商。

截止到目前，几乎所有的互联网巨头都对语音势在必得，尤其是在炙手可热的智能音箱赛道上，国外出现了谷歌、亚马逊、苹果等巨头林立的局面，国内的百度、阿里、小米直接拿到了90%的市场份额，并且有着一家独大的趋势。

在美国，亚马逊占据了智能音箱64.6%的份额，而在国内，StrategyAnalytics、Canalys和IDC无不在报告中指出了这样的事实：去年才正式发力智能音箱的百度，早已成为世界前三、中国第一的品牌。

特别是随着语音技术的持续深入，巨头们也开始改变自己的战略路线，百度就是一个特例。

2016年就在内部形成了“夯实移动基础，决胜AI时代”的驱动战略，并确立了AIfirst的公司架构，相继打造了包括语音技术、图像技术、视频技术、NLP、知识图谱、数据智能以及深度学习等技术研线的AIG，涵盖全自动驾驶、智能辅助驾驶以及车联网业务的AIG，业务范围涉及小度助手、智能音箱等软硬件语音技术的SLG。

如此，语音技术不仅为人机交互提供了新的可能，也在一定程度上成了巨头从互联网跨向AI赛道的“引路人”。

如果以2019年作为新起点的话，语音识别已经从双翼飞机时代进入喷气式飞机时代，下一步的目标无疑就是成为火箭级的产品。幸运的是，在这场决定着未来科技生态的战场上，中国的玩家不再缺席，而是从跟随者变成了领导者。

作者 | Alter 公众号 | Alter聊IT 作者系独立撰稿人，微信号imhefei

申请创业报道，分享创业好点子。点击此处，共同探讨创业新机遇！

相关标签: 智能语音; 语音交互

Aqara绿米粉丝节携手IBR建科院开启绿色未来体验之旅

11月26日，Aqara绿米粉丝节“AqaraMagicDay”顺利举办完成，Aqara绿米携手IBR(深圳市建筑科学研究院股份有限公司，下简称“建科院”)给粉丝开启了一场绿色未来体验之旅，让粉丝们感受到双碳时代大背景下的绿色建筑魅力。在粉丝的见证下，双方也启动了面向未来、探索绿色生活的全面战略合作

标签：

智能语音

智能家居
懂你所想，给你所需，会“读心术”的小艺圈粉了我

我们对语音助手有怎样的期待?当然要够聪明，最好还会“读心术”，无需多说一句就能懂我所想，主动提供服务。这并非不可能。在11月4日举行的华为开发者大会2022上，华为面向外界分享了鸿蒙生态的最新成果

标签：

智能语音
AI Show|无锡地铁全场景智能语音客服中心正式上线，乘客直呼：太方便！

2022年10月1日，无锡地铁三阳广场站正式上线了“全场景智能语音客服中心”服务功能，为乘客提供集语音咨询、语音购票、自助票务处理、自助退单程票、远程音视频在线求助等“一条龙”自助服务，方便又快捷。

标签：

智能语音

智能客服系统
Interspeech 2022 | 探索非自回归跨语言语音合成中的音色解耦问题

引言语音合成(Text-to-Speech,TTS)是指文字转语音相关技术。随着人工智能技术的发展，TTS的声学模型和声码器模型效果都在不断提高，单一语言在数据量足够的情况下已经可以合成较高品质的语音

标签：

智能语音
云知声技术实力再获认可：2篇论文参展国际语音顶会INTERSPEECH 2022

2022年9月18日-22日，全球语音领域顶级会议INTERSPEECH2022在韩国仁川举办。“云知声-上师大自然人机交互”联合实验室携提出的关于声音事件检测、单通道语音增强方向的2篇论文参会。

标签：

人工智能

语音交互

90%的AI中间商会消失：Google封号只是第一枪

AI的“免费红利期”结束了，未来18个月，靠“API倒卖”的公司，会成片消失。这个导火索就是最近Google的一轮封号导致的，随着封号风波的结束，这也标志着AI行业【收租时代】来了。2月封号潮：高付费用户被一锅端一周前，Google开始大规模封号，付着250美金月费的人，账号说没就没，Gmail、Y
DeepSeek V4意外泄露，原生多模态

来自路透社等媒体报道的最新消息：DeepSeek未发布的V4Lite模型遭泄露上网，华为获得早期访问权限，英伟达被排除在外。近期，谷歌发表了2篇Multi-Agent协作学习新论文有网友提供了更加详细的信息，DeepSeekV4Lite：100万token上下文窗口（V3为128K）内置原生多模态推
中国开启AI全民化元年，BAT同入“亿级俱乐部”

春节红包会结束，但AI已融入数亿人生活里
开源模型再突破，全球AI行业的拐点要来了？

性能、商业、生态诠释开源模型的最佳姿态
看懂黄仁勋CES演讲，就看懂 AI 接下来十年的走向

2026年刚开年，全世界最狂的那个男人，穿着他的经典黑皮衣，在CES舞台上发出了未来十年的信号。他搞了个“能吃饱套餐”：6个包子+一碟小菜+一碗粥=肉包子套餐，这样以后你只要买一个套餐就能吃饱了。(Rubin平台)同时他们店里还免费提供的筷子、勺子、蘸料、酱油、醋、水果、零食等等。(开放10万亿语言
GDPS2025赛场直击！开普勒大黄蜂助力华理斩获搬运赛项桂冠

12月12日-14日，2025全球开发者先锋大会暨国际具身智能技能大赛（GDPS2025）于上海张江科学会堂举行，大会以具身智能竞技为核心，融合了技术比拼、产业展示与科普体验，为全球观众呈现出具身智能的现在与未来。上海开普勒机器人有限公司（以下简称"开普勒机器人"）携明星产品K2"大黄蜂"亮相，并参

标签：

GDPS

2025

弈动 Dynamic·数智跃迁博弈无界｜2025TechWorld智慧安全大会在京召开

在数字化与智能化深度交织的时代浪潮中，安全的边界不断延展，技术的演进正引领产业迈向新一轮变革。10月24日，以“弈动Dynamic·数智跃迁博弈无界”为主题的2025TechWorld智慧安全大会在北京盛大召开。来自国家部委、院士学者、高校科研机构和企业的权威专家与业界精英齐聚北京，共议AI安全、数

标签：

弈动
瓯江论道：AI赋能绿色发展

2025年10月25日，2025世界青年科学家峰会之人工智能（AI）融合创新发展论坛在浙江温州成功举办。本次论坛由国际院士科创中心主办，中国投资协会能源投资专业委员会、温港院士科创中心承办，中国电工技术学会、中科先进技术温州研究院与温州市电力工程学会提供支持，以“瓯江论道-AI赋能绿色发展”为主题，

标签：

ai技术
AI云“分野”：阿里云们“卖铲”，火山引擎奇袭“MaaS”

AI云“分野”：阿里云们“卖铲”，火山引擎奇袭“MaaS”

标签：

阿里巴巴
未来5年，中国AI的“大洗牌”和“内循环”

我觉得我们AI的目标是：从芯片设计到软件生态，全链路自主开发，建立可控的世界级AI体系。所以这是俺对未来5年中国AI圈的展望和判断。(1)2026年，英伟达造车、国产开车26年国产芯片会在推理和垂直场景上发力。以DeepSeek为代表，大多数AI大模型会以软件弥补硬件不足，所以训练和推理分开，训练就