智能语音应用的场景和关键点

2019-01-07 20:41 来源：用户投稿我来投稿撤稿纠错

我们平时接触到的和语音相关的应用，不管展现形式是什么，其核心是自动语音识别(Automatic Speech Recognition，ASR)，很多时候再加上和其他技术的整合应用。由于声音文件无法直接处理，所以通过 ASR 将声音转成文字之后再处理，比如语音输入法、自动语音应答、语音搜索。通俗地说，就是将语音转化成文字(STT)，过程正好和语音合成(TTS)相反。接下来要讨论的是呼叫中心在哪些场景中可以使用 ASR?如何使用才能让语音应用更加实际可用。

一、语音识别技术的发展

语音识别技术的应用由来已久，但一直没有出现很成熟的应用。准确地识别一段语音，是件非常困难的事。除了不同语种的差别，即使是汉语，在加入方言、口音、同音字词这些因素后也会产生海量的语音要识别，直到最近几年，自动语音识别又开始成为热门的讨论内容，一个又一个呼叫中心开始立项。推动自动语音识别应用发展的力量主要来自两个方面，一方面是技术的进步，另一方面是持久的训练。

在更快的计算能力和更高级的算法出现以前，自动语音识别技术的应用必然被限制在实验室中或者某一狭窄的领域。幸运的是计算能力一直在提升，上世纪 80 年代又出现了人工神经网络算法，所以应对千变万化的语音才变得越来越容易，也因此而诞生了今天众多的智能语音应用。

技术进步是持久训练得以产生效果的基础，因为当计算机没有能力处理海量数据的时候，再多的训练产生再多的数据也是没有用的。自动语音识别技术应用发生质的变化依赖于计算能力和算法这些基础软硬件的升级换代，这取决于基础科学技术领域的进步。你是不是联想到《三体》小说中关于基础物理的观点?基础物理学的发展才能推动科技发生质的飞跃，基础物理学没有新的发现和理论，科学技术就会被限制在某个层次上。

当年在英语环境下应用不错的产品，到了中文环境就水土不服，那就是因为训练太少。相信很多人在了解某个语音产品时，问得最多的一个热点问题就是“方言识别效果怎么样?”，以前得到的答案是“只支持普通话”，后来得到的答案是“可以支持带口音的普通话”。其中的差别在哪?不是技术发生什么变化了，只是训练的多了，见识的语音足够多了。经过训练的自动语音识别应用和10年前确实不可同日而语了，如果再抛开那些表示语气的字词，对句子核心意思的翻译准确率应该已经很不错了。

现在，自动语音识别的相关应用要有好的表现，还得像过去的几年一样，要不断去训练训练再训练，不同地域口音方言的训练、不同行业专业词汇的训练、不同声音采样率精度的训练。自动语音识别哪家投入的针对性训练多、优化多，哪家的应用表现就好。一句话，听多识广，总能优化，也总要优化。这就是从应用发展的角度理解自动语音识别技术应用。

与对待智能机器人的态度相类似，更经济的做法是把自动语音识别应用在有限的业务范围内，焦点放在“要识别什么”，而不是“还有什么不能识别”。比如，手机上的用于识别操作指令，效果就不错，因为要识别的内容被限定在某个特定的范围内。分析一下你的业务，其实要识别的有价值的内容应该也不会很多很多吧。而且，大多数的业务，识别语音并不需要很高很高的准确率。这就为今天自动语音识别技术实际应用到业务中创造了机会。字符识别(OCR)是一个很好的可以类比的例子，从普遍性来说 OCR 还是不成熟的，在中文领域甚至难于 ASR，但最近停车场应用在车牌识别方面却非常普遍。

下面就具体说说呼叫中心一些和自动语音识别相关的应用场景。

二、第一类应用，简单指令或有限字词的识别

IVR 导航是一个最普遍的应用，该应用可以根据客户所说的地址自动播报电话号码，如今我们用语音查询保费、导航 IVR 菜单、语音查询账单，在内容上的难度要低于地址查询，因为地址涉及到的字词更多。这类应用还有一个特征，是单次互动，没有复杂的交流过程，所以使用语音识别产品把语音转成文字，再加一些简单的关键词理解，可能就上线应用了，本身技术难度不大。

如果和其他系统融合再深入些，有两个场景是可以考虑的。

其一，关键词辅助指引。在人工和客户通话过程中，系统自动根据预设的关键字词调取相关的知识库内容展示在页面上，大大提高了座席获取知识库知识的效率，尤其是在知识被碎片化成 FAQ 的情况下。如果有比较好的智能机器人支持，效果当然更加不凡。这类应用逐渐开展的做法，可以是设置需要识别的字词过滤，这样可以把少量已知或准确率高的知识和对话联动起来，避免大量低准确率或无效的知识联动干扰。目前还鲜有看到这方面的应用，不过我个人很期待这样的应用产生，因为实际上没有什么技术难题了。

这种场景其实和早期语音识别厂商大力推荐的应用相同，只不过前面提到过那时的卖点是促进销售。那时的基本逻辑是，系统根据客户所说的内容自动提示座席该客户存在什么样的销售机会，而不依赖于“座席要足够敏感”“座席不要忘了说”。随之带来的是销售业绩上升，给企业带来更好的收益。

也许是“画”出来的收益太大了，所以厂商一般都狮子大开口，把产品卖得很贵。也有可能是因为产品进入市场急于收回研发成本而很贵，才“画”了这样的收益卖点。现在看起依然还是贵的，特别是那些按 License 卖产品，有些产品还有录音系统问题，也许要改造甚至更换录音系统，投入不小。不过，已经有厂商愿意用利益分成的方法进行合作，多少可以说明厂商对这一应用还是有信心。其二，辅助录入。客户说的话，直接转化成文字变成需要录入的内容，节省一些录入时间，或者避免座席录入的随意性和不可控性。这其实和语音输入法是一样的应用，只不过语音换成了对方客户的声音，或者客户和座席两个人的声音对于这样的扩展应用，个人认为没有什么技术障碍，只要评估投入是否能接受，投入产出比是否达到了预期。应用实施刚开始，效果一般不会好的，因为语音输入法的应用对象和场景具有普遍性和广泛性，在某一专业领域会水土不服，接下来要做的就是“专业训练”。

三、第二类应用，智能语音问答

智能语音问答是自动语音识别最普遍的期望。注意，是期望，而不是应用，因为要实现机器与人交流，关键既有语音识别，也有智能问答，是两者的组合。智能问答现在面临的理解难题和题库难题，决定了智能问答的还不够成熟，所以组合起来的应用更是困难重重。智能语音问答通常让人联想到呼入业务，这确实很难。如果从“有限内容”去匹配业务，就会发现在回访(呼出)业务上应用智能语音问答，也许是个不错的选择。由于回访业务中内容是预先设定的，整个沟通过程中涉及的内容大多数情况下是有限的，相当于是限定了自动语音识别的字词范围和智能机器人的问答范围，所以智能语音问答应付这种场景会容易很多。更简单一些的回访，即使不用任何智能问答的成分，仅去识别客户回答中的某些关键词，通常就能满足业务需要了，这就变成了实质上的“有限字词的识别”。所以回访是自动语音识别在智能语音问答类应用中比较普遍的场景回访是自动语音识别在智能语音问答类应用中比较普遍的场景，已经有不少公司实际开展了这样项目。

最近在很多公司力推的 APP 上，也开始使用自动语音识别，帮助客户跳转到相关的页面，回答客户的一些问题。如何理解、回答，和电话渠道面临的困难是一样的，优势在于 16K 的采样率有助于提高音转字准确率。

四、第三类应用，智能语音分析

对呼叫中心来说，除了大量的结构化数据之外，还有大量的录音，大家都认为这既是一个需要监控的高风险地带，也是一个值得挖掘的宝藏。可是传统的技术，无法对录音进行分析，只能靠人工去听，费时费力，分析的样本不够典型，质检覆盖率非常低。自动语音识别可以很好地解决这个问题，当应用语音识别将语音转成文字之后，就存在了全量检查、分析的可能。

最常见的应用场景是语音质检，具体做法是使用语音识别产品，将录音转化为文字，再从这些文字中寻找需要检查的内容。这是一种事后的应用，细化一下有三种用途：

第一种，提高问题检出率。通常用于合规检查，该说的话是不是说了，不该说的话是不是真的没说。最先应用的是在电话销售、电话回访业务中，这类业务往往有很多监管的要求，以避免各种误导，撇清各种责任。还有用于日常质检中检查有没有出现服务禁语惹了客户。语音质检理论上可以做到检查所有录音，达到 100%的覆盖，这样就不用担心传统方法未抽检到的录音中是否有座席心存侥幸。

第二种，辅助提升技能。质检的定位越来越被认可是帮助座席提升技能而不是扣分的，所以语音质检也要去找出录音中座席不熟练、生疏的内容，帮助其提升技能。比如重复多次的话、停顿、不能适当主导通话内容，等等。

第三种，分析来电原因。对客户关注热点的变化，一般通过来电原因来分析。记录每一通电话的来电原因，传统的做法是话后小结，缺点是增加处理时间，而且不纳入质检差错的话后小结，通常不准。先进一点的做法，根据操作页面自动记录，只是有时候遇到同页面不同原因时，不容易细分，同时也受座席操作影响。这些做法还有一个共同缺点是，不管是服务小结还是页面点击，来电原因都是预设的，对历史数据不能按新的来电原因统计。而通过语音来分析，准确性会提升，而且对历史录音也可以按照新的维度去统计分析。

上述三种用途，总的来说效果一般，原因在于音转字之后的非结构化文本分析，并不是现在这些语音识别厂商的强项。所以，如果要把语音质检用好，出路可能是和大数据分析产品或专业的非结构化数据分析产品整合。在此之前，靠着一些“包含/不包含”“且/或”表达式建立起来的模型，终究应用范围和效果有限。

五、第四类应用，实时语音监控分析

因为实时语音监控分析和事后的质检分析是不一样的，这通常是国外供应商经常描绘、却很少见的应用场景，这是一种事中的应用。双十一各大电商都有大大的电子显示屏实时展现各种交易数据，看的一清二楚，人家那是结构化数据，好办。想象一下，如果呼叫中心的监控大屏，也有一个大大的电子显示屏，实时展现现在来电客户所关注的问题，能够马上发现一些热点的异常变化，是不是很酷?这样就不用在来电量发生突然变化的时候，去问座席“有什么异常吗/有什么来电特别多吗”了，也不用等不怎么准不怎么细化的来电语音分析了;也不用等事后的语音分析了。反应，自然变快了。只是，这样的应用所带来的好处和所投入的成本相比，似乎还很不般配。反过来因为没有太多的应用，没经过大量的实战，投入使用的效果也不见得好。

六、对于自动语音识别技术应用的一些建议

除了“有限范围”这一原则外，在现有条件下有些办法可以有助于提高自动语音识别应用的效果。

其一，专业产品整合。除了自动语音识别本身不断训练、优化，提高音转字准确率之外，还要和其他关键关联方整合应用。智能语音对话的关键关联方是智能机器人，那要么智能语音产品中包含了这样的功能，要么和智能机器人组合起来使用。智能语音分析的关键关联方是大数据分析产品，各种分析模型。很多时候，这些整合使用的关联方好坏，甚至更为重要。

其二，搭建自有系统。有些厂商是提供云服务的方式进行语音识别的，优点是便宜，缺点是云端的模型优化不能完全按照自有的业务特点进行(私有云除外)。而自有系统，就可以按照一些专业、特有词汇进行语料库的训练优化，现在识别准确率方面的利器就是训练。如果有厂商驻场优化，那是更好。

其三，预先筛选录音。一套语音识别系统还是很贵的，尤其是一套自有的系统，越多的转译录音时长，越多的服务器资源。而如果能通过结构化的数据筛选条件，先找出符合条件的录音，再去转译的话，录音时长就少多了，也不用担心随机采集到的样本量太少。比如电销只取销售成功的录音，因为销售失败的不是监管重点;比如只取某某产品的客户录音转译，因为这个产品的咨询、投诉是当前监控的重点。

其四，在压缩前转译。通常为节省存储，电话录音会被压缩得很厉害。由于电话本身 8K 采样率已经先天不足，再被压缩的话语音识别效果就更差了。所以可以采取先高品质暂存，转译后再压缩。

其五，双声道录音。这个大家都明白的，把客户录音和座席录音分开来，就可以做更多、更精准的分析。

一方面，自动语音识别的应用开展得如火如荼，很多人都非常乐观，大步迈进;另一方面，连李开复都在三亚演讲提及语音识别还是不成熟的技术，他看到的一个一个计划 99%会死掉。从两个方面去理解，要期望解决所有问题，那还不成熟;要解决特定问题，还是可以乐观的。用专业人士的话说就是“先做好垂直领域，解决单领域的实际问题”，金融是人工智能短期看好的领域，中期才轮到医疗，无人驾驶就是长期了。

实际上，长期来说又是对计算能力、算法的基础软硬件提出的挑战。再一次联系《三体》小说中的观点，基础物理学的发展才能推动科技发生质的飞跃，基础物理学没有新的发现和理论，科学技术就会被限制在某个层次上。立足当下，用好现有产品;展望未来，期待下一次质的飞跃。

申请创业报道，分享创业好点子。点击此处，共同探讨创业新机遇！

相关标签: 智能语音; 智能语音电销机器人

Aqara绿米粉丝节携手IBR建科院开启绿色未来体验之旅

11月26日，Aqara绿米粉丝节“AqaraMagicDay”顺利举办完成，Aqara绿米携手IBR(深圳市建筑科学研究院股份有限公司，下简称“建科院”)给粉丝开启了一场绿色未来体验之旅，让粉丝们感受到双碳时代大背景下的绿色建筑魅力。在粉丝的见证下，双方也启动了面向未来、探索绿色生活的全面战略合作

标签：

智能语音

智能家居
懂你所想，给你所需，会“读心术”的小艺圈粉了我

我们对语音助手有怎样的期待?当然要够聪明，最好还会“读心术”，无需多说一句就能懂我所想，主动提供服务。这并非不可能。在11月4日举行的华为开发者大会2022上，华为面向外界分享了鸿蒙生态的最新成果

标签：

智能语音
AI Show|无锡地铁全场景智能语音客服中心正式上线，乘客直呼：太方便！

2022年10月1日，无锡地铁三阳广场站正式上线了“全场景智能语音客服中心”服务功能，为乘客提供集语音咨询、语音购票、自助票务处理、自助退单程票、远程音视频在线求助等“一条龙”自助服务，方便又快捷。

标签：

智能语音

智能客服系统
Interspeech 2022 | 探索非自回归跨语言语音合成中的音色解耦问题

引言语音合成(Text-to-Speech,TTS)是指文字转语音相关技术。随着人工智能技术的发展，TTS的声学模型和声码器模型效果都在不断提高，单一语言在数据量足够的情况下已经可以合成较高品质的语音

标签：

智能语音
优音通信受邀参与数字政务论坛，致力于打造政府数字化转型“重要窗口”

2022年首届数字政务论坛近期在重庆圆满举行。此次活动由中国信息协会数字经济专业委员会、客户世界机构主办,希莫标准组织CC-CMM、中国呼叫中心与电子商务发展研究院、全球客户中心产业联盟、首席客户官百人会等协办。

标签：

数字经济

智能语音

别急着给中国Robotaxi泼冷水

小马智行们，来到Robotaxi成熟前的最后关口
吴林林专访郭玲丽：投入100亿支持AI发展

2025国际人工智能程序设计精英挑战赛（IAEPC）在香港中文大学成功举办。来自深圳的学生吴林林作为主办方记者团成员，采访了大会嘉宾：香港特区政府立法会议员、IAEPC联合发起人郭玲丽议员。在吴林林的采访中，郭玲丽认为：在举办AI大赛、AI论坛以及吸引国际科技青年人才方面，香港具有独特的优势。郭玲丽
LTD枢纽云:信创“全面替换”门户、党群、经营管理类软件产品

信创即信息技术创新，是指通过自主研发、技术创新等方式，实现信息技术的自主可控，降低对外部技术的依赖，提高国家信息安全保障能力。
助力企业跑出数智升级加速度，828 B2B企业节系列直播火热开启

第三届828B2B企业节正在全国如火如荼进行中。作为中国首个以“提升企业数字化能力、助力企业稳健快速成长”为目标的B2B企业节，828B2B企业节由华为云联合上万伙伴共同发起，目的是为了打通数字化供需天堑，让科技企业和有数转智改需求的中小企业能在一站购平台上完成对接，实现成就好生意，成为好企业的节日
赵峰：提升销售领导力，实现业绩跨越式发展

当今世界经济局势复杂多变，企业面临着越来越激烈的市场竞争。在生产方式不断随着科技水平的发展而提升的同时，各个行业企业产品之间的差距越来越小，企业单纯依靠产品很难在如今的市场竞争中取胜。因此，如何为企业寻求更加富有竞争力的销售能力提升办法，成为了企业普遍更加看重的问题。赵峰，现任北京正信启德管理顾问有
穿越周期：解码2024年零售快消行业数字发展机密（附白皮书下载）

零售经营者正处在一个历史性的转折点上。一方面，中国的零售产业已经发展到门店渠道饱和的状态，优胜劣汰会是零售产业未来一段时间内的主旋律；一方面，中国消费者的价值观出现了显著变化，零售快消市场已经进入“性价比时代”。为此，百望云总结服务诸多零售快消经营者的经验，集合产品与技术，推出了数字化解决方案，并取

固态电池市场大爆发前夜这家电池企业打响第一枪

受限于三元材料以及磷酸铁锂电池在能量密度、安全性、循环寿命等多方面的限制，纯电汽车产品始终无法完成对传统燃油车的致命一击。在此背景下，优势明显的固态电池被寄予厚望，众多车企以及电池企业纷纷加码这一细分领域，以求占领技术制高点。目前，业界普遍将全固态电池小批量量产上车的时间节点定在2027年左右，大规
重磅矢量智控官网正式启用！

嘿，朋友们！矢量智控（南京）科技有限公司官网www.ivcon.cn8月31日正式启用啦！这将是矢量智控的重要里程碑，期待为AI+工业与制造业带来更深入、更全面的服务。矢量智控作为南栖仙策旗下工业智能决策品牌，专注为高端装备和复杂流程工业提供自主智能控制产品和方案。产品积淀前沿AI技术我们根据产品的
科沃斯全球首款恒压活水洗地机器人亮相，地面清洁能力跨时代提升？

北京时间9月2日凌晨，科沃斯机器人CEO钱程的一条朋友圈引起业内关注，抢先揭示了科沃斯将在2024德国柏林IFA展推出其地宝X系列新品。从简短的内容中可以窥见，科沃斯内部对于这款新品的信心和期待。从钱程朋友圈流出的图片来看，猜测科沃斯此次新品将重点围绕地面顽垢清洁的提升以及二次污染的问题解决。截至上
地球山微电子与AP合作的第二代MEMS扬声器取得重大进展

经过多年坚持不懈的努力，以色列AudioPixels公司和中国地球山微电子公司双方联合研制的数字像素级MEMS扬声器技术取得重大突破。据AudioPixels官方发布消息显示：新研制的第二代MEMS扬声器（GEN-II）所达到的声压级（SPL或“响度”）已被验证符合其商业化可行性的数字声音重建（DS