1. 创业头条
  2. 前沿领域
  3. 企业应用
  4. 正文

智能语音应用的场景和关键点

 2019-01-07 20:41  来源:用户投稿  我来投稿 撤稿纠错

  【推荐】海外独服/站群服务器/高防

我们平时接触到的和语音相关的应用,不管展现形式是什么,其核心是自动语音识别(Automatic Speech Recognition,ASR),很多时候再加上和其他技术的整合应用。由于声音文件无法直接处理,所以通过 ASR 将声音转成文字之后再处理,比如语音输入法、自动语音应答、语音搜索。通俗地说,就是将语音转化成文字(STT),过程正好和语音合成(TTS)相反。接下来要讨论的是呼叫中心在哪些场景中可以使用 ASR?如何使用才能让语音应用更加实际可用。

一、语音识别技术的发展

语音识别技术的应用由来已久,但一直没有出现很成熟的应用。准确地识别一段语音,是件非常困难的事。除了不同语种的差别,即使是汉语,在加入方言、口音、同音字词这些因素后也会产生海量的语音要识别,直到最近几年,自动语音识别又开始成为热门的讨论内容,一个又一个呼叫中心开始立项。推动自动语音识别应用发展的力量主要来自两个方面,一方面是技术的进步,另一方面是持久的训练。

在更快的计算能力和更高级的算法出现以前,自动语音识别技术的应用必然被限制在实验室中或者某一狭窄的领域。幸运的是计算能力一直在提升,上世纪 80 年代又出现了人工神经网络算法,所以应对千变万化的语音才变得越来越容易,也因此而诞生了今天众多的智能语音应用。

技术进步是持久训练得以产生效果的基础,因为当计算机没有能力处理海量数据的时候,再多的训练产生再多的数据也是没有用的。自动语音识别技术应用发生质的变化依赖于计算能力和算法这些基础软硬件的升级换代,这取决于基础科学技术领域的进步。你是不是联想到《三体》小说中关于基础物理的观点?基础物理学的发展才能推动科技发生质的飞跃,基础物理学没有新的发现和理论,科学技术就会被限制在某个层次上。

当年在英语环境下应用不错的产品,到了中文环境就水土不服,那就是因为训练太少。相信很多人在了解某个语音产品时,问得最多的一个热点问题就是“方言识别效果怎么样?”,以前得到的答案是“只支持普通话”,后来得到的答案是“可以支持带口音的普通话”。其中的差别在哪?不是技术发生什么变化了,只是训练的多了,见识的语音足够多了。经过训练的自动语音识别应用和10年前确实不可同日而语了,如果再抛开那些表示语气的字词,对句子核心意思的翻译准确率应该已经很不错了。

现在,自动语音识别的相关应用要有好的表现,还得像过去的几年一样,要不断去训练训练再训练,不同地域口音方言的训练、不同行业专业词汇的训练、不同声音采样率精度的训练。自动语音识别哪家投入的针对性训练多、优化多,哪家的应用表现就好。一句话, 听多识广,总能优化,也总要优化。这就是从应用发展的角度理解自动语音识别技术应用。

与对待智能机器人的态度相类似,更经济的做法是把自动语音识别应用在有限的业务范围内,焦点放在“要识别什么”,而不是“还有什么不能识别”。比如,手机上的用于识别操作指令,效果就不错,因为要识别的内容被限定在某个特定的范围内。分析一下你的业务,其实要识别的有价值的内容应该也不会很多很多吧。而且,大多数的业务,识别语音并不需要很高很高的准确率。这就为今天自动语音识别技术实际应用到业务中创造了机会。字符识别(OCR)是一个很好的可以类比的例子,从普遍性来说 OCR 还是不成熟的,在中文领域甚至难于 ASR,但最近停车场应用在车牌识别方面却非常普遍。

下面就具体说说呼叫中心一些和自动语音识别相关的应用场景。

二、第一类应用,简单指令或有限字词的识别

IVR 导航是一个最普遍的应用,该应用可以根据客户所说的地址自动播报电话号码,如今我们用语音查询保费、导航 IVR 菜单、语音查询账单,在内容上的难度要低于地址查询,因为地址涉及到的字词更多。这类应用还有一个特征,是单次互动,没有复杂的交流过程,所以使用语音识别产品把语音转成文字,再加一些简单的关键词理解,可能就上线应用了,本身技术难度不大。

如果和其他系统融合再深入些,有两个场景是可以考虑的。

其一,关键词辅助指引。在人工和客户通话过程中,系统自动根据预设的关键字词调取相关的知识库内容展示在页面上,大大提高了座席获取知识库知识的效率,尤其是在知识被碎片化成 FAQ 的情况下。如果有比较好的智能机器人支持,效果当然更加不凡。这类应用逐渐开展的做法,可以是设置需要识别的字词过滤,这样可以把少量已知或准确率高的知识和对话联动起来,避免大量低准确率或无效的知识联动干扰。目前还鲜有看到这方面的应用,不过我个人很期待这样的应用产生,因为实际上没有什么技术难题了。

这种场景其实和早期语音识别厂商大力推荐的应用相同,只不过前面提到过那时的卖点是促进销售。那时的基本逻辑是,系统根据客户所说的内容自动提示座席该客户存在什么样的销售机会,而不依赖于“座席要足够敏感”“座席不要忘了说”。随之带来的是销售业绩上升,给企业带来更好的收益。

也许是“画”出来的收益太大了,所以厂商一般都狮子大开口,把产品卖得很贵。也有可能是因为产品进入市场急于收回研发成本而很贵,才“画”了这样的收益卖点。现在看起依然还是贵的,特别是那些按 License 卖产品,有些产品还有录音系统问题,也许要改造甚至更换录音系统,投入不小。不过,已经有厂商愿意用利益分成的方法进行合作,多少可以说明厂商对这一应用还是有信心。其二,辅助录入。客户说的话,直接转化成文字变成需要录入的内容,节省一些录入时间,或者避免座席录入的随意性和不可控性。这其实和语音输入法是一样的应用,只不过语音换成了对方客户的声音,或者客户和座席两个人的声音对于这样的扩展应用,个人认为没有什么技术障碍,只要评估投入是否能接受,投入产出比是否达到了预期。应用实施刚开始,效果一般不会好的,因为语音输入法的应用对象和场景具有普遍性和广泛性,在某一专业领域会水土不服,接下来要做的就是“专业训练”。

三、第二类应用,智能语音问答

智能语音问答是自动语音识别最普遍的期望。注意,是期望,而不是应用,因为要实现机器与人交流,关键既有语音识别,也有智能问答,是两者的组合。智能问答现在面临的理解难题和题库难题,决定了智能问答的还不够成熟,所以组合起来的应用更是困难重重。智能语音问答通常让人联想到呼入业务,这确实很难。如果从“有限内容”去匹配业务,就会发现在回访(呼出)业务上应用智能语音问答,也许是个不错的选择。由于回访业务中内容是预先设定的,整个沟通过程中涉及的内容大多数情况下是有限的,相当于是限定了自动语音识别的字词范围和智能机器人的问答范围,所以智能语音问答应付这种场景会容易很多。更简单一些的回访,即使不用任何智能问答的成分,仅去识别客户回答中的某些关键词,通常就能满足业务需要了,这就变成了实质上的“有限字词的识别”。所以回访是自动语音识别在智能语音问答类应用中比较普遍的场景回访是自动语音识别在智能语音问答类应用中比较普遍的场景,已经有不少公司实际开展了这样项目。

最近在很多公司力推的 APP 上,也开始使用自动语音识别,帮助客户跳转到相关的页面,回答客户的一些问题。如何理解、回答,和电话渠道面临的困难是一样的,优势在于 16K 的采样率有助于提高音转字准确率。

四、第三类应用,智能语音分析

对呼叫中心来说,除了大量的结构化数据之外,还有大量的录音,大家都认为这既是一个需要监控的高风险地带,也是一个值得挖掘的宝藏。可是传统的技术,无法对录音进行分析,只能靠人工去听,费时费力,分析的样本不够典型,质检覆盖率非常低。自动语音识别可以很好地解决这个问题,当应用语音识别将语音转成文字之后,就存在了全量检查、分析的可能。

最常见的应用场景是语音质检,具体做法是使用语音识别产品,将录音转化为文字,再从这些文字中寻找需要检查的内容。这是一种事后的应用,细化一下有三种用途:

第一种,提高问题检出率。通常用于合规检查,该说的话是不是说了,不该说的话是不是真的没说。最先应用的是在电话销售、电话回访业务中,这类业务往往有很多监管的要求,以避免各种误导,撇清各种责任。还有用于日常质检中检查有没有出现服务禁语惹了客户。语音质检理论上可以做到检查所有录音,达到 100%的覆盖,这样就不用担心传统方法未抽检到的录音中是否有座席心存侥幸。

第二种,辅助提升技能。质检的定位越来越被认可是帮助座席提升技能而不是扣分的,所以语音质检也要去找出录音中座席不熟练、生疏的内容,帮助其提升技能。比如重复多次的话、停顿、不能适当主导通话内容,等等。

第三种,分析来电原因。对客户关注热点的变化,一般通过来电原因来分析。记录每一通电话的来电原因,传统的做法是话后小结,缺点是增加处理时间,而且不纳入质检差错的话后小结,通常不准。先进一点的做法,根据操作页面自动记录,只是有时候遇到同页面不同原因时,不容易细分,同时也受座席操作影响。这些做法还有一个共同缺点是,不管是服务小结还是页面点击,来电原因都是预设的,对历史数据不能按新的来电原因统计。而通过语音来分析,准确性会提升,而且对历史录音也可以按照新的维度去统计分析。

上述三种用途,总的来说效果一般,原因在于音转字之后的非结构化文本分析,并不是现在这些语音识别厂商的强项。所以,如果要把语音质检用好,出路可能是和大数据分析产品或专业的非结构化数据分析产品整合。在此之前,靠着一些“包含/不包含”“且/或”表达式建立起来的模型,终究应用范围和效果有限。

五、第四类应用,实时语音监控分析

因为实时语音监控分析和事后的质检分析是不一样的,这通常是国外供应商经常描绘、却很少见的应用场景,这是一种事中的应用。双十一各大电商都有大大的电子显示屏实时展现各种交易数据,看的一清二楚,人家那是结构化数据,好办。想象一下,如果呼叫中心的监控大屏,也有一个大大的电子显示屏,实时展现现在来电客户所关注的问题,能够马上发现一些热点的异常变化,是不是很酷?这样就不用在来电量发生突然变化的时候,去问座席“有什么异常吗/有什么来电特别多吗”了,也不用等不怎么准不怎么细化的来电语音分析了;也不用等事后的语音分析了。反应,自然变快了。只是,这样的应用所带来的好处和所投入的成本相比,似乎还很不般配。反过来因为没有太多的应用,没经过大量的实战,投入使用的效果也不见得好。

六、对于自动语音识别技术应用的一些建议

除了“有限范围”这一原则外,在现有条件下有些办法可以有助于提高自动语音识别应用的效果。

其一,专业产品整合。除了自动语音识别本身不断训练、优化,提高音转字准确率之外,还要和其他关键关联方整合应用。智能语音对话的关键关联方是智能机器人,那要么智能语音产品中包含了这样的功能,要么和智能机器人组合起来使用。智能语音分析的关键关联方是大数据分析产品,各种分析模型。很多时候,这些整合使用的关联方好坏,甚至更为重要。

其二,搭建自有系统。有些厂商是提供云服务的方式进行语音识别的,优点是便宜,缺点是云端的模型优化不能完全按照自有的业务特点进行(私有云除外)。而自有系统,就可以按照一些专业、特有词汇进行语料库的训练优化,现在识别准确率方面的利器就是训练。如果有厂商驻场优化,那是更好。

其三,预先筛选录音。一套语音识别系统还是很贵的,尤其是一套自有的系统,越多的转译录音时长,越多的服务器资源。而如果能通过结构化的数据筛选条件,先找出符合条件的录音,再去转译的话,录音时长就少多了,也不用担心随机采集到的样本量太少。比如电销只取销售成功的录音,因为销售失败的不是监管重点;比如只取某某产品的客户录音转译,因为这个产品的咨询、投诉是当前监控的重点。

其四,在压缩前转译。通常为节省存储,电话录音会被压缩得很厉害。由于电话本身 8K 采样率已经先天不足,再被压缩的话语音识别效果就更差了。所以可以采取先高品质暂存,转译后再压缩。

其五,双声道录音。这个大家都明白的,把客户录音和座席录音分开来,就可以做更多、更精准的分析。

一方面,自动语音识别的应用开展得如火如荼,很多人都非常乐观,大步迈进;另一方面,连李开复都在三亚演讲提及语音识别还是不成熟的技术,他看到的一个一个计划 99%会死掉。从两个方面去理解,要期望解决所有问题,那还不成熟;要解决特定问题,还是可以乐观的。用专业人士的话说就是“先做好垂直领域,解决单领域的实际问题”,金融是人工智能短期看好的领域,中期才轮到医疗,无人驾驶就是长期了。

实际上,长期来说又是对计算能力、算法的基础软硬件提出的挑战。再一次联系《三体》小说中的观点,基础物理学的发展才能推动科技发生质的飞跃,基础物理学没有新的发现和理论,科学技术就会被限制在某个层次上。立足当下,用好现有产品;展望未来,期待下一次质的飞跃。

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关文章

  • CRM SaaS增长焦虑笼罩,Salesforce、纷享销客欲破局

    头部CRMSaaS厂商的运营情况往往综合反映行业的景气程度,是整个行业的晴雨表。

  • SW-LIMS条码管理助力钢铁行业可视化、电子化流程管理

    近年来,面对日益激烈的市场竞争,如何实现生产原料和成品的高品质、低成本、高效率逐渐成为大部分公司的目标。条码管理技术的开发和应用可以使企业从传统的生产管理方式中彻底走出来,向数智化转型的方向迈进。北京三维天地科技股份有限公司在实验室数智化领域具有丰富的行业经验,致力于为客户提供信息化整体解决方案及相

  • 信雅达助力人行数字供应链金融服务平台电子保函系统建设

    2024年1月22日,人行数字供应链金融服务平台电子保函模块正式上线运行,全国首批共5家试点行于日前完成验收与上线工作。信雅达以专业、丰富的系统建设经验助力3家试点行(宁波银行、南京银行、徽商银行)电子保函系统建设,并于1月21日前完成系统上线准备工作,1月22日与人行同步正式上线系统运行,其中宁波

  • 打造工业4.0的5G+边缘云服务产业生态,艾灵完成1.5亿元A轮融资

    近日,艾灵完成1.5亿元A轮融资。本轮投资方包括英特尔资本、深圳天使母基金直投基金、TCL中新融创、浦耀信晔、住友商事亚洲资本、新电投资(SingtelInnov8)、华迪创投。据透露,艾灵本轮融资将用于深化工业5G、工业智能等核心产品的研发,加速在更多行业落地推广,推动重要行业市场大规模商用落地,

    标签:
    云服务
    5g技术
  • 企业级软件的2024,在进化中遇见“新机遇”

    十年,是时间的标尺,也是发展的刻度。从2012年的2.5万亿到2022年的10.81万亿,国内软件产业收入增长了近4倍。特别是近两年,得益于数字经济的蓬勃发展,软件产业更是迎来了黄金期。在外部数字化需求的拉动下,产业内生动力强劲,服务商不断地加速产品进化、生态布局,以寻求新一轮增长。然而,一半是火焰

    标签:
    企业管理软件
  • 越来越“贵”的企业支出,该怎么省?

    如今,很多CFO开始关注企业支出数据,希望通过精细化洞察分析,实现有效降本。但由于费用支出零散化、报销流程繁琐化、支出管理割裂化,导致支出数据分析无抓手,数据沉淀不完整导致分析结果无效。暗藏的合规行为如果没有及时发现,还会带来经营风险。分贝通近期发布《一体化支出管理案例集·春季版》,收录了智能制造、

    标签:
    企业管理软件
  • 全面普及后 ,你需要了解这样的数电票

    从推出全电发票、改名数电票,到十多种票面样式落实;从少数城市试点,到试点城市覆盖全国范围......从“以票治税”到“以数治税”,数电票作为“金税四期”工程的重要载体,已进入全面普及时代!全面普及后,数电票的概念、数电票与纸质票的区别、如何开具和收票等......每家企业更要做到心中有数。01数电票

    标签:
    电子发票
  • 国产化攻坚战 企业管理软件的机遇在哪里?

    摘要:在信息技术快速发展和数字化浪潮席卷全球的今天,中国企业正积极迎接数字化转型的挑战和机遇。在这个过程中,国产化替代正成为中国企业提升信息安全性、实现自主创新与可控性、降低采购成本的重要路径。“从企业自身来讲,在推进精益化管理的进程中,实现软件产品的升级迭代,一方面,要汲取国外先进软件的精髓,另一

    标签:
    企业管理软件
  • 赋能“一带一路”高质量发展 | 凌锐蓝信助力新能源行业客户实现全球化布局

    伴随“一带一路”的高质量发展,国内企业“走出去”在海外的布局越来越广,出海产业也不断升级迭代,对信息化、数据化建设也越来越重视,信息技术的不断发展在企业全球化布局起着至关重要的作用。凌锐蓝信为用户的全球业务提供高性能、安全和稳定的数智网络服务,消除用户的关键任务应用程序和全球实时流量的连接和延迟问题

  • 青云科技云研报·金融 |打造数字化新生态,全球业务支撑平台为何是关键?

    随着全球化的加速和数字技术的普及,金融业面临着日益激烈的市场竞争和不断变化的客户需求。为了更好地适应新时代的要求,不少金融企业,特别是银行,正在积极推进数字化改革,打造一个全球业务支撑平台,以提高运营效率、降低成本、提升服务质量。根据德勤《DigitalBankMaturity2022》报告显示,银

    标签:
    数字化技术

编辑推荐