1. 创业头条
  2. 前沿领域
  3. 人工智能
  4. 正文

全双工就够了?思必驰聊更强的持续对话能力

 2019-12-05 16:08  来源:互联网  我来投稿 撤稿纠错

  【推荐】海外独服/站群服务器/高防

AI语音已逐步渗透到了大众的生活中,但是刻板的对话方式似乎还困扰着广大用户。

全双工这个概念对人工智能行业从业者来讲,并不陌生。谈到全双工,此前,谷歌Duplex帮助人们通过电话预约餐厅和理发师的功能,带来了有趣的观感体验,在I/O 2019上,谷歌宣布对Duplex进行重大扩展。

谷歌Duplex

在推进对话交互智能的市场化应用过程中,思必驰同样发现,自然流畅的对话体验、类人化的交互体验成为了绝对的刚需。

因此,具备以上两个特点的全双工语音交互技术,成为了关注的焦点。思必驰联合创始人、首席科学家俞凯,早在剑桥大学期间主导开发了全双工口语对话系统,2010年参加国际对话系统研究挑战赛时,获得可控测试的冠军,这也是世界上最早的全双工端到端口语对话系统之一。区别在于,与现在广泛作用于物联网智能终端设备的全双工交互系统相比,当时的主要应用,在基于电话信道的人机交互方面。

全双工是个系统工程

作为系统工程,全双工需要综合利用语音语言技术的各个模块,实现前后联动,例如,其对前端信号处理、AEC回声消除有强相关依赖,实时上传的音频对噪声处理、音频音质要求较高,同时,作为系统工程,全双工涉及到全链路语音交互的各个模块,其同样需要对识别后的识别信息、语义信息等进行综合判断及处理,并做出决策。

半双工&全双工

因此,全双工交互技术的提升涉及到对话系统的各个模块,不仅各个模块的功能需要提升,模块间的配合能力更需要完善。

思必驰在推进全双工交互技术的市场落地过程中,发现了一个更有效的事情,“全双工+语义拒识”让交互体验更加优化。全双工固然重要,但语义拒识算法,却往往容易被人忽视。

语义拒识算法

受限于语音技术的发展,现有的对话系统受噪声条件的影响非常明显,缺乏稳健性。在对话系统中,说话人的检测和基于语义的拒识是其非常重要的组成部分。当说话人的语音模糊不清或者语音数据不在已有训练集合中时,识别系统会产生识别错误,从而影响对话系统的识别和理解效果。

在半双工状态下,环境噪声以及周围人声容易引起无效输入,对话系统或错误响应,或给出“没听懂”的呆板播报,并且播报时不能打断,十分影响交互效率。全双工状态下,对无实际语义的输入则不会给出响应。

拒识算法主要目的是去除没有语义意义的音频片段,节省后端处理的计算资源,提高整个对话系统的交互鲁棒性,提升用户使用体验,避免错误的语义理解引发错误的反馈到用户端。

思必驰语义拒识算法

思必驰拒识算法能够解决的很多噪声和无语义意义的问题,例如用户无意义的嗯啊声、背景噪声与闲聊声、纯音乐声、声音幅度小、各种笑声尖叫声,无厘头声音等。

语义拒识对全双工对话交互而言至关重要,可以说,拒识做不好,全双工的效果往往也会差强人意。

思必驰全双工交互技术,更强的持续对话能力

思必驰全双工交互技术,让更流畅的多轮对话成为常态,说法更自由。

l连续交互免唤醒

过去,半双工状态下,用户的跨领域交互每次交互都需要重新唤醒,于是,免唤醒技术成为改善体验的焦点。近些年,免唤醒技术已不是新鲜方案,有的采用“便捷唤醒词定制”,有的采用“唤醒+识别理解一体化”方案,但都存在着诸如“漏字”这类一系列的风险:

“你好小驰明天天气如何?”

漏字通常出现在唤醒词和后面识别文本连接的地方,也就是句子中段。当系统在识别过程中漏掉“明”字时,就会造成时间信息不清晰(“明天”还是“今天”?),系统无法明确用户的真正时间指令。而现在,思必驰全双工技术方案可实现一次唤醒,在多个领域持续交互,跨领域指代消解。

l动态断句

在日常生活中,很多用户说话会出现拖音现象,说话过程中,有思考/间断的过程,因此会出现很多半截句,简单粗暴的调整语音端点检测阈值的做法往往会带来对话卡顿的现象。

半双工状态下,对话系统设定了固定的停顿检测时间,用户还未表达完整句子稍微一犹豫/停顿,会被语音端点检测系统误断句,造成输入内容不完整,机器无法理解。

思必驰全双工交互技术则在云端根据用户说话节奏和内容,忽略无意义噪声,动态断句,既能保证用户输入的完整性,又能保证较快的响应速度。在回复方面,则可以适时的回复“嗯”等接话话术,系统打破了对用户说话规则的要求,用户可以按照自身的说话习惯来进行交流,交互过程更加人性化。

l语义打断,避免误打断

在半双工状态下,语音合成播放时很难进行打断,在一些终端设备上,行业内普遍采用的打断方式是“快捷唤醒词打断”,说法十分固定,无法泛化,需要定制多个唤醒词,当用户想打断的时候,必须要重复唤醒词,容易发生误打断。同时,对话打断对环境有较高要求,在有噪声的时候,也容易被误打断。

思必驰全双工交互技术可在对话的过程中,实时语义打断,不容易出现误打断,同时,对没有语义的输入,则不会打断语音合成播放。

这一技术在智能客服的领域将会大大改善消费者的体验,消费者可以随时随刻打断机器人客服的无效对话信息,进行信息咨询。

如何判断什么时候接话,什么时候反问,机器需要有智能决策的能力,这也是思必驰全双工技术的一大特性:主动交互。根据用户表达状态,如“正常说话”、“主动沉默”、“无意义表达”等状态,来给予相应的主动反馈。

思必驰全双工交互技术支持智能判断,尤其是能够主动打断用户的复杂冗长表达,主动打破沉默僵局,实现流畅自然的用户口语交流习惯。当识别到用户正常表达时,机器等待说完后答复反馈;当用户大段无意义输入或表达过于复杂时,会主动打断并提示反问;在交互过程中,当用户沉默时,则可以主动发起对话交互。

同时,经过反复打磨和优化,该技术对系统功耗几乎无影响,实现低功耗下的最优质体验。

思必驰全双工语音交互

实践,是检验真理的唯一标准

目前,思必驰全双工交互技术已展开全线方案渗透,包括AIOT方案和企业信息智能服务,深入作用汽车、家居、电子、教育、医疗、政务、金融、物流、酒店等场景。以音箱方案为例,接入全双工系统后,这款“智能助理设备终端”将更似真人助理,更具备人类亲和力的特质和逻辑思维能力,整个对话体验更加自然流畅。

思必驰业务场景

云端全双工中控大脑持续优化

针对全双工交互技术,思必驰将持续优化云端全双工中控大脑,持续进行策略优化、场景优化、单点技术模块优化,将交互体验做的更好。

未来,多模态交互将会让全双工交互技术发挥更大的能量,配合声纹识别、图像处理、虹膜识别等技术,过滤无用信息,人机交互会变得更加贴合人性,或许不远的未来,你甚至分不清与你隔屏对话的,到底是人还是机器人。

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关标签
ai技术
智能语音

相关文章

  • 汇聚中国AI顶尖力量 云天励飞参与华为AI大模型联合创新

    2023年7月6日,第六届世界人工智能大会(WAIC2023)在上海开幕,“人工智能大模型”是本届大会的备受瞩目的话题,据悉,在昇腾AI大模型的创新研发中,华为联手26家行业领军企业,组建了一支协同创新的“AI明星队”,云天励飞作为中国人工智能企业的杰出代表,和互联网大厂、运营商、科研院所等优秀团队

    标签:
    ai技术
  • 用友大易:迈入AI招聘2.0时代,让人力资源回归本质

    这几个月来,以ChatGPT为代表的生成式AI展现出的能力令世界惊叹。自从2016年AlphaGo战胜李世石掀起了一波AI浪潮后,AI仿佛已经沉寂了很久,ChatGPT的横空出世就如同一束耀眼的光芒,让AI这个名词重回C位。过去在AI1.0时代,主要通过训练模型来实现图像识别、声音识别、语言处理等特

    标签:
    ai技术
  • 新发布的PaaS2.0,能否助力涂鸦智能再起飞?

    文:互联网江湖作者:志刚2023年的IoT需要一个新故事。6月29日,涂鸦智能在开发者大会上,发布了企业级战略PaaS2.0,希望通过一个平台+四大开发服务,建立起IoT生态。对于这场发布会,市场的态度是积极的。美东时间6月29日收盘,涂鸦智能美股股价上涨5.6%,来到1.87美元/股。近日股价稳定

    标签:
    ai技术
  • 大模型难掩AI制药的悲伤:越过山丘,无人等候

    美团曾经的二号人物王慧文对标OpenAI的创业项目光年之外,以20亿卖给美团,再度引发市场对大模型的热议。

    标签:
    ai技术
  • 拾起王慧文的AI梦,美团冲向“光年之外”?

    2020年底,王慧文在朋友圈写下这句话时,外界本以为这位伴随中国互联网发展而持续创业20年的人物即将告别创业舞台。但是,一个曾经多次创业,正值壮年的互联网老将心中的创业热情是难以熄灭的。

    标签:
    ai技术
  • CPU上跑AI?从推荐系统的演进看CPU的崛起

    在信息和数据极度繁荣的当下,人工智能正在通过各种方式影响着人类生活。其中,AI推荐系统作为互联网时代最关键的伴生技术之一,正在帮助人类梳理着各种纷繁杂乱的信息,让资源实现更精准的调配,让一切变得井然有序。推荐系统:数字营销的重要引擎当你到一座旅游城市,不知道当地有什么美食时,AI推荐系统在手机上的本

  • 李彦宏放话:百度AI大模型绝不抢开发者饭碗

    关注卢松松,会经常给你分享一些我的经验和观点。昨晚,李彦宏内部讲话称:AI大模型开源意义不大,百度绝不抢开发者饭碗。但你一定要说话算话哦,可千万别说:“我永远不做手机,谁再敢提做手机就给我走人”,结果5年后自己的手机销量排名第一。如果百度也这么干的话估计AI也没人用了。李彦宏认为:从商业模式的角度来

    标签:
    大模型
  • 具身智能潮起、巨头环伺之下,优必选如何撑起资本期待?

    AI大模型风口之下,作为“具身智能”最佳载体,人形机器人似乎即将迎来“觉醒元年”。前有马斯克巨大影响力加持之下的人形机器人Optimus亮相,后有OpenAI联合人形机器人初创公司Figure推出令人惊艳的Figure01。可以看出,AI软件和机器人硬件的结合,已经是当下科技界一大风口。乘着这样的东

  • 360 AI员工“红衣”入职事业部 承担多项安全运营工作

    近日,科技巨头360公司宣布,其全新AI员工“红衣”正式入职事业部,标志着公司向智能化、自动化方向迈出了坚实的一步。据悉,“红衣”由360安全大模型支持,具备高度智能化和自主学习能力,能够在多个领域提供高效、精准的服务。“红衣”是首位正式入职的数字安全专家,由360安全大模型支持,在安全运营工作中,

    标签:
    大模型
  • 今天起,ChatGPT无需注册就能用了!

    关注卢松松,会经常给你分享一些我的经验和观点。OpenAI宣布:从今天起,ChatGPT打开即用,无需再注册帐号和登录了!不过,免登录无法享受一些高级功能,比如分享聊天记录、自定义指令等等。松松刚测试了一下:使用ChatGPT还是需要注册登录的,但是免去了手机号验证码的环节。而且OpenAI实际开放

    标签:
    chatgpt
  • 清华学霸引爆“长文本”大战,大模型的应用前景清晰了吗?

    文|智能相对论作者|沈浪Long-LLM(长文本大模型)时代似乎来得有些突然,而引爆这场热潮的,竟是一家由清华学霸牵头的本土AI初创企业。前不久,月之暗面(MoonshotAI)公司宣布旗下对话式AI助理产品Kimi应用现已支持200万字无损上下文输入。对比去年10月份Kimi上线时仅支持的20万字

  • 不止于大模型 英特尔CPU引领智算新高度

    在算力新时代,从通用计算到智算,CPU可以做更多,价值也更加凸显。作为一种基于人工智能(AI)技术的计算方式,其含义既包含了AI,还包含了对高性能算力的要求。拥抱大模型不容易ChatGPT的横空出世拉开了AI大模型的新时代,而近期的文生视频模型SORA又让业界为之激动不已。据了解,Sora所需tok

  • AI大模型博鳌破局:端云结合,驱动新质生产力

    在“博鳌时刻”,vivo蓝心大模型等被明确定调为,是打造“新质生产力”的孕育沃土。作者|杨铭编辑|刘珊珊海阔风清,椰林葱郁中,风口上的AI大模型,站上博鳌亚洲论坛2024年年会多个主题分论坛的C位。“未来是属于AI大模型的,千行百业将被重塑或被革新挑战。”众多嘉宾、参会人士在博鳌的激昂热情,再次明确

    标签:
    大模型
  • 开发者怎么拥抱智能化浪潮?昇腾AI给出了“通关指南”

    在大模型代表的新一轮技术浪潮下,智能化转型已然是毋庸置疑的趋势,科技大厂们纷纷给出了智能化的“道法术”,大大小小的企业也开始更新认知,想要从创新中挖掘出驱动增长的新质生产力。但现实和智能化的美好愿景之间,仍然横亘着一片鲜有人涉足的“荒海”,脚下还没有坚实的路。3月23日在天津举办的昇腾AI开发者创享

    标签:
    ai技术
    ai智能
  • 8款AI视频生成产品实测,谁将成为中国Sora?

    ©自象限原创作者丨罗辑、苏奕编辑丨程心2024年开年,科技圈没有什么比Sora的出现更让人兴奋。如同ChatGPT在2023年初带来的LLM创业潮,Sora的发布也同样将视频生成模型推到了风口浪尖。科技巨头猛推产品,创业公司则乘风而上。3月13日,AI视频大模型公司爱诗科技完成亿元级人民币A1轮融资

    标签:
    ai技术
    ai智能

编辑推荐