AI语音已逐步渗透到了大众的生活中,但是刻板的对话方式似乎还困扰着广大用户。
全双工这个概念对人工智能行业从业者来讲,并不陌生。谈到全双工,此前,谷歌Duplex帮助人们通过电话预约餐厅和理发师的功能,带来了有趣的观感体验,在I/O 2019上,谷歌宣布对Duplex进行重大扩展。
谷歌Duplex
在推进对话交互智能的市场化应用过程中,思必驰同样发现,自然流畅的对话体验、类人化的交互体验成为了绝对的刚需。
因此,具备以上两个特点的全双工语音交互技术,成为了关注的焦点。思必驰联合创始人、首席科学家俞凯,早在剑桥大学期间主导开发了全双工口语对话系统,2010年参加国际对话系统研究挑战赛时,获得可控测试的冠军,这也是世界上最早的全双工端到端口语对话系统之一。区别在于,与现在广泛作用于物联网智能终端设备的全双工交互系统相比,当时的主要应用,在基于电话信道的人机交互方面。
全双工是个系统工程
作为系统工程,全双工需要综合利用语音语言技术的各个模块,实现前后联动,例如,其对前端信号处理、AEC回声消除有强相关依赖,实时上传的音频对噪声处理、音频音质要求较高,同时,作为系统工程,全双工涉及到全链路语音交互的各个模块,其同样需要对识别后的识别信息、语义信息等进行综合判断及处理,并做出决策。
半双工&全双工
因此,全双工交互技术的提升涉及到对话系统的各个模块,不仅各个模块的功能需要提升,模块间的配合能力更需要完善。
思必驰在推进全双工交互技术的市场落地过程中,发现了一个更有效的事情,“全双工+语义拒识”让交互体验更加优化。全双工固然重要,但语义拒识算法,却往往容易被人忽视。
语义拒识算法
受限于语音技术的发展,现有的对话系统受噪声条件的影响非常明显,缺乏稳健性。在对话系统中,说话人的检测和基于语义的拒识是其非常重要的组成部分。当说话人的语音模糊不清或者语音数据不在已有训练集合中时,识别系统会产生识别错误,从而影响对话系统的识别和理解效果。
在半双工状态下,环境噪声以及周围人声容易引起无效输入,对话系统或错误响应,或给出“没听懂”的呆板播报,并且播报时不能打断,十分影响交互效率。全双工状态下,对无实际语义的输入则不会给出响应。
拒识算法主要目的是去除没有语义意义的音频片段,节省后端处理的计算资源,提高整个对话系统的交互鲁棒性,提升用户使用体验,避免错误的语义理解引发错误的反馈到用户端。
思必驰语义拒识算法
思必驰拒识算法能够解决的很多噪声和无语义意义的问题,例如用户无意义的嗯啊声、背景噪声与闲聊声、纯音乐声、声音幅度小、各种笑声尖叫声,无厘头声音等。
语义拒识对全双工对话交互而言至关重要,可以说,拒识做不好,全双工的效果往往也会差强人意。
思必驰全双工交互技术,更强的持续对话能力
思必驰全双工交互技术,让更流畅的多轮对话成为常态,说法更自由。
l连续交互免唤醒
过去,半双工状态下,用户的跨领域交互每次交互都需要重新唤醒,于是,免唤醒技术成为改善体验的焦点。近些年,免唤醒技术已不是新鲜方案,有的采用“便捷唤醒词定制”,有的采用“唤醒+识别理解一体化”方案,但都存在着诸如“漏字”这类一系列的风险:
“你好小驰明天天气如何?”
漏字通常出现在唤醒词和后面识别文本连接的地方,也就是句子中段。当系统在识别过程中漏掉“明”字时,就会造成时间信息不清晰(“明天”还是“今天”?),系统无法明确用户的真正时间指令。而现在,思必驰全双工技术方案可实现一次唤醒,在多个领域持续交互,跨领域指代消解。
l动态断句
在日常生活中,很多用户说话会出现拖音现象,说话过程中,有思考/间断的过程,因此会出现很多半截句,简单粗暴的调整语音端点检测阈值的做法往往会带来对话卡顿的现象。
半双工状态下,对话系统设定了固定的停顿检测时间,用户还未表达完整句子稍微一犹豫/停顿,会被语音端点检测系统误断句,造成输入内容不完整,机器无法理解。
思必驰全双工交互技术则在云端根据用户说话节奏和内容,忽略无意义噪声,动态断句,既能保证用户输入的完整性,又能保证较快的响应速度。在回复方面,则可以适时的回复“嗯”等接话话术,系统打破了对用户说话规则的要求,用户可以按照自身的说话习惯来进行交流,交互过程更加人性化。
l语义打断,避免误打断
在半双工状态下,语音合成播放时很难进行打断,在一些终端设备上,行业内普遍采用的打断方式是“快捷唤醒词打断”,说法十分固定,无法泛化,需要定制多个唤醒词,当用户想打断的时候,必须要重复唤醒词,容易发生误打断。同时,对话打断对环境有较高要求,在有噪声的时候,也容易被误打断。
思必驰全双工交互技术可在对话的过程中,实时语义打断,不容易出现误打断,同时,对没有语义的输入,则不会打断语音合成播放。
这一技术在智能客服的领域将会大大改善消费者的体验,消费者可以随时随刻打断机器人客服的无效对话信息,进行信息咨询。
如何判断什么时候接话,什么时候反问,机器需要有智能决策的能力,这也是思必驰全双工技术的一大特性:主动交互。根据用户表达状态,如“正常说话”、“主动沉默”、“无意义表达”等状态,来给予相应的主动反馈。
思必驰全双工交互技术支持智能判断,尤其是能够主动打断用户的复杂冗长表达,主动打破沉默僵局,实现流畅自然的用户口语交流习惯。当识别到用户正常表达时,机器等待说完后答复反馈;当用户大段无意义输入或表达过于复杂时,会主动打断并提示反问;在交互过程中,当用户沉默时,则可以主动发起对话交互。
同时,经过反复打磨和优化,该技术对系统功耗几乎无影响,实现低功耗下的最优质体验。
思必驰全双工语音交互
实践,是检验真理的唯一标准
目前,思必驰全双工交互技术已展开全线方案渗透,包括AIOT方案和企业信息智能服务,深入作用汽车、家居、电子、教育、医疗、政务、金融、物流、酒店等场景。以音箱方案为例,接入全双工系统后,这款“智能助理设备终端”将更似真人助理,更具备人类亲和力的特质和逻辑思维能力,整个对话体验更加自然流畅。
思必驰业务场景
云端全双工中控大脑持续优化
针对全双工交互技术,思必驰将持续优化云端全双工中控大脑,持续进行策略优化、场景优化、单点技术模块优化,将交互体验做的更好。
未来,多模态交互将会让全双工交互技术发挥更大的能量,配合声纹识别、图像处理、虹膜识别等技术,过滤无用信息,人机交互会变得更加贴合人性,或许不远的未来,你甚至分不清与你隔屏对话的,到底是人还是机器人。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
2023年7月6日,第六届世界人工智能大会(WAIC2023)在上海开幕,“人工智能大模型”是本届大会的备受瞩目的话题,据悉,在昇腾AI大模型的创新研发中,华为联手26家行业领军企业,组建了一支协同创新的“AI明星队”,云天励飞作为中国人工智能企业的杰出代表,和互联网大厂、运营商、科研院所等优秀团队
这几个月来,以ChatGPT为代表的生成式AI展现出的能力令世界惊叹。自从2016年AlphaGo战胜李世石掀起了一波AI浪潮后,AI仿佛已经沉寂了很久,ChatGPT的横空出世就如同一束耀眼的光芒,让AI这个名词重回C位。过去在AI1.0时代,主要通过训练模型来实现图像识别、声音识别、语言处理等特
文:互联网江湖作者:志刚2023年的IoT需要一个新故事。6月29日,涂鸦智能在开发者大会上,发布了企业级战略PaaS2.0,希望通过一个平台+四大开发服务,建立起IoT生态。对于这场发布会,市场的态度是积极的。美东时间6月29日收盘,涂鸦智能美股股价上涨5.6%,来到1.87美元/股。近日股价稳定
2020年底,王慧文在朋友圈写下这句话时,外界本以为这位伴随中国互联网发展而持续创业20年的人物即将告别创业舞台。但是,一个曾经多次创业,正值壮年的互联网老将心中的创业热情是难以熄灭的。
我不是危言耸听,现在全球的AI巨头都在做MCP,毫不夸张的说:谁能把MCP做起来,谁就拥有AI生态控制权,谁就是AI圈的老大。你们有没有发现,MCP在2025年初开始特别火爆,互联网技术大厂都在强推MCP。(1)阿里云百炼搞了个MCP平台,提供50+预置MCP服务。不过大都只面向阿里系产品。(2)腾
2025国际人工智能程序设计精英挑战赛(IAEPC)在香港中文大学成功举办。作为主办方之一,欧美同学基金会理事长李军接受了大赛主持人艾诚采访。在采访中,李军认为IAEPC不仅是一场“冠军中的冠军”对决,更是一次全球AI人才的线下交流盛会。大赛“史无前例”的吸引了全球青年科技精英汇聚香港,更加推动和普
2025国际人工智能程序设计精英挑战赛(IAEPC)在香港中文大学成功举办。作为大赛发起人方之一及裁判委员会负责人,施韩原与杜瑜皓接受了大赛主持人艾诚采访。裁判委员会主席施韩原分享了此次大赛的亮点,IAEPC首次引入创新赛道,探索选手如何与AI合作进行答题。裁判委员会副主席杜瑜皓认为,选手最终目标并
2025国际人工智能程序设计精英挑战赛(IAEPC)在香港中文大学成功举办。来自深圳的学生吴林林作为主办方记者团成员,采访了大赛冠军选手之一。在吴林林的采访中,选手认为与来自全球的参赛者交流是自己学到的最重要的一课。在科技与AI之前,选手们可以平等、开放、友好的交流。以下是采访实录(有删节):吴林林
2025国际人工智能程序设计精英挑战赛(IAEPC)在香港中文大学成功举办。来自深圳的学生吴林林作为主办方记者团成员,采访了大会嘉宾:全国政协委员、香港特别行政区立法会议员、香港中文大学工程学院副院长、IAEPC联合发起人黄锦辉先生。在吴林林的采访中,黄锦辉教授勉励年轻人要像懂中文和英语一样懂AI,
昨天新出了一个AI,据说比DeepSeek还牛,而截止到今早,已经有10万人在排队申请Manus邀请码了,而且它邀请码已经炒到10万了。这是北京的一家人工智能公司蝴蝶科技,创始人是一名来自华中科技大学的90后毕业生肖弘,突然向全球宣布:世界上第一款真正的人工智能、通用智能体产品出现了,名叫Manus
谣言肆虐,擦亮眼睛
苹果16弄了两个版本,一个是专门给中国人用的,准备用百度的AI,还要交钱。第二个是全世界都可以用的,用了ChatGPT,包括台湾、香港、澳门都可以用。以后都这样了。好,问题就出在这,苹果和百度的合作出现问题了,新闻连起来看,才能明白其中含义。新闻一:苹果正在和腾讯、字节初步接洽,考虑将二者的AI模型
“技术日新月异,人类生活方式正在快速转变,这一切给人类历史带来了一系列不可思议的奇点。我们曾经熟悉的一切,都开始变得陌生。”计算机之父约翰·冯·诺依曼曾这样说到。