AI语音已逐步渗透到了大众的生活中,但是刻板的对话方式似乎还困扰着广大用户。
全双工这个概念对人工智能行业从业者来讲,并不陌生。谈到全双工,此前,谷歌Duplex帮助人们通过电话预约餐厅和理发师的功能,带来了有趣的观感体验,在I/O 2019上,谷歌宣布对Duplex进行重大扩展。

谷歌Duplex
在推进对话交互智能的市场化应用过程中,思必驰同样发现,自然流畅的对话体验、类人化的交互体验成为了绝对的刚需。
因此,具备以上两个特点的全双工语音交互技术,成为了关注的焦点。思必驰联合创始人、首席科学家俞凯,早在剑桥大学期间主导开发了全双工口语对话系统,2010年参加国际对话系统研究挑战赛时,获得可控测试的冠军,这也是世界上最早的全双工端到端口语对话系统之一。区别在于,与现在广泛作用于物联网智能终端设备的全双工交互系统相比,当时的主要应用,在基于电话信道的人机交互方面。
全双工是个系统工程
作为系统工程,全双工需要综合利用语音语言技术的各个模块,实现前后联动,例如,其对前端信号处理、AEC回声消除有强相关依赖,实时上传的音频对噪声处理、音频音质要求较高,同时,作为系统工程,全双工涉及到全链路语音交互的各个模块,其同样需要对识别后的识别信息、语义信息等进行综合判断及处理,并做出决策。

半双工&全双工
因此,全双工交互技术的提升涉及到对话系统的各个模块,不仅各个模块的功能需要提升,模块间的配合能力更需要完善。
思必驰在推进全双工交互技术的市场落地过程中,发现了一个更有效的事情,“全双工+语义拒识”让交互体验更加优化。全双工固然重要,但语义拒识算法,却往往容易被人忽视。
语义拒识算法
受限于语音技术的发展,现有的对话系统受噪声条件的影响非常明显,缺乏稳健性。在对话系统中,说话人的检测和基于语义的拒识是其非常重要的组成部分。当说话人的语音模糊不清或者语音数据不在已有训练集合中时,识别系统会产生识别错误,从而影响对话系统的识别和理解效果。
在半双工状态下,环境噪声以及周围人声容易引起无效输入,对话系统或错误响应,或给出“没听懂”的呆板播报,并且播报时不能打断,十分影响交互效率。全双工状态下,对无实际语义的输入则不会给出响应。
拒识算法主要目的是去除没有语义意义的音频片段,节省后端处理的计算资源,提高整个对话系统的交互鲁棒性,提升用户使用体验,避免错误的语义理解引发错误的反馈到用户端。

思必驰语义拒识算法
思必驰拒识算法能够解决的很多噪声和无语义意义的问题,例如用户无意义的嗯啊声、背景噪声与闲聊声、纯音乐声、声音幅度小、各种笑声尖叫声,无厘头声音等。
语义拒识对全双工对话交互而言至关重要,可以说,拒识做不好,全双工的效果往往也会差强人意。
思必驰全双工交互技术,更强的持续对话能力
思必驰全双工交互技术,让更流畅的多轮对话成为常态,说法更自由。
l连续交互免唤醒
过去,半双工状态下,用户的跨领域交互每次交互都需要重新唤醒,于是,免唤醒技术成为改善体验的焦点。近些年,免唤醒技术已不是新鲜方案,有的采用“便捷唤醒词定制”,有的采用“唤醒+识别理解一体化”方案,但都存在着诸如“漏字”这类一系列的风险:
“你好小驰明天天气如何?”
漏字通常出现在唤醒词和后面识别文本连接的地方,也就是句子中段。当系统在识别过程中漏掉“明”字时,就会造成时间信息不清晰(“明天”还是“今天”?),系统无法明确用户的真正时间指令。而现在,思必驰全双工技术方案可实现一次唤醒,在多个领域持续交互,跨领域指代消解。
l动态断句
在日常生活中,很多用户说话会出现拖音现象,说话过程中,有思考/间断的过程,因此会出现很多半截句,简单粗暴的调整语音端点检测阈值的做法往往会带来对话卡顿的现象。
半双工状态下,对话系统设定了固定的停顿检测时间,用户还未表达完整句子稍微一犹豫/停顿,会被语音端点检测系统误断句,造成输入内容不完整,机器无法理解。
思必驰全双工交互技术则在云端根据用户说话节奏和内容,忽略无意义噪声,动态断句,既能保证用户输入的完整性,又能保证较快的响应速度。在回复方面,则可以适时的回复“嗯”等接话话术,系统打破了对用户说话规则的要求,用户可以按照自身的说话习惯来进行交流,交互过程更加人性化。
l语义打断,避免误打断
在半双工状态下,语音合成播放时很难进行打断,在一些终端设备上,行业内普遍采用的打断方式是“快捷唤醒词打断”,说法十分固定,无法泛化,需要定制多个唤醒词,当用户想打断的时候,必须要重复唤醒词,容易发生误打断。同时,对话打断对环境有较高要求,在有噪声的时候,也容易被误打断。
思必驰全双工交互技术可在对话的过程中,实时语义打断,不容易出现误打断,同时,对没有语义的输入,则不会打断语音合成播放。
这一技术在智能客服的领域将会大大改善消费者的体验,消费者可以随时随刻打断机器人客服的无效对话信息,进行信息咨询。
如何判断什么时候接话,什么时候反问,机器需要有智能决策的能力,这也是思必驰全双工技术的一大特性:主动交互。根据用户表达状态,如“正常说话”、“主动沉默”、“无意义表达”等状态,来给予相应的主动反馈。
思必驰全双工交互技术支持智能判断,尤其是能够主动打断用户的复杂冗长表达,主动打破沉默僵局,实现流畅自然的用户口语交流习惯。当识别到用户正常表达时,机器等待说完后答复反馈;当用户大段无意义输入或表达过于复杂时,会主动打断并提示反问;在交互过程中,当用户沉默时,则可以主动发起对话交互。
同时,经过反复打磨和优化,该技术对系统功耗几乎无影响,实现低功耗下的最优质体验。

思必驰全双工语音交互
实践,是检验真理的唯一标准
目前,思必驰全双工交互技术已展开全线方案渗透,包括AIOT方案和企业信息智能服务,深入作用汽车、家居、电子、教育、医疗、政务、金融、物流、酒店等场景。以音箱方案为例,接入全双工系统后,这款“智能助理设备终端”将更似真人助理,更具备人类亲和力的特质和逻辑思维能力,整个对话体验更加自然流畅。

思必驰业务场景
云端全双工中控大脑持续优化
针对全双工交互技术,思必驰将持续优化云端全双工中控大脑,持续进行策略优化、场景优化、单点技术模块优化,将交互体验做的更好。
未来,多模态交互将会让全双工交互技术发挥更大的能量,配合声纹识别、图像处理、虹膜识别等技术,过滤无用信息,人机交互会变得更加贴合人性,或许不远的未来,你甚至分不清与你隔屏对话的,到底是人还是机器人。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
2025年10月25日,2025世界青年科学家峰会之人工智能(AI)融合创新发展论坛在浙江温州成功举办。本次论坛由国际院士科创中心主办,中国投资协会能源投资专业委员会、温港院士科创中心承办,中国电工技术学会、中科先进技术温州研究院与温州市电力工程学会提供支持,以“瓯江论道-AI赋能绿色发展”为主题,
个人创业需要启动成本低、无需庞大团队、可快速验证、能利用个人技能或资源。这里分享适合个人创业的十个机会一.AI内容优化与本地化服务·做什么:帮助企业或个人利用AI工具(如GPT-4,Midjourney)优化内容生产流程。例如,为跨境电商撰写多语言产品描述,为小红书博主生成爆款文案,为小公司制作营销
百度AI团队今日正式推出PaddleOCR3.1版本,以突破性的多语言组合识别(MultilingualCompositionPerception,MCP)技术为核心,彻底重构复杂文档处理边界。此次升级标志着OCR领域首次实现对同一文档内任意混合语言文本的精准识别,为全球化企业、跨境业务及多元文化场
导航网站的崛起:从信息过载到精准触达随着全球AI工具数量爆发式增长(2025年已超数万款),用户面临前所未有的选择困境。传统搜索引擎的“关键词-链接”模式难以应对工具筛选的场景需求,垂直化、场景化的AI导航网站应运而生。这类平台通过聚合、评测、分类与推荐四重机制,将分散的工具资源整合为结构化入口。例
当微信公众号文章中出现一个人的名字,它会自动变成蓝色链接,点击即可查看AI生成的“个人简历”——这一微信新功能让不少用户感到被“扒光”在互联网上。近日,微信新上线的“AI搜索”功能陷入隐私泄露争议漩涡。多位网友在社交平台反映,当微信公众号推文中出现本人姓名时,名字会自动变为蓝色超链接,点击即可浏览由
4月2日,字节跳动旗下火山引擎在武汉举行的AI创新巡展上宣布,Seedance2.0API正式面向企业用户开启公测。同时,火山引擎总裁谭待在会上披露,截至今年3月,豆包大模型日均Token使用量已突破120万亿,在过去三个月内增长一倍,比2024年5月发布时增长1000倍。Seedance2.0:从
养AI小龙虾的路上,坑不少。有人被代装服务骗了钱,有人电脑中了毒,有人收到天价账单,还有人发现AI“失控”了,开始乱删文件。如果你也遇到这些糟心事,别慌。下面这份“养虾应急包”,告诉你第一时间该做什么。场景一:代装被骗,钱打水漂了花了300块找人远程装OpenClaw,结果对方收了钱就拉黑,或者装了
把AI智能体请进电脑,就像把家里所有的钥匙交给了一个陌生人。它能帮你打扫房间、整理文件,但万一它“起了坏心”,或者被坏人利用了,你的家就不再安全了。这不是危言耸听。国家互联网应急中心已经发布风险提示,指出OpenClaw的默认配置“极为脆弱”,攻击者一旦得手,能轻易获取系统控制权。微软安全团队也警告
OpenClaw火了,火到似乎人人都在讨论“养虾”。打开社交媒体,满屏都是“有了AI小龙虾,我再也不用加班了”“我让AI帮我订了机票、写周报、点外卖”之类的分享。于是,很多人开始焦虑:别人都养了,我要不要也养一只?不养是不是就落伍了?先别急。在决定养“虾”之前,我们先冷静下来,想清楚一个问题:你到底
3月31日,科技圈上演了一场现实版的“代码大逃杀”。一向以“闭源”为傲的AI巨头Anthropic,因一个低级打包失误,将旗下明星产品ClaudeCode的完整源代码拱手送给了全世界。一次59.8MB的“裸奔”事情始于一个普通的周二早晨。Web3安全公司FuzzLab的实习研究员ChaofanSho
当地时间3月31日,人工智能明星公司OpenAI宣布完成一轮规模达1220亿美元的私募融资,投后估值攀升至8520亿美元,创下全球AI企业估值新纪录,同时也刷新了科技行业私募融资的历史最高规模。本轮融资筹备历时数月,核心资金来自三家头部科技企业:亚马逊承诺投资500亿美元,英伟达与软银集团分别出资3
“我也想养一只AI小龙虾,但听说安装特别难,我连代码都不会写,怎么办?”这是最近后台收到最多的私信。面对OpenClaw这个技术门槛不低的AI智能体,很多普通人跃跃欲试,却又望而却步。于是,一个“代装”产业应运而生——远程50到300元,上门500到1500元,帮你搞定一切。但问题是:这些代装服务靠
最近,身边不少人都在讨论“养AI小龙虾”。这只叫OpenClaw的智能体,能替你自动订机票、写代码、整理文件,听起来像请了一个24小时不休息的数字员工。但问题来了——月薪五千的普通人,养得起吗?我们先算一笔账。养这只“虾”,主要有三个花钱的地方。第一笔:硬件投入。OpenClaw创始人推荐用MacM
最近,“养AI小龙虾”成了互联网上的一股热潮。这里的“小龙虾”指的是OpenClaw——一个能替你自动做事的人工智能体。订机票、写代码、整理文件,它就像一个24小时不休息的数字员工。听起来很酷,但很多人忽略了一个关键问题:这只“虾”需要你电脑的完整访问权限。也就是说,一旦你把它“请”进家门,它就能看
最近,互联网上刮起了一股“养虾热”。这个“虾”不是餐桌上的小龙虾,而是一个叫OpenClaw的AI智能体。标志是一只红色小龙虾,寓意不断蜕壳成长。OpenClaw到底是个什么东西?简单说,它是一个开源的AI智能体框架,能装进你的电脑,替你自动做事——订机票、写代码、整理文件,就像一个24小时不休息的