全双工就够了？思必驰聊更强的持续对话能力

2019-12-05 16:08 来源：互联网我来投稿撤稿纠错

AI语音已逐步渗透到了大众的生活中，但是刻板的对话方式似乎还困扰着广大用户。

全双工这个概念对人工智能行业从业者来讲，并不陌生。谈到全双工，此前，谷歌Duplex帮助人们通过电话预约餐厅和理发师的功能，带来了有趣的观感体验，在I/O 2019上，谷歌宣布对Duplex进行重大扩展。

谷歌Duplex

在推进对话交互智能的市场化应用过程中，思必驰同样发现，自然流畅的对话体验、类人化的交互体验成为了绝对的刚需。

因此，具备以上两个特点的全双工语音交互技术，成为了关注的焦点。思必驰联合创始人、首席科学家俞凯，早在剑桥大学期间主导开发了全双工口语对话系统，2010年参加国际对话系统研究挑战赛时，获得可控测试的冠军，这也是世界上最早的全双工端到端口语对话系统之一。区别在于，与现在广泛作用于物联网智能终端设备的全双工交互系统相比，当时的主要应用，在基于电话信道的人机交互方面。

全双工是个系统工程

作为系统工程，全双工需要综合利用语音语言技术的各个模块，实现前后联动，例如，其对前端信号处理、AEC回声消除有强相关依赖，实时上传的音频对噪声处理、音频音质要求较高，同时，作为系统工程，全双工涉及到全链路语音交互的各个模块，其同样需要对识别后的识别信息、语义信息等进行综合判断及处理，并做出决策。

半双工&全双工

因此，全双工交互技术的提升涉及到对话系统的各个模块，不仅各个模块的功能需要提升，模块间的配合能力更需要完善。

思必驰在推进全双工交互技术的市场落地过程中，发现了一个更有效的事情，“全双工+语义拒识”让交互体验更加优化。全双工固然重要，但语义拒识算法，却往往容易被人忽视。

语义拒识算法

受限于语音技术的发展，现有的对话系统受噪声条件的影响非常明显，缺乏稳健性。在对话系统中，说话人的检测和基于语义的拒识是其非常重要的组成部分。当说话人的语音模糊不清或者语音数据不在已有训练集合中时，识别系统会产生识别错误，从而影响对话系统的识别和理解效果。

在半双工状态下，环境噪声以及周围人声容易引起无效输入，对话系统或错误响应，或给出“没听懂”的呆板播报，并且播报时不能打断，十分影响交互效率。全双工状态下，对无实际语义的输入则不会给出响应。

拒识算法主要目的是去除没有语义意义的音频片段，节省后端处理的计算资源，提高整个对话系统的交互鲁棒性，提升用户使用体验，避免错误的语义理解引发错误的反馈到用户端。

思必驰语义拒识算法

思必驰拒识算法能够解决的很多噪声和无语义意义的问题，例如用户无意义的嗯啊声、背景噪声与闲聊声、纯音乐声、声音幅度小、各种笑声尖叫声，无厘头声音等。

语义拒识对全双工对话交互而言至关重要，可以说，拒识做不好，全双工的效果往往也会差强人意。

思必驰全双工交互技术，更强的持续对话能力

思必驰全双工交互技术，让更流畅的多轮对话成为常态，说法更自由。

l连续交互免唤醒

过去，半双工状态下，用户的跨领域交互每次交互都需要重新唤醒，于是，免唤醒技术成为改善体验的焦点。近些年，免唤醒技术已不是新鲜方案，有的采用“便捷唤醒词定制”，有的采用“唤醒+识别理解一体化”方案，但都存在着诸如“漏字”这类一系列的风险：

“你好小驰明天天气如何?”

漏字通常出现在唤醒词和后面识别文本连接的地方，也就是句子中段。当系统在识别过程中漏掉“明”字时，就会造成时间信息不清晰(“明天”还是“今天”?)，系统无法明确用户的真正时间指令。而现在，思必驰全双工技术方案可实现一次唤醒，在多个领域持续交互，跨领域指代消解。

l动态断句

在日常生活中，很多用户说话会出现拖音现象，说话过程中，有思考/间断的过程，因此会出现很多半截句，简单粗暴的调整语音端点检测阈值的做法往往会带来对话卡顿的现象。

半双工状态下，对话系统设定了固定的停顿检测时间，用户还未表达完整句子稍微一犹豫/停顿，会被语音端点检测系统误断句，造成输入内容不完整，机器无法理解。

思必驰全双工交互技术则在云端根据用户说话节奏和内容，忽略无意义噪声，动态断句，既能保证用户输入的完整性，又能保证较快的响应速度。在回复方面，则可以适时的回复“嗯”等接话话术，系统打破了对用户说话规则的要求，用户可以按照自身的说话习惯来进行交流，交互过程更加人性化。

l语义打断，避免误打断

在半双工状态下，语音合成播放时很难进行打断，在一些终端设备上，行业内普遍采用的打断方式是“快捷唤醒词打断”，说法十分固定，无法泛化，需要定制多个唤醒词，当用户想打断的时候，必须要重复唤醒词，容易发生误打断。同时，对话打断对环境有较高要求，在有噪声的时候，也容易被误打断。

思必驰全双工交互技术可在对话的过程中，实时语义打断，不容易出现误打断，同时，对没有语义的输入，则不会打断语音合成播放。

这一技术在智能客服的领域将会大大改善消费者的体验，消费者可以随时随刻打断机器人客服的无效对话信息，进行信息咨询。

如何判断什么时候接话，什么时候反问，机器需要有智能决策的能力，这也是思必驰全双工技术的一大特性：主动交互。根据用户表达状态，如“正常说话”、“主动沉默”、“无意义表达”等状态，来给予相应的主动反馈。

思必驰全双工交互技术支持智能判断，尤其是能够主动打断用户的复杂冗长表达，主动打破沉默僵局，实现流畅自然的用户口语交流习惯。当识别到用户正常表达时，机器等待说完后答复反馈;当用户大段无意义输入或表达过于复杂时，会主动打断并提示反问;在交互过程中，当用户沉默时，则可以主动发起对话交互。

同时，经过反复打磨和优化，该技术对系统功耗几乎无影响，实现低功耗下的最优质体验。

思必驰全双工语音交互

实践，是检验真理的唯一标准

目前，思必驰全双工交互技术已展开全线方案渗透，包括AIOT方案和企业信息智能服务，深入作用汽车、家居、电子、教育、医疗、政务、金融、物流、酒店等场景。以音箱方案为例，接入全双工系统后，这款“智能助理设备终端”将更似真人助理，更具备人类亲和力的特质和逻辑思维能力，整个对话体验更加自然流畅。

思必驰业务场景

云端全双工中控大脑持续优化

针对全双工交互技术，思必驰将持续优化云端全双工中控大脑，持续进行策略优化、场景优化、单点技术模块优化，将交互体验做的更好。

未来，多模态交互将会让全双工交互技术发挥更大的能量，配合声纹识别、图像处理、虹膜识别等技术，过滤无用信息，人机交互会变得更加贴合人性，或许不远的未来，你甚至分不清与你隔屏对话的，到底是人还是机器人。

申请创业报道，分享创业好点子。点击此处，共同探讨创业新机遇！

相关标签: ai技术; 智能语音

瓯江论道：AI赋能绿色发展

2025年10月25日，2025世界青年科学家峰会之人工智能（AI）融合创新发展论坛在浙江温州成功举办。本次论坛由国际院士科创中心主办，中国投资协会能源投资专业委员会、温港院士科创中心承办，中国电工技术学会、中科先进技术温州研究院与温州市电力工程学会提供支持，以“瓯江论道-AI赋能绿色发展”为主题，

标签：

ai技术
王通：未来个人创业的十个机会

个人创业需要启动成本低、无需庞大团队、可快速验证、能利用个人技能或资源。这里分享适合个人创业的十个机会一.AI内容优化与本地化服务·做什么：帮助企业或个人利用AI工具（如GPT-4,Midjourney）优化内容生产流程。例如，为跨境电商撰写多语言产品描述，为小红书博主生成爆款文案，为小公司制作营销

标签：

创业机会

ai技术
百度智能云PaddleOCR 3.1正式发布：关键能力支持MCP

百度AI团队今日正式推出PaddleOCR3.1版本，以突破性的多语言组合识别（MultilingualCompositionPerception,MCP）技术为核心，彻底重构复杂文档处理边界。此次升级标志着OCR领域首次实现对同一文档内任意混合语言文本的精准识别，为全球化企业、跨境业务及多元文化场

标签：

ai智能

ai技术
AI工具导航网站，未来的发展前景怎么样？

导航网站的崛起：从信息过载到精准触达随着全球AI工具数量爆发式增长（2025年已超数万款），用户面临前所未有的选择困境。传统搜索引擎的“关键词-链接”模式难以应对工具筛选的场景需求，垂直化、场景化的AI导航网站应运而生。这类平台通过聚合、评测、分类与推荐四重机制，将分散的工具资源整合为结构化入口。例

标签：

ai技术

导航网站
微信AI搜索被指“强行开盒”：名字成了数据入口，腾讯回应“仅用公开信息”

当微信公众号文章中出现一个人的名字，它会自动变成蓝色链接，点击即可查看AI生成的“个人简历”——这一微信新功能让不少用户感到被“扒光”在互联网上。近日，微信新上线的“AI搜索”功能陷入隐私泄露争议漩涡。多位网友在社交平台反映，当微信公众号推文中出现本人姓名时，名字会自动变为蓝色超链接，点击即可浏览由

标签：

ai技术

ai搜索

GDPS2025赛场直击！开普勒大黄蜂助力华理斩获搬运赛项桂冠

12月12日-14日，2025全球开发者先锋大会暨国际具身智能技能大赛（GDPS2025）于上海张江科学会堂举行，大会以具身智能竞技为核心，融合了技术比拼、产业展示与科普体验，为全球观众呈现出具身智能的现在与未来。上海开普勒机器人有限公司（以下简称"开普勒机器人"）携明星产品K2"大黄蜂"亮相，并参

标签：

GDPS

2025
弈动 Dynamic·数智跃迁博弈无界｜2025TechWorld智慧安全大会在京召开

在数字化与智能化深度交织的时代浪潮中，安全的边界不断延展，技术的演进正引领产业迈向新一轮变革。10月24日，以“弈动Dynamic·数智跃迁博弈无界”为主题的2025TechWorld智慧安全大会在北京盛大召开。来自国家部委、院士学者、高校科研机构和企业的权威专家与业界精英齐聚北京，共议AI安全、数

标签：

弈动
瓯江论道：AI赋能绿色发展

2025年10月25日，2025世界青年科学家峰会之人工智能（AI）融合创新发展论坛在浙江温州成功举办。本次论坛由国际院士科创中心主办，中国投资协会能源投资专业委员会、温港院士科创中心承办，中国电工技术学会、中科先进技术温州研究院与温州市电力工程学会提供支持，以“瓯江论道-AI赋能绿色发展”为主题，

标签：

ai技术
AI云“分野”：阿里云们“卖铲”，火山引擎奇袭“MaaS”

AI云“分野”：阿里云们“卖铲”，火山引擎奇袭“MaaS”

标签：

阿里巴巴
未来5年，中国AI的“大洗牌”和“内循环”

我觉得我们AI的目标是：从芯片设计到软件生态，全链路自主开发，建立可控的世界级AI体系。所以这是俺对未来5年中国AI圈的展望和判断。(1)2026年，英伟达造车、国产开车26年国产芯片会在推理和垂直场景上发力。以DeepSeek为代表，大多数AI大模型会以软件弥补硬件不足，所以训练和推理分开，训练就
H20芯片开卖即叫停，英伟达如何解围？

文/道哥在深陷“后门”风波、接受网信办问询之后，英伟达的“特供版”H20芯片，又有了新消息。近日，美国科技媒体《TheInformation》援引知情人士消息称，英伟达已悄然向其关键供应商——包括负责封装的安靠科技、供应高带宽内存的三星电子、以及承担后端处理的富士康发出指令，要求暂停所有与H20AI

标签：

英伟达

真正的「国产英伟达」来了

文/二风来源/节点财经一场关于“中国芯”的IPO审议，正把投资者们的目光锁定在上交所。根据上交所发布的公告，上市审核委员会已定于9月26日审议摩尔线程的科创板首发申请。作为中国半导体自主化浪潮中最受瞩目的“考生”之一，包括其创始人显赫的英伟达背景、高达80亿元人民币的募资雄心，以及在国产GPU领域取

标签：

英伟达
AI视频生成赛道“分野”：小厂重产品，大厂重生态

AI视频生成赛道“分野”：小厂重产品，大厂重生态

标签：

腾讯

阿里巴巴

快手
数据库进入“内存自由”时代！阿里云PolarDB发布全球首个CXL数据库服务器

技术的进步永无止境，继创下TPC-C性能&性价比双冠之后，阿里云PolarDB云原生数据库再度实现关键突破。9月24日杭州云栖大会上，阿里云宣布推出全球首款基于CXL（ComputeExpressLink）2.0Switch技术的PolarDB数据库专用服务器。在原有RDMA网络的基础上，Polar
为AI时代云服务器量身定制阿里云操作系统Alinux 4重磅发布

2025年9月24日，在杭州举办的云栖大会上，阿里云正式发布全新一代服务器操作系统AlibabaCloudLinux4（简称Alinux4）。Alinux4基于Linux6.6内核打造，是首个全面遵循龙蜥社区“开源生态合作倡议”规范的商业发行版。它不仅兼容主流开源社区生态，更针对阿里云最新9代ECS