文 |余凯文
来源 | 智能相对论
在人机交互不再满足于“听”时,“说”的环节变得尤为重要,“怎么说”、“谁来说”成了关键按钮。
而目前语音产品赛道逐渐进入了常规化模式,邀请明星出声也成为了基本操作,相比传统的机械式AI声音,真人语音无论是在效果还是情感方面都是无可比拟的,再加上明星效应,用户的体验效果将来得更加直观。
12月24日,百度地图官方宣布汤唯正式签约代言人,同时上线“汤唯导航语音”。在“说”的领域,百度地图这款“新一代人工智能地图”又迈出了一步。

从语音导航到汤唯定制语音,百度地图“AI+女神”到底进化了什么
传统语音导航,是单调无聊的,定制语音将其变为了过去式。拥有汤唯的柔美声音作为导航,在体验上有什么差别?当“前方路段交通拥挤,请小心驾驶”变成“前方行驶缓慢,慢慢欣赏路上风景”,会不会觉得这才是“人性化”服务?
1、摆脱中性,汤唯带给我们的不只是女神之声
很多人会问,一定要给AI加上性别吗?不,AI不一定需要性别,但语音最好有。
以往我们听到的AI语音都是机械式的声音,是“中性”或者说是“无性”的声音,带来的问题也很直接,就是太冰冷、没个性。之前也有说到,目前个性化、表现力正是语音合成所追求的方向之一,所以百度地图带来的汤唯语音也就不止是一款语音那么简单。可以说汤唯语音从一个功能点体现出结合了人工智能的百度地图正在变得越来越强大。
声音具有和视觉传达一样很强的感染力,甚至有时,以声音为主的交互会带来更好的沉浸感。

并且语音合成研究已开始从文字到语音的转换阶段向概念到语音的转换阶段发展。所涉及的技术也更加复杂,百度地图就是利用其深度神经网络技术、深度学习技术,再结合车内应用场景进行打造。例如百度语音合成系统采用的全深度学习的框架,是在语音合成领域首次采用全深度学习框架,实现了语言合成上的个性化、口语化。
2、语音算法模型让机器人性化
女神汤唯之所以能完成高质量的语音包,语音合成技术功不可没,在庞大的道路信息和交通数据之下,谁也无法通过直录的方式通通记录,这时就需要靠语音系统来支撑。
以汤唯语音包来说,就是先录制汤唯声音特点的第一手资料,录制的语句包含一些常见的导航提示语句和一些覆盖到常见的中文发音的句子。
其实无论语音还是文字,在计算机看来都是数字化的,语音合成模型的任务就是要建立这两组数字之间的关系,通过一系列的计算,将文本的输入转化为语音的输出。首先需要建立一个神经网络的模型,去学习汤唯录制的语音和录音文字之间的映射关系,就好比让一个不会发音的孩子学汤唯说话。而在合成时,它就可以读取导航语句,并大声朗读出来了。
AI浪潮之下,语言合成才是语音技术的高地
使电脑具有类似于人一样的说话能力,是当今时代信息产业的重要竞争市场,不过大家的注意力多集中在语音合成之外。
1、差点被忽略的“黄金”场景
目前,语音技术的应用多为了语音唤醒和交互,在智能硬件和软件上都有很多典型应用——智能音箱、智能电视、智能扫地机器人、百度地图、百度输入法等等。但不可否认的是,智能硬件的侧重仍在于“语音识别”,对于“语音合成”的应用有,可还不够深。
语音合成本是把文本经一系列计算处理后输出对应音频,通过机械的、电子的方法产生人造语音技术。因为完美的人机交互体验无法忽略“说”的环节,所以语音合成的重要性日益凸显。

从早期的机械化语音合成开始发展至今,语音合成的应用场景也经历了较大的转变,以前语音合成应用都是在相对单调的场景,现在应用场景更加复杂,对于语音合成技术的要求自然变得更高。
例如,在有声读物方面,用户需求越来越个性化,单调的机械声已经完全不够;在机场、车站广播等服务行业,需要的是温柔、甜美的音质;在办事机构、窗口机关又需要严谨、有力的声音。而百度地图上线汤唯语音,也是给在路上的用户更加磁性、知性的嗓音。
在外部,车内空间显然是一块“宝地”,车内空间的交互可以说是市场刚需,截止到2018年9月,全国机动车保有量已经达到了3.22亿辆,机动车驾驶人数超过了4亿人,交互价值巨大。
百度地图等加速车内空间交互,是将传统的“室内交互”做了外延,给百度带来的也不仅仅是用户层面的拓宽,更体现出百度搜索之外的野心。
2、技术上,语音合成一直是语音技术的高山和壁垒
语音合成可以说是人工智能的“嘴”,是人机交互的基础,一个没有“嘴”的人工智能何谈什么交互?
就现阶段而言,语音识别已经不再是语音技术的关键问题,很多产品的语音识别率都到达了95%以上。但在语音生成上,能让机器说的话与人类说出来的话相近依旧很难,即便是一些简单的词组,你我也能一耳就听出是机器合成的还是真人播报。
如果将语音合成技术拆解,可以分为文本分析、韵律分析和声学分析三个部分,每一个部分都是技术难点。首先需要对文本进行解析,对文本的语言、字符进行分析,提取出文本特征;接着在文本信息的基础上,要判断文本信息字符间奏、长度、频率等多种特征;然后通过声学模型实现从前端参数到语音参数的映射,最后通过声码器合成语音。

而且,目前主流的语音合成方法为统计参数语音合成和波形拼接的语音合成,统计参数语音合成由前端文本分析、统计参数模型和声码器三个部分组成,对语料库的时长要求较低且在合成目标波形时具有较高灵活性,但重建出来的语音比较机械,缺乏自然度。主要为声码器在对语音信号建模时舍弃了语音细节,合成的语音相比原始语音丢失部分信息。
而百度地图采用的百度语音合成系统,可以将很多模块用深度神经网络去实现,有效解决了使用统计参数合成时所带来的问题。

波形拼接的语音合成不使用声码器,直接通过拼接原始录制语音片段来合成目标语音,相比参数法,合成的语音更加自然真实。由于直接面向语料库操作,故对语料时长和基元种类具有较高要求。

当然,当语音流畅度达到人们预期时,也并不是完结,音质、自然度和情感等要素也依旧需要攻克。
就拿汉语语音合成来说,目前在单字和词组一级上,合成语音的可懂度和自然度已基本解决,但是到句子乃至篇章一级时其自然度问题就比较大。
比如,国内外大多数语音合成研究是针对文语转换系统,且只能解决以某种朗读风格将书面语言转换成口语输出,缺乏不同年龄、性别特征及语气、语速的表现,更不用说赋予个人的感*彩。
3、比起听得清和听得懂,“说得好”要求的是更懂人
正如上文所提到过的,目前大部分产品的语音识别率都达到了95%以上,却无法像人类一样表达,其根本原因就是还“不懂人”。
何为“懂人”?我们人与人之间可以从对方的音量、声调、语速、用词等方面听懂对方的要求、情绪、心情、状态,这就是所谓的“懂人”。
说得直白点就是“情感表达”,这是目前而言语音合成技术需要攻克的关键要素。

想要达成这一目标,针对普通生活场景的语音合成是提高情感表达的最佳方式。目前使用语音合成技术播报下天气或者阅读简讯,无疑能合成出完美的语音,但遇到生活化的场景,或者在特定氛围之下,语音合成的效果就会降低很多。一方面由于系统对韵律信息的捕获不准确,另一方面由于生成的声学参数存在误差。当语音合成可以完美消化各类生活化的语境时,其应用场景将得到极大的拓宽。
另外,在语音合成的应用中,大多都是单人、单语言、单语音,如何能由单变多也是语音合成应用中的一大困扰。在“3单”语境的限制下,语言合成技术难以完成应用突破,而目前一些解决“3单”语境的解决方案也不够完美,或多或少都存在瑕疵,并且也没有足够的语料素材来进行支撑。
如何使计算机算法能够自适应技术实现任意说话人、不同风格的高质量语音合成,如何充分挖掘不同语言的发音空间,在语料受限条件下实现多语言语音合成,也是语音合成现阶段的一大挑战。

百度地图在深度神经网络技术的支撑下,已经开始对“3单”语境作出反应,并已收到成效,百度语音合成开始支持中文英文混读,可以提供数十种不同音色,更支持语速、音调、音量设置。这些技术活功能上的增加,无疑将给语音合成带来更加广阔的想象空间。
近年来,在语音技术行业中开始流行一句话:“得语音合成者得天下”,百度地图此时牵手国民女神,导航语音全量上线似乎也在卡这个时间点。
语音技术个性化时代,百度地图占领AI地图高地
地图从羊皮到纸卷,从PC到手机,其实一直在随技术的进步而进化。放眼整个行业,在人工智能浪潮下,百度地图已经走在了前列。语音合成上越来越讲究个性化,个性化的需求就无法绕开大数据和AI,而在这两个方面百度的经验正好合适。
1、汤唯女神的定制语音,不止是百度语音合成技术体现出情感特征的标志
赋予合成语音情感,让合成语音表现出个性生理、心理等特点,是语音合成领域一个难题。

百度地图在推出汤唯语音导航的同时,也足以证明其语音组技术能力的成熟。
神经网络的模型随着百度技术经验的积累,也越来越精巧和高效。汤唯采用的模型,正是百度近期研发出的高质量合成模型,具有很好的音质,音色还原度和自然度。
让语音合成具备情感,还要建立多视角情感描述模型,需要描述认知、心理、生理等影响因素之间的关联性,再通过语音频谱特征表现出来。并且不能一厢情愿,还需要从用户的角度模拟不同人群的使用习惯,偏好等。
而这一系列过程背后,是一套复杂且庞大的数据系统在支撑,百度之所以能够完成还得益于百度地图大数据的丰富。目前百度地图覆盖了全球209个国家及地区超过850万公里道路里程,每日响应位置服务近千亿次等,这些正是百度语音组在打造语音合成技术时的基石。
2、两款导航语音开始满足个性化需求,百度地图AI化已经不再只是技术端
在今年3月,百度地图事业部正式并入AI技术平台体系(AIG),不仅是对其作为基础性服务地位的肯定,也意味着百度地图能够获得更直接的AI技术支持。
依托于整个百度,百度地图在AI技术研发上处于先发行列,有着比较全面的AI技术积累,涵盖语音、图像、大数据智能等。
而“汤唯迷人语音”和“汤唯常规语音”两款导航语音就能直观体现出百度语音组在韵律模型、声学模型预测(神经网络的模型)、弹性单元挑选技术等技术上的功力。

从AI技术应用来看,百度地图已经表现出强大的AI能力,除了能提供实时路况、提前规划路线,推测拥堵等智能地图的“常规功能”外,百度地图开始提供更加个性化的交互,例如,AR实景导航、全景地图、旅游地图、充电桩地图、急救车让行播报等个性化功,这些创新功能不止是听觉还包括视觉上。值得一提的是,百度智能地图还能够“学习”不同路段对应的交规信息,这一点是极具应用价值的。
由此可见,百度地图AI化已经真正意义上实现了从技术端走到了应用端。
结论
汤唯女神导航语音对于百度地图而言是一个标志性事件,是在AI风口下,百度地图作出的重大变革之一,意味着百度地图AI能力呈现立体化。
从杨洋到汤唯,百度地图致力于展现地图AI的先进性,一直不竭余力,智能语音助手作为一个辅助功能,对于其他地图产品的无足轻重,百度地图则是高度重视,仅在视觉提供上,百度地图的语音助手就一定会是在最显眼的位置,并且不止于辅助,百度为语音助手所寄予的是“交互”,充分发挥导航语音“听”和“说”的能力。
如今,百度地图邀请女神汤唯“献声”,无疑是给百度地图语音的锦上添花,在打造新一代人工智能地图上百度地图又先行一步。
从以前的听清、听懂到满足,发展到在满足之后更有“反馈和应变”。在交互方式上也由单一交互变为了真正的双向交互。
同时在百度地图“更精准、更丰富、更易用”的理念基础上可以再加上一条“更具情感”。
在抢占智能地图高地上,百度地图已然领先。
*以上图片来源于网络。
【完】
智能相对论:深挖人工智能这口井,评出咸淡,讲出黑白,道出vb深浅。重点关注领域:AI+医疗、机器人、智能驾驶、AI+硬件、物联网、AI+金融、AI+安全、AR/VR、开发者以及背后的芯片、算法、人机交互等。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
2025年10月25日,2025世界青年科学家峰会之人工智能(AI)融合创新发展论坛在浙江温州成功举办。本次论坛由国际院士科创中心主办,中国投资协会能源投资专业委员会、温港院士科创中心承办,中国电工技术学会、中科先进技术温州研究院与温州市电力工程学会提供支持,以“瓯江论道-AI赋能绿色发展”为主题,
个人创业需要启动成本低、无需庞大团队、可快速验证、能利用个人技能或资源。这里分享适合个人创业的十个机会一.AI内容优化与本地化服务·做什么:帮助企业或个人利用AI工具(如GPT-4,Midjourney)优化内容生产流程。例如,为跨境电商撰写多语言产品描述,为小红书博主生成爆款文案,为小公司制作营销
百度AI团队今日正式推出PaddleOCR3.1版本,以突破性的多语言组合识别(MultilingualCompositionPerception,MCP)技术为核心,彻底重构复杂文档处理边界。此次升级标志着OCR领域首次实现对同一文档内任意混合语言文本的精准识别,为全球化企业、跨境业务及多元文化场
导航网站的崛起:从信息过载到精准触达随着全球AI工具数量爆发式增长(2025年已超数万款),用户面临前所未有的选择困境。传统搜索引擎的“关键词-链接”模式难以应对工具筛选的场景需求,垂直化、场景化的AI导航网站应运而生。这类平台通过聚合、评测、分类与推荐四重机制,将分散的工具资源整合为结构化入口。例
当微信公众号文章中出现一个人的名字,它会自动变成蓝色链接,点击即可查看AI生成的“个人简历”——这一微信新功能让不少用户感到被“扒光”在互联网上。近日,微信新上线的“AI搜索”功能陷入隐私泄露争议漩涡。多位网友在社交平台反映,当微信公众号推文中出现本人姓名时,名字会自动变为蓝色超链接,点击即可浏览由
在数字化与智能化深度交织的时代浪潮中,安全的边界不断延展,技术的演进正引领产业迈向新一轮变革。10月24日,以“弈动Dynamic·数智跃迁博弈无界”为主题的2025TechWorld智慧安全大会在北京盛大召开。来自国家部委、院士学者、高校科研机构和企业的权威专家与业界精英齐聚北京,共议AI安全、数
2025年10月25日,2025世界青年科学家峰会之人工智能(AI)融合创新发展论坛在浙江温州成功举办。本次论坛由国际院士科创中心主办,中国投资协会能源投资专业委员会、温港院士科创中心承办,中国电工技术学会、中科先进技术温州研究院与温州市电力工程学会提供支持,以“瓯江论道-AI赋能绿色发展”为主题,
我觉得我们AI的目标是:从芯片设计到软件生态,全链路自主开发,建立可控的世界级AI体系。所以这是俺对未来5年中国AI圈的展望和判断。(1)2026年,英伟达造车、国产开车26年国产芯片会在推理和垂直场景上发力。以DeepSeek为代表,大多数AI大模型会以软件弥补硬件不足,所以训练和推理分开,训练就
文/道哥在深陷“后门”风波、接受网信办问询之后,英伟达的“特供版”H20芯片,又有了新消息。近日,美国科技媒体《TheInformation》援引知情人士消息称,英伟达已悄然向其关键供应商——包括负责封装的安靠科技、供应高带宽内存的三星电子、以及承担后端处理的富士康发出指令,要求暂停所有与H20AI
文/二风来源/节点财经一场关于“中国芯”的IPO审议,正把投资者们的目光锁定在上交所。根据上交所发布的公告,上市审核委员会已定于9月26日审议摩尔线程的科创板首发申请。作为中国半导体自主化浪潮中最受瞩目的“考生”之一,包括其创始人显赫的英伟达背景、高达80亿元人民币的募资雄心,以及在国产GPU领域取
技术的进步永无止境,继创下TPC-C性能&性价比双冠之后,阿里云PolarDB云原生数据库再度实现关键突破。9月24日杭州云栖大会上,阿里云宣布推出全球首款基于CXL(ComputeExpressLink)2.0Switch技术的PolarDB数据库专用服务器。在原有RDMA网络的基础上,Polar
2025年9月24日,在杭州举办的云栖大会上,阿里云正式发布全新一代服务器操作系统AlibabaCloudLinux4(简称Alinux4)。Alinux4基于Linux6.6内核打造,是首个全面遵循龙蜥社区“开源生态合作倡议”规范的商业发行版。它不仅兼容主流开源社区生态,更针对阿里云最新9代ECS
9月24日,杭州云栖大会技术主论坛上,阿里云重磅发布AI安全护栏,提供五项核心安全能力,护航AI安全。一方面为客户提供融入AIAgent开发全链路的原生安全防护,另一方面持续用AI赋能安全产品智能化升级,打造Agentic-SOC安全运营,提升安全威胁检测和响应效率。在过去的一年,AIAgent正在