1. 创业头条
  2. 前沿领域
  3. 人工智能
  4. 正文

汤唯成了百度地图的“AI算法官” 女神背后靠的就是这些语音技术

 2019-01-02 09:45  来源:A5专栏  我来投稿 撤稿纠错

  【推荐】海外独服/站群服务器/高防

文 |余凯文

来源 | 智能相对论

在人机交互不再满足于“听”时,“说”的环节变得尤为重要,“怎么说”、“谁来说”成了关键按钮。

而目前语音产品赛道逐渐进入了常规化模式,邀请明星出声也成为了基本操作,相比传统的机械式AI声音,真人语音无论是在效果还是情感方面都是无可比拟的,再加上明星效应,用户的体验效果将来得更加直观。

12月24日,百度地图官方宣布汤唯正式签约代言人,同时上线“汤唯导航语音”。在“说”的领域,百度地图这款“新一代人工智能地图”又迈出了一步。

从语音导航到汤唯定制语音,百度地图“AI+女神”到底进化了什么

传统语音导航,是单调无聊的,定制语音将其变为了过去式。拥有汤唯的柔美声音作为导航,在体验上有什么差别?当“前方路段交通拥挤,请小心驾驶”变成“前方行驶缓慢,慢慢欣赏路上风景”,会不会觉得这才是“人性化”服务?

1、摆脱中性,汤唯带给我们的不只是女神之声

很多人会问,一定要给AI加上性别吗?不,AI不一定需要性别,但语音最好有。

以往我们听到的AI语音都是机械式的声音,是“中性”或者说是“无性”的声音,带来的问题也很直接,就是太冰冷、没个性。之前也有说到,目前个性化、表现力正是语音合成所追求的方向之一,所以百度地图带来的汤唯语音也就不止是一款语音那么简单。可以说汤唯语音从一个功能点体现出结合了人工智能的百度地图正在变得越来越强大。

声音具有和视觉传达一样很强的感染力,甚至有时,以声音为主的交互会带来更好的沉浸感。

并且语音合成研究已开始从文字到语音的转换阶段向概念到语音的转换阶段发展。所涉及的技术也更加复杂,百度地图就是利用其深度神经网络技术、深度学习技术,再结合车内应用场景进行打造。例如百度语音合成系统采用的全深度学习的框架,是在语音合成领域首次采用全深度学习框架,实现了语言合成上的个性化、口语化。

2、语音算法模型让机器人性化

女神汤唯之所以能完成高质量的语音包,语音合成技术功不可没,在庞大的道路信息和交通数据之下,谁也无法通过直录的方式通通记录,这时就需要靠语音系统来支撑。

以汤唯语音包来说,就是先录制汤唯声音特点的第一手资料,录制的语句包含一些常见的导航提示语句和一些覆盖到常见的中文发音的句子。

其实无论语音还是文字,在计算机看来都是数字化的,语音合成模型的任务就是要建立这两组数字之间的关系,通过一系列的计算,将文本的输入转化为语音的输出。首先需要建立一个神经网络的模型,去学习汤唯录制的语音和录音文字之间的映射关系,就好比让一个不会发音的孩子学汤唯说话。而在合成时,它就可以读取导航语句,并大声朗读出来了。

AI浪潮之下,语言合成才是语音技术的高地

使电脑具有类似于人一样的说话能力,是当今时代信息产业的重要竞争市场,不过大家的注意力多集中在语音合成之外。

1、差点被忽略的“黄金”场景

目前,语音技术的应用多为了语音唤醒和交互,在智能硬件和软件上都有很多典型应用——智能音箱、智能电视、智能扫地机器人、百度地图、百度输入法等等。但不可否认的是,智能硬件的侧重仍在于“语音识别”,对于“语音合成”的应用有,可还不够深。

语音合成本是把文本经一系列计算处理后输出对应音频,通过机械的、电子的方法产生人造语音技术。因为完美的人机交互体验无法忽略“说”的环节,所以语音合成的重要性日益凸显。

从早期的机械化语音合成开始发展至今,语音合成的应用场景也经历了较大的转变,以前语音合成应用都是在相对单调的场景,现在应用场景更加复杂,对于语音合成技术的要求自然变得更高。

例如,在有声读物方面,用户需求越来越个性化,单调的机械声已经完全不够;在机场、车站广播等服务行业,需要的是温柔、甜美的音质;在办事机构、窗口机关又需要严谨、有力的声音。而百度地图上线汤唯语音,也是给在路上的用户更加磁性、知性的嗓音。

在外部,车内空间显然是一块“宝地”,车内空间的交互可以说是市场刚需,截止到2018年9月,全国机动车保有量已经达到了3.22亿辆,机动车驾驶人数超过了4亿人,交互价值巨大。

百度地图等加速车内空间交互,是将传统的“室内交互”做了外延,给百度带来的也不仅仅是用户层面的拓宽,更体现出百度搜索之外的野心。

2、技术上,语音合成一直是语音技术的高山和壁垒

语音合成可以说是人工智能的“嘴”,是人机交互的基础,一个没有“嘴”的人工智能何谈什么交互?

就现阶段而言,语音识别已经不再是语音技术的关键问题,很多产品的语音识别率都到达了95%以上。但在语音生成上,能让机器说的话与人类说出来的话相近依旧很难,即便是一些简单的词组,你我也能一耳就听出是机器合成的还是真人播报。

如果将语音合成技术拆解,可以分为文本分析、韵律分析和声学分析三个部分,每一个部分都是技术难点。首先需要对文本进行解析,对文本的语言、字符进行分析,提取出文本特征;接着在文本信息的基础上,要判断文本信息字符间奏、长度、频率等多种特征;然后通过声学模型实现从前端参数到语音参数的映射,最后通过声码器合成语音。

而且,目前主流的语音合成方法为统计参数语音合成和波形拼接的语音合成,统计参数语音合成由前端文本分析、统计参数模型和声码器三个部分组成,对语料库的时长要求较低且在合成目标波形时具有较高灵活性,但重建出来的语音比较机械,缺乏自然度。主要为声码器在对语音信号建模时舍弃了语音细节,合成的语音相比原始语音丢失部分信息。

而百度地图采用的百度语音合成系统,可以将很多模块用深度神经网络去实现,有效解决了使用统计参数合成时所带来的问题。

波形拼接的语音合成不使用声码器,直接通过拼接原始录制语音片段来合成目标语音,相比参数法,合成的语音更加自然真实。由于直接面向语料库操作,故对语料时长和基元种类具有较高要求。

当然,当语音流畅度达到人们预期时,也并不是完结,音质、自然度和情感等要素也依旧需要攻克。

就拿汉语语音合成来说,目前在单字和词组一级上,合成语音的可懂度和自然度已基本解决,但是到句子乃至篇章一级时其自然度问题就比较大。

比如,国内外大多数语音合成研究是针对文语转换系统,且只能解决以某种朗读风格将书面语言转换成口语输出,缺乏不同年龄、性别特征及语气、语速的表现,更不用说赋予个人的感*彩。

3、比起听得清和听得懂,“说得好”要求的是更懂人

正如上文所提到过的,目前大部分产品的语音识别率都达到了95%以上,却无法像人类一样表达,其根本原因就是还“不懂人”。

何为“懂人”?我们人与人之间可以从对方的音量、声调、语速、用词等方面听懂对方的要求、情绪、心情、状态,这就是所谓的“懂人”。

说得直白点就是“情感表达”,这是目前而言语音合成技术需要攻克的关键要素。

想要达成这一目标,针对普通生活场景的语音合成是提高情感表达的最佳方式。目前使用语音合成技术播报下天气或者阅读简讯,无疑能合成出完美的语音,但遇到生活化的场景,或者在特定氛围之下,语音合成的效果就会降低很多。一方面由于系统对韵律信息的捕获不准确,另一方面由于生成的声学参数存在误差。当语音合成可以完美消化各类生活化的语境时,其应用场景将得到极大的拓宽。

另外,在语音合成的应用中,大多都是单人、单语言、单语音,如何能由单变多也是语音合成应用中的一大困扰。在“3单”语境的限制下,语言合成技术难以完成应用突破,而目前一些解决“3单”语境的解决方案也不够完美,或多或少都存在瑕疵,并且也没有足够的语料素材来进行支撑。

如何使计算机算法能够自适应技术实现任意说话人、不同风格的高质量语音合成,如何充分挖掘不同语言的发音空间,在语料受限条件下实现多语言语音合成,也是语音合成现阶段的一大挑战。

百度地图在深度神经网络技术的支撑下,已经开始对“3单”语境作出反应,并已收到成效,百度语音合成开始支持中文英文混读,可以提供数十种不同音色,更支持语速、音调、音量设置。这些技术活功能上的增加,无疑将给语音合成带来更加广阔的想象空间。

近年来,在语音技术行业中开始流行一句话:“得语音合成者得天下”,百度地图此时牵手国民女神,导航语音全量上线似乎也在卡这个时间点。

语音技术个性化时代,百度地图占领AI地图高地

地图从羊皮到纸卷,从PC到手机,其实一直在随技术的进步而进化。放眼整个行业,在人工智能浪潮下,百度地图已经走在了前列。语音合成上越来越讲究个性化,个性化的需求就无法绕开大数据和AI,而在这两个方面百度的经验正好合适。

1、汤唯女神的定制语音,不止是百度语音合成技术体现出情感特征的标志

赋予合成语音情感,让合成语音表现出个性生理、心理等特点,是语音合成领域一个难题。

百度地图在推出汤唯语音导航的同时,也足以证明其语音组技术能力的成熟。

神经网络的模型随着百度技术经验的积累,也越来越精巧和高效。汤唯采用的模型,正是百度近期研发出的高质量合成模型,具有很好的音质,音色还原度和自然度。

让语音合成具备情感,还要建立多视角情感描述模型,需要描述认知、心理、生理等影响因素之间的关联性,再通过语音频谱特征表现出来。并且不能一厢情愿,还需要从用户的角度模拟不同人群的使用习惯,偏好等。

而这一系列过程背后,是一套复杂且庞大的数据系统在支撑,百度之所以能够完成还得益于百度地图大数据的丰富。目前百度地图覆盖了全球209个国家及地区超过850万公里道路里程,每日响应位置服务近千亿次等,这些正是百度语音组在打造语音合成技术时的基石。

2、两款导航语音开始满足个性化需求,百度地图AI化已经不再只是技术端

在今年3月,百度地图事业部正式并入AI技术平台体系(AIG),不仅是对其作为基础性服务地位的肯定,也意味着百度地图能够获得更直接的AI技术支持。

依托于整个百度,百度地图在AI技术研发上处于先发行列,有着比较全面的AI技术积累,涵盖语音、图像、大数据智能等。

而“汤唯迷人语音”和“汤唯常规语音”两款导航语音就能直观体现出百度语音组在韵律模型、声学模型预测(神经网络的模型)、弹性单元挑选技术等技术上的功力。

从AI技术应用来看,百度地图已经表现出强大的AI能力,除了能提供实时路况、提前规划路线,推测拥堵等智能地图的“常规功能”外,百度地图开始提供更加个性化的交互,例如,AR实景导航、全景地图、旅游地图、充电桩地图、急救车让行播报等个性化功,这些创新功能不止是听觉还包括视觉上。值得一提的是,百度智能地图还能够“学习”不同路段对应的交规信息,这一点是极具应用价值的。

由此可见,百度地图AI化已经真正意义上实现了从技术端走到了应用端。

结论

汤唯女神导航语音对于百度地图而言是一个标志性事件,是在AI风口下,百度地图作出的重大变革之一,意味着百度地图AI能力呈现立体化。

从杨洋到汤唯,百度地图致力于展现地图AI的先进性,一直不竭余力,智能语音助手作为一个辅助功能,对于其他地图产品的无足轻重,百度地图则是高度重视,仅在视觉提供上,百度地图的语音助手就一定会是在最显眼的位置,并且不止于辅助,百度为语音助手所寄予的是“交互”,充分发挥导航语音“听”和“说”的能力。

如今,百度地图邀请女神汤唯“献声”,无疑是给百度地图语音的锦上添花,在打造新一代人工智能地图上百度地图又先行一步。

从以前的听清、听懂到满足,发展到在满足之后更有“反馈和应变”。在交互方式上也由单一交互变为了真正的双向交互。

同时在百度地图“更精准、更丰富、更易用”的理念基础上可以再加上一条“更具情感”。

在抢占智能地图高地上,百度地图已然领先。

*以上图片来源于网络。

【完】

智能相对论:深挖人工智能这口井,评出咸淡,讲出黑白,道出vb深浅。重点关注领域:AI+医疗、机器人、智能驾驶、AI+硬件、物联网、AI+金融、AI+安全、AR/VR、开发者以及背后的芯片、算法、人机交互等。

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关文章

  • 汇聚中国AI顶尖力量 云天励飞参与华为AI大模型联合创新

    2023年7月6日,第六届世界人工智能大会(WAIC2023)在上海开幕,“人工智能大模型”是本届大会的备受瞩目的话题,据悉,在昇腾AI大模型的创新研发中,华为联手26家行业领军企业,组建了一支协同创新的“AI明星队”,云天励飞作为中国人工智能企业的杰出代表,和互联网大厂、运营商、科研院所等优秀团队

    标签:
    ai技术
  • 用友大易:迈入AI招聘2.0时代,让人力资源回归本质

    这几个月来,以ChatGPT为代表的生成式AI展现出的能力令世界惊叹。自从2016年AlphaGo战胜李世石掀起了一波AI浪潮后,AI仿佛已经沉寂了很久,ChatGPT的横空出世就如同一束耀眼的光芒,让AI这个名词重回C位。过去在AI1.0时代,主要通过训练模型来实现图像识别、声音识别、语言处理等特

    标签:
    ai技术
  • 新发布的PaaS2.0,能否助力涂鸦智能再起飞?

    文:互联网江湖作者:志刚2023年的IoT需要一个新故事。6月29日,涂鸦智能在开发者大会上,发布了企业级战略PaaS2.0,希望通过一个平台+四大开发服务,建立起IoT生态。对于这场发布会,市场的态度是积极的。美东时间6月29日收盘,涂鸦智能美股股价上涨5.6%,来到1.87美元/股。近日股价稳定

    标签:
    ai技术
  • 大模型难掩AI制药的悲伤:越过山丘,无人等候

    美团曾经的二号人物王慧文对标OpenAI的创业项目光年之外,以20亿卖给美团,再度引发市场对大模型的热议。

    标签:
    ai技术
  • 拾起王慧文的AI梦,美团冲向“光年之外”?

    2020年底,王慧文在朋友圈写下这句话时,外界本以为这位伴随中国互联网发展而持续创业20年的人物即将告别创业舞台。但是,一个曾经多次创业,正值壮年的互联网老将心中的创业热情是难以熄灭的。

    标签:
    ai技术
  • 竞逐智能家居大模型:美的“蓄力”,海尔“疾行”

    随着ChatGPT火热出圈,AI大模型便成为了各行各业必争的高地。

    标签:
    智能家居
  • 李彦宏新目标,押注AI原生应用

    文/道哥“未来,自然语言将成为新的通用编程语言。你只要会说话,就可以成为一名开发者,用自己的创造力改变世界。”4月16日,百度创始人、董事长兼首席执行官李彦宏在Create2024百度AI开发者大会上表述了对未来AI人工智能发展的新一轮展望。自OpenAI发布ChatGPT大模型后,这股AI人工智能

    标签:
    李彦宏
  • AI算力竞赛加速散热技术变革,液冷方案获行业青睐

    进入AIGC时代,智算中心规模日渐庞大,服务器能耗与日俱增。如何降低智算中心能耗已成为国家和地方政府关注的焦点。工信部数据显示,2022年全国数据中心总耗电量约2700亿千瓦时。当前,大部分数据中心仍主要采用风冷散热技术,在单柜密度、PUE值方面已愈发难以满足行业发展及绿色节能方面的要求,而冷板式液

  • 中国AIGC最值得关注企业&产品榜单揭晓!首份应用全景图谱发布

    “你好,新应用!”站在大模型落地元年,是时候喊出这句话了。从软件APP、智能终端乃至具身智能等等,AIGC开始席卷一切。大模型玩家、互联网巨头、终端厂商、垂直场景玩家纷纷入场,办公、创作、营销、教育、医疗领域相继被渗透……一个万亿市场,正在酝酿。站在浪潮起点,当下发展究竟如何了?机遇在哪?挑战如何?

  • 标准引领促转型 提升新质生产力——2024数字教育标准创新应用研讨会召开

    4月14日,以“标准引领促转型,提升新质生产力”为主题,由全国信息技术标准化技术委员会教育技术分技术委员会主办,锐捷网络承办的2024数字教育标准创新应用研讨会暨《高等学校数字校园建设规范(试行)》(以下简称《规范》)优秀及典型应用案例的颁奖活动在福州举办。本次会议聚焦赋能新质生产力和高校教育数字化

  • 两座超大城市对“视”联手 杭深奏响智能物联产业合鸣!

    春至岭南花似锦,出门俱是看花人。4月16日,2024“中国视谷”城市(深圳)推介会暨智能物联产业合作发展论坛在深圳举行。一场广聚全球英才的产业思想盛宴就像早春的花潮,召示着智能物联产业合作发展的丰硕成果正在孕育、成长。站在时代的风口和机遇中瞭望,智能物联产业是人工智能和物联网融合与应用的战略性新兴产

  • AI提高效率:用智谱清言打造爆款视频号

    关注卢松松,会经常给你分享一些我的经验和观点。(1)想做副业、短视频的同学,看完本文一定对你有所帮助!(2)很多人说2024是视频号红利的一年,有分成收益,广告主也多,流量大。(3)松松一共做了10多个视频号,在视频号布局3年了,几乎啥都做过,有的收益千八百、有的收益1-2k,有的收益3-5k。(4

    标签:
    ai技术
  • CPU上跑AI?从推荐系统的演进看CPU的崛起

    在信息和数据极度繁荣的当下,人工智能正在通过各种方式影响着人类生活。其中,AI推荐系统作为互联网时代最关键的伴生技术之一,正在帮助人类梳理着各种纷繁杂乱的信息,让资源实现更精准的调配,让一切变得井然有序。推荐系统:数字营销的重要引擎当你到一座旅游城市,不知道当地有什么美食时,AI推荐系统在手机上的本

  • 李彦宏放话:百度AI大模型绝不抢开发者饭碗

    关注卢松松,会经常给你分享一些我的经验和观点。昨晚,李彦宏内部讲话称:AI大模型开源意义不大,百度绝不抢开发者饭碗。但你一定要说话算话哦,可千万别说:“我永远不做手机,谁再敢提做手机就给我走人”,结果5年后自己的手机销量排名第一。如果百度也这么干的话估计AI也没人用了。李彦宏认为:从商业模式的角度来

    标签:
    大模型
  • 具身智能潮起、巨头环伺之下,优必选如何撑起资本期待?

    AI大模型风口之下,作为“具身智能”最佳载体,人形机器人似乎即将迎来“觉醒元年”。前有马斯克巨大影响力加持之下的人形机器人Optimus亮相,后有OpenAI联合人形机器人初创公司Figure推出令人惊艳的Figure01。可以看出,AI软件和机器人硬件的结合,已经是当下科技界一大风口。乘着这样的东

编辑推荐