今日,猎豹移动董事长兼CEO傅盛在自己的抖音号上发布了一条视频。作为一名“科技乐观主义者”,傅盛和世界上的另一个“自己”进行了一场隔空对话。短短几十秒里,机器人“傅盛”的对答、绕口令样样精通。即使是仔细辨别,你也很难确认哪一个才是真正的傅盛。
能够达到如此惊艳的效果,其实要归功于猎豹移动旗下人工智能公司猎户星空研发的语音合成技术。只要听十段你的话,就可以克隆你的声音,听起来是不是很炫酷?
在人机交互的过程中,与用户体验感直接相关的,就是语音合成技术。这项技术是将文字转化为声音,可以简单地理解为人类的嘴巴。大家在各种智能语音助手中听到的声音,都是由TTS来生成的。所以,让TTS合成的语音能够“以假乱真”,正是TTS领域长期以来不断探索的主题。
传统的TTS都是怎么做的?
在看猎户星空如何实现“以小取大”的效果时,我们可以先看看以往的TTS是如何实现的。
传统的TTS系统通常包括前端、后端两个模块。前端模块主要负责对输入文本进行分析,提取语言学信息,如果是中文还涉及文本正则化、分词、词性预测、多音字消歧、韵律预测等,后端模块根据前端的分析结果,通过一定的方法生成语音波形。
后端系统的主流技术有两种,一种是基于统计参数建模的语音合成,或者叫做参数合成、参数法,优点是所需语料库少,几千句即可,训练与合成过程也都可以由程序自动完成,但缺点是语音质量不高,情感韵律平淡。
现在大家地图导航软件中的听到的明星音,针对导航场景录制了几千句的语料,不仅声音生涩感强,而且需要的成本和周期较长,在其他领域的声音效果不是很好。如果用户预期不苛刻,这样一种方式也未尝不可。
另一种是基于单元挑选和波形拼接的语音合成,或者叫做拼接合成、拼接法,与参数法相反,优点是合成语音自然度很好,缺点就是数据要求太大,至少万句语料才能满足商用需求,一些厂商会请声优为其智能产品录制语料库,前后时间长达数月,花费动辄几百万。
猎户星空:十段话合成人声
鱼和熊掌不可兼得,传统的TTS存在着或多或少的问题。所以这个领域的核心,在于如何降低训练成本,用更少的语料合成高质量的声音。
随着人工智能、深度学习的应用,TTS也迎来了新的变革。2017年3月,Google 提出了一种新的端到端的语音合成系统:Tacotron。它可将接收的输入字符,输出成相应的原始频谱图,然后提供给Griffin-Lim重建算法生成语音。2017年底,Tacotron 2结合了WaveNet和Tacotron的优势,不需要任何语法知识即可直接输出文本对应的语音。
在已有的技术创新铺垫下,猎户星空TTS团队在Tactron的基础上,训练了大语料库的语音库作为基础模型,目标发音人只需要录制10段话,通过Adapt自适应模型,提取出目标发音人的特征,再通过World声码器,即可合成出目标发音人音色相同的语音。
所以,这项技术真正落地商用后,将为明星语音、个性化语音的合成带来重大突破,尤其是很大程度上减少明星音合成的成本、缩短应用研发的周期。
想象一下,以后你的语音助手中住着你喜欢的明星或心爱的人,每天都可以和TA互动聊天,仿佛TA就是你的私人小秘书,是不是有点小激动呢?
除此之外,猎户星空已掌握麦克风阵列、语音唤醒、语音识别、语义理解和语音合成等全套远场语音技术,语音交互更快更准,垂直领域深度语义理解正确率96%,还首创了唤醒后人声回应。
猎户语音OS成为行业标配
在上文提到技术能力支撑之下,猎户星空打造了猎户tts——这个星球最温暖的AI声音。目前猎户语音OS技术已经应用到了小米小爱同学、美的小美AI音箱、喜马拉雅小雅音箱、猎豹移动小豹AI音箱、华为智能AI音箱等多家合作伙伴产品中,已经成为行业标配。
截至目前,搭载猎户语音合成技术的智能音箱产品在国内份额已超30%,每天都超过2000万次语音服务请求,比如小米AI助理小爱同学月活跃设备超过3000万台,累计唤醒超50亿次。
10月15日,中国人工智能产业发展联盟(AIIA)在人工智能开发者大会公布了国内智能音箱智能化评级结果,包括猎豹移动、小米、喜马拉雅、百度、京东在内的五家主流厂商携其智能音箱产品参与了首批测试评估。猎户语音OS占据了获评产品前五强中的三席,支撑起了智能音箱市场的大半壁江山。
结合自身人机交互的产品基因和猎户星空拥有的行业唯一的全链条AI技术,猎豹移动也在不同行业推动人工智能产品的场景化落地。未来,猎豹移动与旗下猎户星空还会将自主研发的视觉、导航、语音、机械臂技术等核心能力逐步对外开放,与合作伙伴一起,让机器人产品走进大众生活。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
2023年7月6日,第六届世界人工智能大会(WAIC2023)在上海开幕,“人工智能大模型”是本届大会的备受瞩目的话题,据悉,在昇腾AI大模型的创新研发中,华为联手26家行业领军企业,组建了一支协同创新的“AI明星队”,云天励飞作为中国人工智能企业的杰出代表,和互联网大厂、运营商、科研院所等优秀团队
这几个月来,以ChatGPT为代表的生成式AI展现出的能力令世界惊叹。自从2016年AlphaGo战胜李世石掀起了一波AI浪潮后,AI仿佛已经沉寂了很久,ChatGPT的横空出世就如同一束耀眼的光芒,让AI这个名词重回C位。过去在AI1.0时代,主要通过训练模型来实现图像识别、声音识别、语言处理等特
文:互联网江湖作者:志刚2023年的IoT需要一个新故事。6月29日,涂鸦智能在开发者大会上,发布了企业级战略PaaS2.0,希望通过一个平台+四大开发服务,建立起IoT生态。对于这场发布会,市场的态度是积极的。美东时间6月29日收盘,涂鸦智能美股股价上涨5.6%,来到1.87美元/股。近日股价稳定
2020年底,王慧文在朋友圈写下这句话时,外界本以为这位伴随中国互联网发展而持续创业20年的人物即将告别创业舞台。但是,一个曾经多次创业,正值壮年的互联网老将心中的创业热情是难以熄灭的。
文/道哥在深陷“后门”风波、接受网信办问询之后,英伟达的“特供版”H20芯片,又有了新消息。近日,美国科技媒体《TheInformation》援引知情人士消息称,英伟达已悄然向其关键供应商——包括负责封装的安靠科技、供应高带宽内存的三星电子、以及承担后端处理的富士康发出指令,要求暂停所有与H20AI
文/二风来源/节点财经一场关于“中国芯”的IPO审议,正把投资者们的目光锁定在上交所。根据上交所发布的公告,上市审核委员会已定于9月26日审议摩尔线程的科创板首发申请。作为中国半导体自主化浪潮中最受瞩目的“考生”之一,包括其创始人显赫的英伟达背景、高达80亿元人民币的募资雄心,以及在国产GPU领域取
技术的进步永无止境,继创下TPC-C性能&性价比双冠之后,阿里云PolarDB云原生数据库再度实现关键突破。9月24日杭州云栖大会上,阿里云宣布推出全球首款基于CXL(ComputeExpressLink)2.0Switch技术的PolarDB数据库专用服务器。在原有RDMA网络的基础上,Polar
2025年9月24日,在杭州举办的云栖大会上,阿里云正式发布全新一代服务器操作系统AlibabaCloudLinux4(简称Alinux4)。Alinux4基于Linux6.6内核打造,是首个全面遵循龙蜥社区“开源生态合作倡议”规范的商业发行版。它不仅兼容主流开源社区生态,更针对阿里云最新9代ECS
9月24日,杭州云栖大会技术主论坛上,阿里云重磅发布AI安全护栏,提供五项核心安全能力,护航AI安全。一方面为客户提供融入AIAgent开发全链路的原生安全防护,另一方面持续用AI赋能安全产品智能化升级,打造Agentic-SOC安全运营,提升安全威胁检测和响应效率。在过去的一年,AIAgent正在
9月24日,魔搭社区举办了“全球协作•科学突破•创意无限”的专题论坛,并发布魔搭社区国际版、科学智能专区与AIGC创作引擎FlowBench,旨在连接全球开发者、加速科研范式创新、赋能创意表达。自2022年11月初成立至今,魔搭社区已成长为中国最大AI开源社区,其模型数量已突破10万,服务了全球20
9月24日,2025云栖大会现场,阿里云CTO周靖人接连发布了七款大模型技术产品。七款技术产品覆盖语言、语音、视觉、多模态、代码等模型领域,在模型智能水平、Agent工具调用以及Coding能力、深度推理、多模态等方面均实现突破。在大语言模型中,阿里通义旗舰模型Qwen3-Max全新亮相,性能超过G
9月24日,阿里云在云栖大会上宣布新一轮全球基础设施扩建计划:将在巴西、法国和荷兰首次设立云计算地域节点(region),并将扩建墨西哥、日本、韩国、马来西亚和迪拜的数据中心,以便更好服务全球客户日益增长的AI和云计算需求。目前,阿里云在全球29个地区运营91个可用区,是中国最大、亚太第一的云服务商
9月24日,在2025云栖大会上,阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭表示,当下行业处于“自主行动”阶段,AI掌握工具使用和编程能力以“辅助人”。记者获悉,阿里云百炼平台已有超20万开发者开发了80多万个Agent。同时,通义灵码插件下载量已超2200万,累计为开发者生成超60亿行