今日,猎豹移动董事长兼CEO傅盛在自己的抖音号上发布了一条视频。作为一名“科技乐观主义者”,傅盛和世界上的另一个“自己”进行了一场隔空对话。短短几十秒里,机器人“傅盛”的对答、绕口令样样精通。即使是仔细辨别,你也很难确认哪一个才是真正的傅盛。
能够达到如此惊艳的效果,其实要归功于猎豹移动旗下人工智能公司猎户星空研发的语音合成技术。只要听十段你的话,就可以克隆你的声音,听起来是不是很炫酷?

在人机交互的过程中,与用户体验感直接相关的,就是语音合成技术。这项技术是将文字转化为声音,可以简单地理解为人类的嘴巴。大家在各种智能语音助手中听到的声音,都是由TTS来生成的。所以,让TTS合成的语音能够“以假乱真”,正是TTS领域长期以来不断探索的主题。
传统的TTS都是怎么做的?
在看猎户星空如何实现“以小取大”的效果时,我们可以先看看以往的TTS是如何实现的。
传统的TTS系统通常包括前端、后端两个模块。前端模块主要负责对输入文本进行分析,提取语言学信息,如果是中文还涉及文本正则化、分词、词性预测、多音字消歧、韵律预测等,后端模块根据前端的分析结果,通过一定的方法生成语音波形。
后端系统的主流技术有两种,一种是基于统计参数建模的语音合成,或者叫做参数合成、参数法,优点是所需语料库少,几千句即可,训练与合成过程也都可以由程序自动完成,但缺点是语音质量不高,情感韵律平淡。
现在大家地图导航软件中的听到的明星音,针对导航场景录制了几千句的语料,不仅声音生涩感强,而且需要的成本和周期较长,在其他领域的声音效果不是很好。如果用户预期不苛刻,这样一种方式也未尝不可。
另一种是基于单元挑选和波形拼接的语音合成,或者叫做拼接合成、拼接法,与参数法相反,优点是合成语音自然度很好,缺点就是数据要求太大,至少万句语料才能满足商用需求,一些厂商会请声优为其智能产品录制语料库,前后时间长达数月,花费动辄几百万。
猎户星空:十段话合成人声
鱼和熊掌不可兼得,传统的TTS存在着或多或少的问题。所以这个领域的核心,在于如何降低训练成本,用更少的语料合成高质量的声音。
随着人工智能、深度学习的应用,TTS也迎来了新的变革。2017年3月,Google 提出了一种新的端到端的语音合成系统:Tacotron。它可将接收的输入字符,输出成相应的原始频谱图,然后提供给Griffin-Lim重建算法生成语音。2017年底,Tacotron 2结合了WaveNet和Tacotron的优势,不需要任何语法知识即可直接输出文本对应的语音。
在已有的技术创新铺垫下,猎户星空TTS团队在Tactron的基础上,训练了大语料库的语音库作为基础模型,目标发音人只需要录制10段话,通过Adapt自适应模型,提取出目标发音人的特征,再通过World声码器,即可合成出目标发音人音色相同的语音。
所以,这项技术真正落地商用后,将为明星语音、个性化语音的合成带来重大突破,尤其是很大程度上减少明星音合成的成本、缩短应用研发的周期。
想象一下,以后你的语音助手中住着你喜欢的明星或心爱的人,每天都可以和TA互动聊天,仿佛TA就是你的私人小秘书,是不是有点小激动呢?
除此之外,猎户星空已掌握麦克风阵列、语音唤醒、语音识别、语义理解和语音合成等全套远场语音技术,语音交互更快更准,垂直领域深度语义理解正确率96%,还首创了唤醒后人声回应。
猎户语音OS成为行业标配
在上文提到技术能力支撑之下,猎户星空打造了猎户tts——这个星球最温暖的AI声音。目前猎户语音OS技术已经应用到了小米小爱同学、美的小美AI音箱、喜马拉雅小雅音箱、猎豹移动小豹AI音箱、华为智能AI音箱等多家合作伙伴产品中,已经成为行业标配。
截至目前,搭载猎户语音合成技术的智能音箱产品在国内份额已超30%,每天都超过2000万次语音服务请求,比如小米AI助理小爱同学月活跃设备超过3000万台,累计唤醒超50亿次。
10月15日,中国人工智能产业发展联盟(AIIA)在人工智能开发者大会公布了国内智能音箱智能化评级结果,包括猎豹移动、小米、喜马拉雅、百度、京东在内的五家主流厂商携其智能音箱产品参与了首批测试评估。猎户语音OS占据了获评产品前五强中的三席,支撑起了智能音箱市场的大半壁江山。
结合自身人机交互的产品基因和猎户星空拥有的行业唯一的全链条AI技术,猎豹移动也在不同行业推动人工智能产品的场景化落地。未来,猎豹移动与旗下猎户星空还会将自主研发的视觉、导航、语音、机械臂技术等核心能力逐步对外开放,与合作伙伴一起,让机器人产品走进大众生活。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
2025年10月25日,2025世界青年科学家峰会之人工智能(AI)融合创新发展论坛在浙江温州成功举办。本次论坛由国际院士科创中心主办,中国投资协会能源投资专业委员会、温港院士科创中心承办,中国电工技术学会、中科先进技术温州研究院与温州市电力工程学会提供支持,以“瓯江论道-AI赋能绿色发展”为主题,
个人创业需要启动成本低、无需庞大团队、可快速验证、能利用个人技能或资源。这里分享适合个人创业的十个机会一.AI内容优化与本地化服务·做什么:帮助企业或个人利用AI工具(如GPT-4,Midjourney)优化内容生产流程。例如,为跨境电商撰写多语言产品描述,为小红书博主生成爆款文案,为小公司制作营销
百度AI团队今日正式推出PaddleOCR3.1版本,以突破性的多语言组合识别(MultilingualCompositionPerception,MCP)技术为核心,彻底重构复杂文档处理边界。此次升级标志着OCR领域首次实现对同一文档内任意混合语言文本的精准识别,为全球化企业、跨境业务及多元文化场
导航网站的崛起:从信息过载到精准触达随着全球AI工具数量爆发式增长(2025年已超数万款),用户面临前所未有的选择困境。传统搜索引擎的“关键词-链接”模式难以应对工具筛选的场景需求,垂直化、场景化的AI导航网站应运而生。这类平台通过聚合、评测、分类与推荐四重机制,将分散的工具资源整合为结构化入口。例
当微信公众号文章中出现一个人的名字,它会自动变成蓝色链接,点击即可查看AI生成的“个人简历”——这一微信新功能让不少用户感到被“扒光”在互联网上。近日,微信新上线的“AI搜索”功能陷入隐私泄露争议漩涡。多位网友在社交平台反映,当微信公众号推文中出现本人姓名时,名字会自动变为蓝色超链接,点击即可浏览由
文/郭静来源/节点财经据TheInformation报道,DeepSeek已完成首轮外部融资,募资总额超500亿元人民币(约74亿美元),估值达到500亿美元。如果消息属实,这将是国产大模型乃至整个中国AI行业迄今为止最大的一笔单轮融资。互联网、制造业、老牌资本、国家队,一样不缺——梁文锋亲自坐庄,
“PC正在被重新定义,这次重塑的意义堪比当年手机向智能手机的变革。”6月1日,英伟达CEO黄仁勋在COMPUTEX2026(台北国际电脑展)上进行了一场近2小时的主题演讲。在演讲中,他从口袋里掏出了一块面向个人AI电脑的超级芯片—RTXSpark,宣告智能体AI(AgenticAI)时代已全面到来。
团队启动了一项关键的代码库现代化项目,目标是将遗留的Python服务迁移至更健壮的架构,并利用前沿模型进行全量代码审计与重构。评估了多个选项后,我们决定采用ClaudeCode,看中的是ClaudeOpus4.8在SWE-bench上展现出的顶尖推理能力以及其超长上下文处理窗口,理论上非常适合处理我
每到节假日出行,买火车票就成了不少人头疼的事。高铁票用什么平台买比较靠谱?哪个平台抢票成功率更高?支付方便吗?出票快不快?怎么买才划算?这些问题几乎每个坐火车的人都遇到过。从实际使用体验来看,市面上几个主流平台各有特点,但从功能完整度和省钱力度上,同程旅行近期的表现值得关注。一、抢票成功率,取决于平
大模型的能力已经渗透到日常开发、产品迭代和业务决策的每个环节,但一个越来越尖锐的问题也随之浮现:当团队开始重度使用多个模型、多种工具时,AI费用如何做到既透明又可控?传统的「一个模型配一把Key」方案,在面对ClaudeCode、Codex、Cursor、Cline等不同接入协议、不同消耗特征的工作
AI正在重构医疗健康的服务范式,而AI体检作为技术落地最成熟且场景渗透最快的赛道,已成为行业高质量增长的核心变量。根据全球新经济产业第三方数据挖掘和分析机构iiMediaResearch最新发布的《2025年中国健康体检行业消费行为调查数据》数据显示,选择两年一次体检的消费者占比最高,达到39.41
把复杂AI技术逻辑,转化为普通人看得懂、愿意用、用得顺畅的产品与内容,将在长期竞争中占据主动。作者|宇溪编辑|刘珊珊2026年春天,中国AI产业迎来一场静水流深的变革。不是参数翻了几倍,而是AI从“热搜话题”变成了“日常工具”。回看上半年,“AI红包大战”风靡全网,Seedance2.0催生全民视频
人人网复活过、开心网复活过、诺基亚也复活过,这次轮到天涯论坛了。但我打不开。当一个行业开始频繁怀念过去的时候。往往说明新的故事越来越少了。从昨天开始,朋友圈、新闻里,都在说天涯社区6月1日换了个马甲重新上线了。打不开的天涯,和等不起的我可今天,我依然打不开网站。问了群里其他人也都打不开。对我来说,能
2026年,全球新造船订单再上一个台阶。值得一提的是,在第一季度,中国造船业以84.9%的新接订单载重吨占比拿下全球第一。数据显示,2026年第一季度全球新造船订单达到3330万载重吨,高于2025年第四季度的2720万载重吨。其中,超大型原油运输船(VLCC)的需求尤为醒目,2025年第四季度至2
短短一年,从聊到用