文 | 杨苏颖
来源 | 智能相对论
在前文字时代,声音曾经是人类唯一的交流工具。由于声音的传播距离非常有限,所以那个时候人类的生存以“部落”为单位,关系十分紧密。后来随着传播媒介的一步步发展,我们开始不再需要彼此近距离交流就能获得大量信息,反而,却开始突然怀念单一的声音带给我们的感觉,这种最原始的媒介承载着人类最充沛的情感。
今年1月份,世界首部利用人工智能模拟人声的纪录片在央视播出,而这部名为《创新中国》的纪录片解说词却全程是由在2013年就“已逝”的声音完成的。这个奇迹的背后是科大讯飞利用语言合成技术成功帮AI模拟出了我国已故著名配音演员,语言艺术家李易的声音。
科大讯飞强劲的语言合成技术让AI模拟的声音成功打动了李易老师的学生、朋友和家人。在AI自然流畅的语言解说当中,似乎还能再见故人的音容笑貌。科大讯飞这项语音合成技术主要由三个步骤构成:
一是输入文本,让机器模拟人对自然语言的理解过程,对文本进行语言处理,主要包括文本规整、词语切分、语法语义分析,然后给出后续步骤所需要的发音提示;
二是规划音段特征,比如音调、音长、音重等等,让机器可以对语言的特有韵律进行处理,使机器模拟的声音更自然并且更准确地传达实际语义。
最后根据前两部分处理的结果进行语音合成即可。通过这几个步骤,AI模拟的声音与人声已经非常相似,即使是最熟悉的人在某些情况下也很难分辨机器人与人声的界限。
AI配音拉动的两驾“马车”
那么这么惊艳的人工智能配音技术,它的边界究竟能够延伸到多远的地方呢?智能相对论分析师杨苏颖就此提出了人工智能配音的两个用武之地。
1、“粉丝经济”向AI配音伸出“橄榄枝”?
“粉丝经济”已经成为现在文娱产业经济增长的主要支柱之一。随着最近养成类偶像节目的火爆,粉丝对明星投入的情感越来越多,随之带动这个群体为明星付费的意愿同样水涨船高。网传范冰冰弟弟范丞丞在新浪微博发布付费阅读的自拍,一夜徒手狂赚几百万(后遭到经纪人否认)。既然,明星的周边如此火爆,何不运用配合人工智能语音合成的VR、AR技术来打造的虚拟范丞丞们,让他们更真实地出现在粉丝的日常生活当中呢?要深挖中国的粉丝潜力,比起像腾讯视频之前在明日之子上打造虚拟二次元偶像“荷兹”,听着现实当中熟悉的偶像声音叫自己起床,陪自己聊天,这样的虚拟真人版偶像或许更能得到粉丝认可。
2、AI配音是音也是“药”
据国外媒体报道,有研究表明,年迈夫妇可能因为一方丧偶而增大死亡率,这种现象被称为“心碎综合症”。这项研究由哈佛大学和威斯康斯大学麦迪逊分校的两位科学家负责,研究结果显示,男性丧妻后“全因死亡率”的概率增大了18%,女性丧夫后“全死因死亡率”的概率增大了16%。并且我们还可以做一个合理推断,在其他丧子或者丧双亲的情况下,这种“心碎综合症”的表现也一定存在,比如在唐山大地震和汶川地震之后。心理学家表示,要想修复这种创伤是非常困难的。但是人工智能配音的AI或许可以做到呢,它能够利用过去已有的音频合成亲人的声音,如果心理医生说的话能够用亲人的声音来传达,也许可以帮助病人更快地走出阴霾。
AI 配音在舞台上也会唱“黑脸”
但是,一切技术都是刀子的翻版,人工智能配音技术解决问题的同时也会引发新的问题,智能相对论分析师杨苏颖认为,这项技术在广泛落地之前还要接受不少拷问。
1、AI盗用声音却能“无罪释放”?
手机里高德地图我们足够熟悉,但大家不知道的可能是其导航应用所采用林志玲声音其实部分是采用了人工智能配音技术后期合成的。那么大家可能觉得语音合成必须得提前去技术公司录制这样一段纯净的声音。
但是事实上,语音合成却对音频质量没有那么高的要求,利用海量的互联网音频也可以实现人声模仿。Google Research软件工程师发表论文《Looking to Listen atthe Cocktail Party》采用的全新视听模型可以在不同噪音之中,把重叠的人声分离出来,形成每一位说话者单独纯净的音频信号。同时,讯飞也提出以全自动无监督方法快速得到单个目标发音人的纯净音库。
之前伯明翰阿拉巴马大学的一项调查表明,如果给予AI的的信息足够多,它可以生成任何人以假乱真的图片或者视频。现在个人的声音已经越来越成为个人身份的标志之一,对个人声音利益的侵害也同肖像一样可能造成个人人格尊严和财产利益上的损失。我们知道明星的形象拥有肖像权,如果他们的照片被他人私自用作商业用途时,他们可以一纸诉状将别人告上法庭维护自己的肖像权。但是目前在我国立法界及学界对声音权的保护却仍无统一定论,如果个人的声音被别人盗用是没有法律能够对其进行保护的。
2、AI配音搅局声纹识别
大家可能听说过声纹鉴定,一般来说人的发声具有特定性和稳定性,虽不能说完全达到了指纹那样精确的程度,却仍然有越来越多国家已经把声纹鉴定作为辨认犯罪嫌疑人的重要手段。
但在GeekPwn2017国际安全极客大赛上,白帽黑客们却上演了一场与声纹识别的对弈。现场5组选手有4组根据《王者荣耀》里英雄妲己的声音样本,利用AI语音合成技术模拟妲己声音通过“声纹锁”的验证,成功欺骗了语音验证系统,这意味着利用个人声音验证身份可能没那么靠谱。
“声纹识别”在现实当中用途十分广泛,离我们最近的有手机声纹解锁,另外,在智能家居产品当中,以及公共安全领域,它也有许多落地点。但是当声纹识别碰上了AI语音合成技术,一场智能的博弈就开始了,一不小心就会打开个人隐私安全的潘多拉魔盒。AI语音合成技术越高明,挟持该技术的人就能越轻而易举的闯入你的生活。
此外,在警察侦查工作中,原本进行声纹分析可以判断说话人的性别、年龄、方言(生活地区)等特征为侦查提供方向和范围,但 AI配音的干扰要求刑侦手段需迅速跟上科技发展的步伐,否则声纹鉴定的有效性就会受到普遍质疑,司法判决的过程也会变得异常艰难,这无疑是为犯罪者提供了另一层保护伞。
3、AI能不能别老和艺术家杠上?
AI配音在《创新中国》中的表现非常令人吃惊,人类激动的眼泪印证了语音合成技术的成功。因此,不禁有人发问,AI配音如果在行业里广泛应用会否取代传统的配音演员呢?配音演员由四字组成,不仅重在“配音”,其实亦重在“演员”。今年年初口碑爆棚的综艺《声临其境》在展示了优秀演员的配音功力同时,也让观众看到在配音间里,配音者不仅仅是提供声音,更要演戏。因为配音必须要符合剧本角色的情绪,甚至包括呼吸的频率都要对得上。
目前要建立机器的情感识别系统已经非常困难,机器深度学习需要大量数据进行量化分析,而人类情感是最难以被量化的存在。所以更别说让机器去生产情感从而进行配音表演。配音演员和演员这两种职业本就异曲同工,所以AI配音取代传统配音演员独立参与影视剧制作是不可能的。
不过,AI配音代替游戏配音和读书配音倒是不错的选择。像四平八稳的纪录片一样,这类配音并不需要调动太多的情感,就算人工智能配音需要存在几种不同的感*彩,机器学习的量也在可控制的范围之内,不会像影视剧那样复杂。
在AI配音这件事情上,有人拍案叫绝,有人忧心忡忡。技术善论技术恶论的对峙不会停止,但是只要控制的阀门还掌握在人类的手中,一切就不会那么糟。
【完】
智能相对论:深挖人工智能这口井,评出咸淡,讲出黑白,道出vb深浅。重点关注领域:AI+医疗、机器人、智能驾驶、AI+硬件、物联网、AI+金融、AI+安全、AR/VR、开发者以及背后的芯片、算法、人机交互等。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
2025年10月25日,2025世界青年科学家峰会之人工智能(AI)融合创新发展论坛在浙江温州成功举办。本次论坛由国际院士科创中心主办,中国投资协会能源投资专业委员会、温港院士科创中心承办,中国电工技术学会、中科先进技术温州研究院与温州市电力工程学会提供支持,以“瓯江论道-AI赋能绿色发展”为主题,
个人创业需要启动成本低、无需庞大团队、可快速验证、能利用个人技能或资源。这里分享适合个人创业的十个机会一.AI内容优化与本地化服务·做什么:帮助企业或个人利用AI工具(如GPT-4,Midjourney)优化内容生产流程。例如,为跨境电商撰写多语言产品描述,为小红书博主生成爆款文案,为小公司制作营销
文/道哥美国设计软件公司Figma近期在纽约证券交易所挂牌上市,首日即上演“狂飙”行情——发行价定每股33美元,开盘报价85美元,较发行价翻倍。首日收报115.50美元,较发行价大涨约250%,市值飙升至近670亿美元,创下近30年来同等规模美股IPO的最大单日涨幅纪录。然而,随着短线资金获利了结,
文/一灯来源/节点财经在当前无人敢缺席的AI军备竞赛中,巨头们一面为巨额的资本支出焦虑,一面又向市场勾勒着未来的宏伟蓝图。在各家动辄千亿级投入的背景下,市场迫切需要一份关于AI回报价值的有力证明。而腾讯,率先给出了答卷。8月13日,腾讯控股发布2025年第二季度财报。尽管资本开支同比剧增119%,达
文/二风来源/节点财经2025年的硅谷,一场没有硝烟的战争正以前所未有的烈度上演。这场战争的核心武器不是代码或芯片,而是人——那些全球仅有数千名、能够构建未来人工智能基础模型的顶尖大脑。在这场激烈的人才争夺战中,Meta及其首席执行官马克·扎克伯格(MarkZuckerberg)正扮演着最具侵略性的
摘要续航、性能和AI,这三件原本互相打架的事,正在一台轻薄本里慢慢和解。我上一次正经用一台Windows笔记本,已经是上学期间,很多年前的事了。记忆还停留在上学那会儿,为了打游戏,我背着一台又厚又沉的「游戏本」在宿舍和教室之间来回,包带勒在肩膀上,键盘下方烫手,电池撑不过两节课,离了插座基本等于半残
痛点引入与概述(Introduction)只要你是一名国内开发者,一定经历过这样的抓狂瞬间:·在各种代理间反复横跳,只为了让claude命令能执行超过10秒不报ConnectionTimedOut;·好不容易注册的Claude账号,下一次claudecommit时直接提示Youraccounthas
随着大型语言模型在研发、产品与业务中渗透得越来越深,技术团队面对的现实不再是“要不要用”,而是“怎么高效、稳定、合规地调用几十上百种模型”。直接逐一申请各家官方的APIKey,管理成本高、切换成本更高,而模型供应不稳定、账单零散又缺乏企业级管控的痛点,让API聚合平台和API中转站成为技术栈中不可或
二手手机回收看似简单,实际涉及价格评估、设备检测、物流交接、隐私安全、付款结算、争议处理等多个环节。对用户来说,最担心的往往不是“旧手机能不能卖”,而是“价格是否合理”“寄出去是否安全”“检测后会不会变价”“手机隐私会不会泄露”“如果不满意能不能退回”。合肥曦诺传媒有限公司作为一家面向全国客户提供二
当你的团队开始把ClaudeCode和Codex当作日常编程搭档时,一个被反复低估的难题会浮出水面:这些工具的模型配置不像玩具Demo那样一键切换,真正落到生产环境,你会撞上API兼容性、Token消耗追踪、多账号权限管理这些实打实的工程问题。不少团队卡在“能调通”到“能管好”之间的鸿沟里——接口地
文/郭静来源/节点财经据TheInformation报道,DeepSeek已完成首轮外部融资,募资总额超500亿元人民币(约74亿美元),估值达到500亿美元。如果消息属实,这将是国产大模型乃至整个中国AI行业迄今为止最大的一笔单轮融资。互联网、制造业、老牌资本、国家队,一样不缺——梁文锋亲自坐庄,
“PC正在被重新定义,这次重塑的意义堪比当年手机向智能手机的变革。”6月1日,英伟达CEO黄仁勋在COMPUTEX2026(台北国际电脑展)上进行了一场近2小时的主题演讲。在演讲中,他从口袋里掏出了一块面向个人AI电脑的超级芯片—RTXSpark,宣告智能体AI(AgenticAI)时代已全面到来。
团队启动了一项关键的代码库现代化项目,目标是将遗留的Python服务迁移至更健壮的架构,并利用前沿模型进行全量代码审计与重构。评估了多个选项后,我们决定采用ClaudeCode,看中的是ClaudeOpus4.8在SWE-bench上展现出的顶尖推理能力以及其超长上下文处理窗口,理论上非常适合处理我
每到节假日出行,买火车票就成了不少人头疼的事。高铁票用什么平台买比较靠谱?哪个平台抢票成功率更高?支付方便吗?出票快不快?怎么买才划算?这些问题几乎每个坐火车的人都遇到过。从实际使用体验来看,市面上几个主流平台各有特点,但从功能完整度和省钱力度上,同程旅行近期的表现值得关注。一、抢票成功率,取决于平
大模型的能力已经渗透到日常开发、产品迭代和业务决策的每个环节,但一个越来越尖锐的问题也随之浮现:当团队开始重度使用多个模型、多种工具时,AI费用如何做到既透明又可控?传统的「一个模型配一把Key」方案,在面对ClaudeCode、Codex、Cursor、Cline等不同接入协议、不同消耗特征的工作