文 | 杨苏颖
来源 | 智能相对论
在前文字时代,声音曾经是人类唯一的交流工具。由于声音的传播距离非常有限,所以那个时候人类的生存以“部落”为单位,关系十分紧密。后来随着传播媒介的一步步发展,我们开始不再需要彼此近距离交流就能获得大量信息,反而,却开始突然怀念单一的声音带给我们的感觉,这种最原始的媒介承载着人类最充沛的情感。
今年1月份,世界首部利用人工智能模拟人声的纪录片在央视播出,而这部名为《创新中国》的纪录片解说词却全程是由在2013年就“已逝”的声音完成的。这个奇迹的背后是科大讯飞利用语言合成技术成功帮AI模拟出了我国已故著名配音演员,语言艺术家李易的声音。
科大讯飞强劲的语言合成技术让AI模拟的声音成功打动了李易老师的学生、朋友和家人。在AI自然流畅的语言解说当中,似乎还能再见故人的音容笑貌。科大讯飞这项语音合成技术主要由三个步骤构成:
一是输入文本,让机器模拟人对自然语言的理解过程,对文本进行语言处理,主要包括文本规整、词语切分、语法语义分析,然后给出后续步骤所需要的发音提示;
二是规划音段特征,比如音调、音长、音重等等,让机器可以对语言的特有韵律进行处理,使机器模拟的声音更自然并且更准确地传达实际语义。
最后根据前两部分处理的结果进行语音合成即可。通过这几个步骤,AI模拟的声音与人声已经非常相似,即使是最熟悉的人在某些情况下也很难分辨机器人与人声的界限。
AI配音拉动的两驾“马车”
那么这么惊艳的人工智能配音技术,它的边界究竟能够延伸到多远的地方呢?智能相对论分析师杨苏颖就此提出了人工智能配音的两个用武之地。
1、“粉丝经济”向AI配音伸出“橄榄枝”?
“粉丝经济”已经成为现在文娱产业经济增长的主要支柱之一。随着最近养成类偶像节目的火爆,粉丝对明星投入的情感越来越多,随之带动这个群体为明星付费的意愿同样水涨船高。网传范冰冰弟弟范丞丞在新浪微博发布付费阅读的自拍,一夜徒手狂赚几百万(后遭到经纪人否认)。既然,明星的周边如此火爆,何不运用配合人工智能语音合成的VR、AR技术来打造的虚拟范丞丞们,让他们更真实地出现在粉丝的日常生活当中呢?要深挖中国的粉丝潜力,比起像腾讯视频之前在明日之子上打造虚拟二次元偶像“荷兹”,听着现实当中熟悉的偶像声音叫自己起床,陪自己聊天,这样的虚拟真人版偶像或许更能得到粉丝认可。
2、AI配音是音也是“药”
据国外媒体报道,有研究表明,年迈夫妇可能因为一方丧偶而增大死亡率,这种现象被称为“心碎综合症”。这项研究由哈佛大学和威斯康斯大学麦迪逊分校的两位科学家负责,研究结果显示,男性丧妻后“全因死亡率”的概率增大了18%,女性丧夫后“全死因死亡率”的概率增大了16%。并且我们还可以做一个合理推断,在其他丧子或者丧双亲的情况下,这种“心碎综合症”的表现也一定存在,比如在唐山大地震和汶川地震之后。心理学家表示,要想修复这种创伤是非常困难的。但是人工智能配音的AI或许可以做到呢,它能够利用过去已有的音频合成亲人的声音,如果心理医生说的话能够用亲人的声音来传达,也许可以帮助病人更快地走出阴霾。
AI 配音在舞台上也会唱“黑脸”
但是,一切技术都是刀子的翻版,人工智能配音技术解决问题的同时也会引发新的问题,智能相对论分析师杨苏颖认为,这项技术在广泛落地之前还要接受不少拷问。
1、AI盗用声音却能“无罪释放”?
手机里高德地图我们足够熟悉,但大家不知道的可能是其导航应用所采用林志玲声音其实部分是采用了人工智能配音技术后期合成的。那么大家可能觉得语音合成必须得提前去技术公司录制这样一段纯净的声音。
但是事实上,语音合成却对音频质量没有那么高的要求,利用海量的互联网音频也可以实现人声模仿。Google Research软件工程师发表论文《Looking to Listen atthe Cocktail Party》采用的全新视听模型可以在不同噪音之中,把重叠的人声分离出来,形成每一位说话者单独纯净的音频信号。同时,讯飞也提出以全自动无监督方法快速得到单个目标发音人的纯净音库。
之前伯明翰阿拉巴马大学的一项调查表明,如果给予AI的的信息足够多,它可以生成任何人以假乱真的图片或者视频。现在个人的声音已经越来越成为个人身份的标志之一,对个人声音利益的侵害也同肖像一样可能造成个人人格尊严和财产利益上的损失。我们知道明星的形象拥有肖像权,如果他们的照片被他人私自用作商业用途时,他们可以一纸诉状将别人告上法庭维护自己的肖像权。但是目前在我国立法界及学界对声音权的保护却仍无统一定论,如果个人的声音被别人盗用是没有法律能够对其进行保护的。
2、AI配音搅局声纹识别
大家可能听说过声纹鉴定,一般来说人的发声具有特定性和稳定性,虽不能说完全达到了指纹那样精确的程度,却仍然有越来越多国家已经把声纹鉴定作为辨认犯罪嫌疑人的重要手段。
但在GeekPwn2017国际安全极客大赛上,白帽黑客们却上演了一场与声纹识别的对弈。现场5组选手有4组根据《王者荣耀》里英雄妲己的声音样本,利用AI语音合成技术模拟妲己声音通过“声纹锁”的验证,成功欺骗了语音验证系统,这意味着利用个人声音验证身份可能没那么靠谱。
“声纹识别”在现实当中用途十分广泛,离我们最近的有手机声纹解锁,另外,在智能家居产品当中,以及公共安全领域,它也有许多落地点。但是当声纹识别碰上了AI语音合成技术,一场智能的博弈就开始了,一不小心就会打开个人隐私安全的潘多拉魔盒。AI语音合成技术越高明,挟持该技术的人就能越轻而易举的闯入你的生活。
此外,在警察侦查工作中,原本进行声纹分析可以判断说话人的性别、年龄、方言(生活地区)等特征为侦查提供方向和范围,但 AI配音的干扰要求刑侦手段需迅速跟上科技发展的步伐,否则声纹鉴定的有效性就会受到普遍质疑,司法判决的过程也会变得异常艰难,这无疑是为犯罪者提供了另一层保护伞。
3、AI能不能别老和艺术家杠上?
AI配音在《创新中国》中的表现非常令人吃惊,人类激动的眼泪印证了语音合成技术的成功。因此,不禁有人发问,AI配音如果在行业里广泛应用会否取代传统的配音演员呢?配音演员由四字组成,不仅重在“配音”,其实亦重在“演员”。今年年初口碑爆棚的综艺《声临其境》在展示了优秀演员的配音功力同时,也让观众看到在配音间里,配音者不仅仅是提供声音,更要演戏。因为配音必须要符合剧本角色的情绪,甚至包括呼吸的频率都要对得上。
目前要建立机器的情感识别系统已经非常困难,机器深度学习需要大量数据进行量化分析,而人类情感是最难以被量化的存在。所以更别说让机器去生产情感从而进行配音表演。配音演员和演员这两种职业本就异曲同工,所以AI配音取代传统配音演员独立参与影视剧制作是不可能的。
不过,AI配音代替游戏配音和读书配音倒是不错的选择。像四平八稳的纪录片一样,这类配音并不需要调动太多的情感,就算人工智能配音需要存在几种不同的感情色彩,机器学习的量也在可控制的范围之内,不会像影视剧那样复杂。
在AI配音这件事情上,有人拍案叫绝,有人忧心忡忡。技术善论技术恶论的对峙不会停止,但是只要控制的阀门还掌握在人类的手中,一切就不会那么糟。
【完】
智能相对论:深挖人工智能这口井,评出咸淡,讲出黑白,道出vb深浅。重点关注领域:AI+医疗、机器人、智能驾驶、AI+硬件、物联网、AI+金融、AI+安全、AR/VR、开发者以及背后的芯片、算法、人机交互等。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
展望科大讯飞的2022,“讯飞超脑2030计划”发布,科大讯飞全面锚定虚拟人、虚拟宠物,在雄厚的技术能力和丰富的场景经验支持下,持续验证着其面向新场景、新领域的创新能力,也在加速转化成为其未来5到10年的业绩支撑点。
如今,人们对不受空间、时间限制的智能化、科技化家庭健身服务需求日益迫切,AI智能健身已然成为大众健身新诉求,广东中科凯泽信息科技有限公司作为新兴崛起的智能健身研发企业
1956年8月,以香农为代表的一群科学家在达特茅斯学院,围绕着“用机器来模仿人类学习以及其他方面的智能”这个主题,创造出人工智能(ArtificialIntelligence)这个影响深远的概念。
近日,人工智能学术与产业界的权威年度盛会“MEET2022智能未来大会”召开,会上公布年度人工智能领航企业、人工智能创业领袖等榜单。其中,影谱科技创始人姬晓晨女士入选2021年度人工智能创业领袖,成为唯一上榜的女性企业家,同时上榜的还有商汤、旷视、依图、第四范式、地平线等企业领袖。
一场没有罗永浩的“罗永浩直播”,正在改写带货规则当数字人罗永浩在百度直播间举起青岛啤酒,以标志性幽默回应粉丝提问时,弹幕疯狂刷出“这是真的还是假的?”的疑问。这场持续近7小时的直播,创下1300万人次观看、GMV突破5500万元的惊人战绩,甚至超过了他本人一个月前真人直播5000万元的成绩。数字人主
高频互动、个性化教学、突破成本壁垒,AI老师让英语学习更普惠。6月24日,新东方正式推出面向消费者的首款原创AI教育产品——“新东方AI1对1”。这款产品标志着新东方在教育+AI战略布局中迈出关键一步,旨在以科技力量推动优质教育资源的普惠发展。在发布会现场,新东方教育科技集团CEO周成刚表示:“AI
大家好,我是白杨SEO,专注SEO十年以上,全网SEO流量实战派,AI搜索优化研究者。为什么想分享这个AI工作流及coze扣子这个?因为我们搞流量的如果学会了用AI给我们生产提效将更有助于我们去获客。目前白杨SEO用得并不是很好,分享仅供参考,希望给你一些启发。老规矩,先说下文章大纲如下:1、AI工
近期,“AI新云”(NeoCloud)概念在科技圈和投资圈引发热潮。今年3月,被业内称作“英伟达亲儿子”的AI基础设施企业CoreWeave上市。这家依托英伟达GPU资源冲击新云市场的初创公司,上市不到3个月市值飙升359%,达881亿美元。CoreWeave的“身价暴涨”吸引了无数视线。对此,不少
一场人工智能领域的革新风暴正从华为开发者大会现场席卷全球产业界。2025年6月20日,在东莞举行的华为开发者大会HDC2025上,华为常务董事、华为云计算CEO张平安揭开了盘古大模型5.5的神秘面纱。这一全新版本在自然语言处理、计算机视觉、多模态、预测和科学计算五大基础模型上实现全面突破,标志着中国
一行代码未写,企业已获完整客服系统——这将是AI代理普及的新起点。“今天标志着AI代理技术从实验室走向产业的转折点。”OpenAI产品负责人OlivierGodement在项目发布声明中如此评价。就在今日,这家AI巨头通过HuggingFace平台开源了一套完整的客户服务代理框架,采用宽松的MIT许
6月17日,阿里巴巴旗下智能信息平台夸克App正式推出全新学习产品“夸克老师”——一款集讲题、批作业、出题、找试卷于一体的AI家教。该功能依托通义千问大模型,通过指令微调、强化学习等前沿技术,首次实现“因材施教”的个性化辅导,标志着AI在教育领域的应用迈入新阶段。技术突破:AI模拟真人教学,推理能力
2025年6月17日,字节跳动旗下智能助手豆包正式在电脑版及网页端全量上线“AI播客”功能,用户只需上传PDF文档或网页链接,即可一键生成由两位AI主播演绎的对话式播客节目。这一创新功能凭借高度拟人化的语音效果和秒级转化效率,迅速引发内容创作者、学生群体及职场人士的关注。技术突破:真人级语音交互,秒