文 | 杨苏颖
来源 | 智能相对论
在前文字时代,声音曾经是人类唯一的交流工具。由于声音的传播距离非常有限,所以那个时候人类的生存以“部落”为单位,关系十分紧密。后来随着传播媒介的一步步发展,我们开始不再需要彼此近距离交流就能获得大量信息,反而,却开始突然怀念单一的声音带给我们的感觉,这种最原始的媒介承载着人类最充沛的情感。
今年1月份,世界首部利用人工智能模拟人声的纪录片在央视播出,而这部名为《创新中国》的纪录片解说词却全程是由在2013年就“已逝”的声音完成的。这个奇迹的背后是科大讯飞利用语言合成技术成功帮AI模拟出了我国已故著名配音演员,语言艺术家李易的声音。
科大讯飞强劲的语言合成技术让AI模拟的声音成功打动了李易老师的学生、朋友和家人。在AI自然流畅的语言解说当中,似乎还能再见故人的音容笑貌。科大讯飞这项语音合成技术主要由三个步骤构成:
一是输入文本,让机器模拟人对自然语言的理解过程,对文本进行语言处理,主要包括文本规整、词语切分、语法语义分析,然后给出后续步骤所需要的发音提示;
二是规划音段特征,比如音调、音长、音重等等,让机器可以对语言的特有韵律进行处理,使机器模拟的声音更自然并且更准确地传达实际语义。
最后根据前两部分处理的结果进行语音合成即可。通过这几个步骤,AI模拟的声音与人声已经非常相似,即使是最熟悉的人在某些情况下也很难分辨机器人与人声的界限。
AI配音拉动的两驾“马车”
那么这么惊艳的人工智能配音技术,它的边界究竟能够延伸到多远的地方呢?智能相对论分析师杨苏颖就此提出了人工智能配音的两个用武之地。
1、“粉丝经济”向AI配音伸出“橄榄枝”?
“粉丝经济”已经成为现在文娱产业经济增长的主要支柱之一。随着最近养成类偶像节目的火爆,粉丝对明星投入的情感越来越多,随之带动这个群体为明星付费的意愿同样水涨船高。网传范冰冰弟弟范丞丞在新浪微博发布付费阅读的自拍,一夜徒手狂赚几百万(后遭到经纪人否认)。既然,明星的周边如此火爆,何不运用配合人工智能语音合成的VR、AR技术来打造的虚拟范丞丞们,让他们更真实地出现在粉丝的日常生活当中呢?要深挖中国的粉丝潜力,比起像腾讯视频之前在明日之子上打造虚拟二次元偶像“荷兹”,听着现实当中熟悉的偶像声音叫自己起床,陪自己聊天,这样的虚拟真人版偶像或许更能得到粉丝认可。
2、AI配音是音也是“药”
据国外媒体报道,有研究表明,年迈夫妇可能因为一方丧偶而增大死亡率,这种现象被称为“心碎综合症”。这项研究由哈佛大学和威斯康斯大学麦迪逊分校的两位科学家负责,研究结果显示,男性丧妻后“全因死亡率”的概率增大了18%,女性丧夫后“全死因死亡率”的概率增大了16%。并且我们还可以做一个合理推断,在其他丧子或者丧双亲的情况下,这种“心碎综合症”的表现也一定存在,比如在唐山大地震和汶川地震之后。心理学家表示,要想修复这种创伤是非常困难的。但是人工智能配音的AI或许可以做到呢,它能够利用过去已有的音频合成亲人的声音,如果心理医生说的话能够用亲人的声音来传达,也许可以帮助病人更快地走出阴霾。
AI 配音在舞台上也会唱“黑脸”
但是,一切技术都是刀子的翻版,人工智能配音技术解决问题的同时也会引发新的问题,智能相对论分析师杨苏颖认为,这项技术在广泛落地之前还要接受不少拷问。
1、AI盗用声音却能“无罪释放”?
手机里高德地图我们足够熟悉,但大家不知道的可能是其导航应用所采用林志玲声音其实部分是采用了人工智能配音技术后期合成的。那么大家可能觉得语音合成必须得提前去技术公司录制这样一段纯净的声音。
但是事实上,语音合成却对音频质量没有那么高的要求,利用海量的互联网音频也可以实现人声模仿。Google Research软件工程师发表论文《Looking to Listen atthe Cocktail Party》采用的全新视听模型可以在不同噪音之中,把重叠的人声分离出来,形成每一位说话者单独纯净的音频信号。同时,讯飞也提出以全自动无监督方法快速得到单个目标发音人的纯净音库。
之前伯明翰阿拉巴马大学的一项调查表明,如果给予AI的的信息足够多,它可以生成任何人以假乱真的图片或者视频。现在个人的声音已经越来越成为个人身份的标志之一,对个人声音利益的侵害也同肖像一样可能造成个人人格尊严和财产利益上的损失。我们知道明星的形象拥有肖像权,如果他们的照片被他人私自用作商业用途时,他们可以一纸诉状将别人告上法庭维护自己的肖像权。但是目前在我国立法界及学界对声音权的保护却仍无统一定论,如果个人的声音被别人盗用是没有法律能够对其进行保护的。
2、AI配音搅局声纹识别
大家可能听说过声纹鉴定,一般来说人的发声具有特定性和稳定性,虽不能说完全达到了指纹那样精确的程度,却仍然有越来越多国家已经把声纹鉴定作为辨认犯罪嫌疑人的重要手段。
但在GeekPwn2017国际安全极客大赛上,白帽黑客们却上演了一场与声纹识别的对弈。现场5组选手有4组根据《王者荣耀》里英雄妲己的声音样本,利用AI语音合成技术模拟妲己声音通过“声纹锁”的验证,成功欺骗了语音验证系统,这意味着利用个人声音验证身份可能没那么靠谱。
“声纹识别”在现实当中用途十分广泛,离我们最近的有手机声纹解锁,另外,在智能家居产品当中,以及公共安全领域,它也有许多落地点。但是当声纹识别碰上了AI语音合成技术,一场智能的博弈就开始了,一不小心就会打开个人隐私安全的潘多拉魔盒。AI语音合成技术越高明,挟持该技术的人就能越轻而易举的闯入你的生活。
此外,在警察侦查工作中,原本进行声纹分析可以判断说话人的性别、年龄、方言(生活地区)等特征为侦查提供方向和范围,但 AI配音的干扰要求刑侦手段需迅速跟上科技发展的步伐,否则声纹鉴定的有效性就会受到普遍质疑,司法判决的过程也会变得异常艰难,这无疑是为犯罪者提供了另一层保护伞。
3、AI能不能别老和艺术家杠上?
AI配音在《创新中国》中的表现非常令人吃惊,人类激动的眼泪印证了语音合成技术的成功。因此,不禁有人发问,AI配音如果在行业里广泛应用会否取代传统的配音演员呢?配音演员由四字组成,不仅重在“配音”,其实亦重在“演员”。今年年初口碑爆棚的综艺《声临其境》在展示了优秀演员的配音功力同时,也让观众看到在配音间里,配音者不仅仅是提供声音,更要演戏。因为配音必须要符合剧本角色的情绪,甚至包括呼吸的频率都要对得上。
目前要建立机器的情感识别系统已经非常困难,机器深度学习需要大量数据进行量化分析,而人类情感是最难以被量化的存在。所以更别说让机器去生产情感从而进行配音表演。配音演员和演员这两种职业本就异曲同工,所以AI配音取代传统配音演员独立参与影视剧制作是不可能的。
不过,AI配音代替游戏配音和读书配音倒是不错的选择。像四平八稳的纪录片一样,这类配音并不需要调动太多的情感,就算人工智能配音需要存在几种不同的感情色彩,机器学习的量也在可控制的范围之内,不会像影视剧那样复杂。
在AI配音这件事情上,有人拍案叫绝,有人忧心忡忡。技术善论技术恶论的对峙不会停止,但是只要控制的阀门还掌握在人类的手中,一切就不会那么糟。
【完】
智能相对论:深挖人工智能这口井,评出咸淡,讲出黑白,道出vb深浅。重点关注领域:AI+医疗、机器人、智能驾驶、AI+硬件、物联网、AI+金融、AI+安全、AR/VR、开发者以及背后的芯片、算法、人机交互等。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
展望科大讯飞的2022,“讯飞超脑2030计划”发布,科大讯飞全面锚定虚拟人、虚拟宠物,在雄厚的技术能力和丰富的场景经验支持下,持续验证着其面向新场景、新领域的创新能力,也在加速转化成为其未来5到10年的业绩支撑点。
如今,人们对不受空间、时间限制的智能化、科技化家庭健身服务需求日益迫切,AI智能健身已然成为大众健身新诉求,广东中科凯泽信息科技有限公司作为新兴崛起的智能健身研发企业
1956年8月,以香农为代表的一群科学家在达特茅斯学院,围绕着“用机器来模仿人类学习以及其他方面的智能”这个主题,创造出人工智能(ArtificialIntelligence)这个影响深远的概念。
近日,人工智能学术与产业界的权威年度盛会“MEET2022智能未来大会”召开,会上公布年度人工智能领航企业、人工智能创业领袖等榜单。其中,影谱科技创始人姬晓晨女士入选2021年度人工智能创业领袖,成为唯一上榜的女性企业家,同时上榜的还有商汤、旷视、依图、第四范式、地平线等企业领袖。
在大模型代表的新一轮技术浪潮下,智能化转型已然是毋庸置疑的趋势,科技大厂们纷纷给出了智能化的“道法术”,大大小小的企业也开始更新认知,想要从创新中挖掘出驱动增长的新质生产力。但现实和智能化的美好愿景之间,仍然横亘着一片鲜有人涉足的“荒海”,脚下还没有坚实的路。3月23日在天津举办的昇腾AI开发者创享
©自象限原创作者丨罗辑、苏奕编辑丨程心2024年开年,科技圈没有什么比Sora的出现更让人兴奋。如同ChatGPT在2023年初带来的LLM创业潮,Sora的发布也同样将视频生成模型推到了风口浪尖。科技巨头猛推产品,创业公司则乘风而上。3月13日,AI视频大模型公司爱诗科技完成亿元级人民币A1轮融资
当为科学技术巡游一方的神,行至人工智能的篇章,中国公司的2023年报里,写着AIGC的前世今生。翻开科技进步的编年史,每一次技术革命都有这样一条铁律:技术革命的最大受益者,通常不是率先做出突破的开疆派,而是率先将其发扬光大的技术流。靠着工业革命超越日不落的美利坚,把同样的故事,转载到了50年代的半导
3月22日,由天津蜜度文修智能科技有限公司主办的智能校对大模型文修2.0智臻发布会在津举行。发布会以“大模型赋能‘人工智能+办公’体验升级”为主题,邀请语言智能领域专家,以及各大媒体机构和合作伙伴,围绕大模型技术、应用落地发展、标准化进程进行分享交流。发布会上还发布了智能校对大模型文修2.0。天津市
3月22日消息,阿里通义千问重磅升级,向所有人免费开放1000万字的长文档处理功能,成为全球文档处理容量第一的AI应用。即日起,所有金融、法律、科研、医疗、教育等领域的专业人士,都可通过通义千问网站和APP快速读研报、分析财报、读科研论文、研判案情、读医疗报告、解读法律条文、分析考试成绩、总结深度文
关注卢松松,会经常给你分享一些我的经验和观点。马斯克是真男人啊,不仅SpaceX发射基地可以随意参观、连设计图纸都公开了。SpaceX刚刚发射完没几天,连他的AI大模型Grok-1也正式开源了。Grok-1是当前世界上参数最大的、开源大语言模型。296GB的大小,3140亿参数,远超OpenAIGP
大型政企寻求“智能化配方”,谁是“偏方”,谁是“验方”?