1. 创业头条
  2. 前沿领域
  3. 人工智能
  4. 正文

远传科技“数字主持人”诞生记:不是复制,而是创造一个新模态

 2021-05-31 14:27  来源:互联网  我来投稿 撤稿纠错

  【推荐】海外独服/站群服务器/高防

远传科技从未停止“造人”的脚步。

除了有“AI虚拟主播”之外,现在连“数字主持人”也来了,“数字主持人”到底是什么呢?

远传科技的“数字主持人”是通过语音合成、唇形合成、表情合成以及深度学习等技术,克隆出具备和真人主播一样播报能力的数字人。通过语音合成技术和视频驱动技术,只需要输入一段文本,它就能在屏幕展现虚拟数字人形象并进行新闻播报,且唇形动作能与播报声音实时同步。

或许在不久的未来,你再也分不清视频中的主持人,究竟是真人还是虚拟人,而这一天正在到来。

一、根源探究:「高逼真」的背后

远传科技“数字主持人”以真人为原型,通过将真人形象数字化扫描技术,建立超写实 3D 数字人建模,多模态识别及生成、实时面部动作生成及驱动、迁移学习等技术「熔炉」,炼就而成。

从效果上来说,3D AI 合成主播给人的最大印象便是高逼真,它较好的还原了真人的发肤、表情;同时,灵活性、可塑性更强,拥有的丰富的面部表情动作,嘴部唇动,以及身体的轻微摆动,具备在更广阔空间使用的潜力。

透过 3D AI 合成主播技术实现过程,我们探究它为何拥有如此逼真的效果。

1.数字化扫描技术还原真人形象

建立人物模型必须要有海量数据,远传科技数字化扫描技术通过摄像头对真人原型的身体各个部位进行全方位「打点」扫描,采集每一处细节,并对其多种形态的面部表情动作,嘴部唇动,以及身体的轻微摆动进行细致入微地捕捉记录,还原真人形象。

2.深度学习算法生成3D数字人模型

远传科技算法工程师熟练应用深度学习算法,对算法里的大量参数进行调优,确保生成的3D数字人模型能够精确的还原真人在正常说话时候的唇部动作,脸部表情及微动作,对3D数字人模型进行实时驱动、渲染,使其面部肌肉驱动、表情肢体和语言表达能力达到一个较高的度契合。确保非专业人士无法分辨出是真人拍摄的视频还是通过数字技术合成出来的视频。

二、核心亮点: AI 驱动、多模态交互

1.AI 驱动的 3D 数字人

远传科技“数字主持人”是一种由AI所驱动的虚拟存在,拥有和真人一致的音容、笑貌和言谈举止,拥有表达情感和智慧的能力。仔细观察你会发现, 3D AI 合成主播是基于 AI 算法实现驱动。

具体来说,3D “数字主持人”靠 AI 算法实时驱动,输入一个文本就能输出一个视频,往往生成一个 1 分钟的视频,仅只需要 1 分钟,几乎可以看作实时生成。

2.关键技术赋能多模态交互创新

唇动算法、3D建模技术、深度学习算法、5G通信等关键技术探索文本、语音和视觉多模态交互创新的无限可能。

远传科技利用唇动算法分析出数字人应显示的口型标记,突破语言交流过程的表情和唇动的无缝链接;根据给定人物形象要求,建立数字人3D模型,绑定骨骼,创立动作动画和口型动画;基于深度学习算法、肢体捕捉技术,将文本、音频和图片实时生成数字人视频;5G通信技术则让用户跟数字人进行语音视频互动成为可能,麦克风和摄像头捕捉用户的语音和动作,数字人的后端人工智能算法根据场景生成对应的数字人交互动作、表情和语音。

三、未来已来,你准备好了吗?

远传科技“数字主持人”虽然基于真实的人进行建模,但呈现在人们面前的行为都是完全逼真的,能像真实主播一样,去笑,去哭,去表达,是被创造出来的一个“数字人”。

数字人的未来将会作为主体人的一个副本形式存在于数字世界中,在未来的数字世界中我们将无法分辨出真人和数字人,大量在数字世界的服务将都会由数字人来代替,在电话客户服务、线上产品讲解、电商直播甚至线上演唱会等众多场景都将会有数字人的角色参与,数字化终极未来也许就是数字人的世界。

你准备好接受一个数字世界了吗?

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关文章

  • 开发者怎么拥抱智能化浪潮?昇腾AI给出了“通关指南”

    在大模型代表的新一轮技术浪潮下,智能化转型已然是毋庸置疑的趋势,科技大厂们纷纷给出了智能化的“道法术”,大大小小的企业也开始更新认知,想要从创新中挖掘出驱动增长的新质生产力。但现实和智能化的美好愿景之间,仍然横亘着一片鲜有人涉足的“荒海”,脚下还没有坚实的路。3月23日在天津举办的昇腾AI开发者创享

    标签:
    ai技术
    ai智能
  • 8款AI视频生成产品实测,谁将成为中国Sora?

    ©自象限原创作者丨罗辑、苏奕编辑丨程心2024年开年,科技圈没有什么比Sora的出现更让人兴奋。如同ChatGPT在2023年初带来的LLM创业潮,Sora的发布也同样将视频生成模型推到了风口浪尖。科技巨头猛推产品,创业公司则乘风而上。3月13日,AI视频大模型公司爱诗科技完成亿元级人民币A1轮融资

    标签:
    ai技术
    ai智能
  • AI业务收入盈利双增,但百融云没有止步

    当为科学技术巡游一方的神,行至人工智能的篇章,中国公司的2023年报里,写着AIGC的前世今生。翻开科技进步的编年史,每一次技术革命都有这样一条铁律:技术革命的最大受益者,通常不是率先做出突破的开疆派,而是率先将其发扬光大的技术流。靠着工业革命超越日不落的美利坚,把同样的故事,转载到了50年代的半导

  • AI手机需要新故事

    言必称AI的时代,已经来了,尤其是随着sora等的震撼发布,以及Google、微软和国内大厂等在AI研发、大模型等方面的日新月异。就手机行业而言,在存量时代出货量连年不及预期的情况下,如何刺激用户换机,成了一道摆在所有手机厂商面前的共同命题。从三星到国内的一些手机厂商,实际上已先行一步打出了“AI手

    标签:
    ai技术
  • 智能校对大模型文修2.0重磅发布:赋能“人工智能+办公”转型升级

    3月22日,由天津蜜度文修智能科技有限公司主办的智能校对大模型文修2.0智臻发布会在津举行。发布会以“大模型赋能‘人工智能+办公’体验升级”为主题,邀请语言智能领域专家,以及各大媒体机构和合作伙伴,围绕大模型技术、应用落地发展、标准化进程进行分享交流。发布会上还发布了智能校对大模型文修2.0。天津市

  • 阿里通义千问重磅升级:免费开放1000万字长文档处理功能

    3月22日消息,阿里通义千问重磅升级,向所有人免费开放1000万字的长文档处理功能,成为全球文档处理容量第一的AI应用。即日起,所有金融、法律、科研、医疗、教育等领域的专业人士,都可通过通义千问网站和APP快速读研报、分析财报、读科研论文、研判案情、读医疗报告、解读法律条文、分析考试成绩、总结深度文

    标签:
    通义千问

编辑推荐