文 | 曾响铃
来源 | 科技向令说(xiangling0815)
用文字描述“一个女人打着红色的雨伞在路上走”,系统呈现出一张唯美的街拍;
有一张飞机起飞的照片,想配上一段适合的声音,上传图片后,一段发动机呼啸声的音频播放出来;
把淅淅沥沥的下雨声导入进去,江南水乡老宅的氤氲雨景图展现在了眼前……
这些,是已经实现了的多模态AI应用,横贯文字、图像、语音,在初级应用功能上就已经展现出相比单模态更智能、更自然、更多样化的魅力,其前景被普遍关注,只不过很长一段时间以来,多模态的发展速度一直不算快。
现在,事情正在发生变化。
在华为全联接2021期间,中国科学技术信息研究所、AITISA(新一代人工智能产业技术创新战略联盟)和鹏城实验室联合了发布《人工智能计算中心发展白皮书2.0——从人工智能计算中心走向人工智能算力网络》,其中明确提到了以“大算力+大数据”使能大模型(多模态多样化的能力一般都由大模型才能更好的实现,或者说多模态的形式表现为大模型)。会上,中国科学院自动化研究所发布了全球首个三模态大模型紫东.太初,这无疑让多模态的发展进入了一个全新的落地阶段。
多模态大模型,正在与人工智能算力网络互相促进,成为彼此的最佳伴行者。
多重因素下,多模态大模型已成大势所趋
随着AI的技术和产业发展逐步走向深入,多模态大模型的趋势十分明朗,这主要表现在三个方面:
首先,是AI自身的能力进化要求。
在单模态领域,例如归属NLP的跨语种翻译这类应用,机器可以说早已超越人类,实现了重要的技术和产业价值,如果要进一步往前走,多模态自然而然就成为AI技术和产业突围的新方向。与此同时,单模态本身也面临“知识冰山”的瓶颈问题,进一步智能化也需要大模型来支撑,例如对“老王去吃食堂”的理解,单纯的文字数据很难让AI辨别“吃食堂”不是把食堂吃掉而是“到食堂吃饭”,但一张场景图片或视频就可以很容易解释清楚并关联起来。
然后,是“数据”供给的要求。
数据是AI发展的根本、是AI的“食物”,在全球范围内,包括中国市场上,互联网的出现帮助AI模型训练的数据量越来越庞大,它们让AI得到了快速的能量补充。
然而,目前互联网音视频数据高速增长,占比超过80%,单一数据类型例如文本只占不多的比例,这使得更丰富的语音、图像、视频等数据并未被充分利用与学习,以多模态的方式将更深度、更广泛地挖掘这些数据的价值,反过来,大量的各种属性的数据投喂也将推动AI摆脱单模态,朝着多模态大模型不断前进。
最后,是产业需求的倒逼。
随着AI逐步落地,产业需求也在往深处走,更多场景应用需要多模态大模型来支撑,例如,跨模态检索、智能问答、文学艺术创作、视频配音、视频摘要等等。
可以说,越是在技术层面将图像、文字、语音相互融合,一个应用在场景中表现的价值就越为明显,也更能让AI的场景应用真正告别常常被诟病的“鸡肋”感。
算力、框架、技术积累三位一体,多模态大模型加速落地
为什么紫东.太初这样的多模态大模型得以实现,原因主要有三大方面,缺一不可:
1、人工智能算力网络成为多模态、大模型的重要推进因素
多模态大模型的一个重要特征,是训练的参数规模呈现指数级的上升。
以往的单模态,单一类型的数据“喂养”帮助AI模型获取知识、迭代能力,相对而言模型本身并不需要太多的参数,就如同小学生不断学习加减乘除一样只要理解基本的数学规则一样。
而当不同模态加入后,一个可以识别图像、文字、语音的通用算法,不仅需要理解单模态的各种数据,还需要理解不同数据之间极端复杂的联系,模型的参数发生膨胀,这就如同专业的大学理工科学习需要综合各种学科知识进行复杂地算一样。
这时候,很显然,算力就成为最基本的支撑,只有超大规模的算力才能支撑大模型的训练,才能让多模态应用有更好的效果。
所以,在提供强大集群化算力的各地人工智能计算中心基础上,人工智能算力网络的出现,进一步解决了多模态大模型的算力需求问题,成为重要的推进因素。
事实上,由于大模型的运算很多时候还有波峰波谷的问题(即计算时算力耗费巨大,而不计算时则算力闲置),而人工智能算力网络又能在全国范围内感知、分配、调度人工智能算力,根据各中心算力资源的情况和各地区的需求情况进行算力动态调配,双方的供需关系除了“量”之外在“节奏”上也十分契合。
反过来看,多模态大模型的技术发展以及在产业中的应用,也将推动本身作为各地产业集群推进力量的人工智能算力网络更好地发展,“物尽其用”同时技术不断进步,可见二者是相互促进的关系。
2、昇思MindSpore特性推动开发加速
由于模型参数十分庞大,光有算力支撑还不行,多模态大模型开发所依托的AI框架也需要有承载和利用算力、支持庞大参数的能力,而这方面,过去国内外已有的一些主流开发框架都只支持简单的数据并行,满足不了大模型的需要。
本次在华为全联接2021上发布的多模态大模型紫东.太初,就基于昇思框架训练的,这是业界首个支持全自动并行的框架,全球首个中文预训练大模型鹏程.盘古就出自其手。
昇思框架与多模态大模型相契合的主要技术优势在于,可以在训练过程中自动将模型切分到不同的设备,并高效地利用庞大的计算设备集群来完成并行训练,相当于建立了一套行之有效的中枢指挥系统,将计算任务以同时进行的方式分配下去,再大的训练任务也能有条不紊实现加速,而不是堵塞起来。
其实现过程,是通过多维度自动并行这一独特能力来实现的——通过数据并行、模型并行、Pipeline并行、异构并行、重复计算、高效内存复用及拓扑感知调度,降低通信时间的占用,实现整体迭代时间最小,简单来说就是通过一系列技术创新来让并行更有规模和效率,无需像其他AI框架一样半自动甚至是手动来完成大模型的并行执行开发。
在最新的1.5版本更新中,昇思框架还增加了多种并行调优,支持在大集群下高效训练千亿至万亿参数模型。
3、已有多模态大模型相关经验基础
多模态能力一定建立在单模态能力的基础之上,这是毫无疑问的。此次紫东.太初的开发者即中国科学院自动化研究所,是昇腾AI的重要生态伙伴,在发布紫东.太初之前,中科院自动化研究所就已经在图像、语音、文本三个方面自研了业界领先的模型:
在此基础上,中科院自动化研究所与昇腾AI携手,还实现了一些“前期准备”能力的构建,包括图文跨模态理解与生成性能、视频理解与描述性能的全球领先,这些都成为紫东.太初的重要支撑:
最终可以看到,全球首个三模态大模型紫东.太初应运而生,让多模态从常见的两个模态一跃迈入了三模态时代,不仅可以实现跨模态理解(比如图像识别、语音识别等任务),也能完成跨模态生成(比如从文本生成图像、从图像生成文本、语音生成图像和视频等任务)。
看起来,两个模态与三个模态似乎只有数量的差别,但从技术上,其实现难度或与二维世界到三维世界的跨越类似,需要大量的技术积累与创新。而一旦三模态得以实现,相比较两模态,AI的交互会变得更加自然,能够离强人工智能更近一步。
结语
多模态大模型正在加速赋能产业,在开源开放的大前提下,昇腾AI加持的紫东.太初正在走入智能驾驶、工业质检、影视创作、智慧医疗等应用场景,合作客户包括上汽集团、魏桥创业等知名企业,一幅多模态大模型赋能千行百业的图景正在展开。
从多模态大模型的发展可以看出,未来,随着人工智能算力网络、昇思框架这样的基础软硬件突破性项目的发展,中国的AI将实现从基础技术到产业应用的全面领先,凭借技术和模式创新拥有真正的竞争壁垒。
*本文图片均来源于网络
*此内容为【科技向令说】原创,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。
【完】
曾响铃
1钛媒体、品途、人人都是产品经理等多家创投、科技网站年度十大作者;
2虎啸奖评委;
3作家:【移动互联网+ 新常态下的商业机会】等畅销书作者;
4《中国经营报》《商界》《商界评论》《销售与市场》等近十家报刊、杂志特约评论员;
5钛媒体、36kr、虎嗅、界面、澎湃新闻等近80家专栏作者;
6“脑艺人”(脑力手艺人)概念提出者,现演变为“自媒体”,成为一个行业;
7腾讯全媒派荣誉导师、多家科技智能公司传播顾问。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
2023年7月6日,第六届世界人工智能大会(WAIC2023)在上海开幕,“人工智能大模型”是本届大会的备受瞩目的话题,据悉,在昇腾AI大模型的创新研发中,华为联手26家行业领军企业,组建了一支协同创新的“AI明星队”,云天励飞作为中国人工智能企业的杰出代表,和互联网大厂、运营商、科研院所等优秀团队
这几个月来,以ChatGPT为代表的生成式AI展现出的能力令世界惊叹。自从2016年AlphaGo战胜李世石掀起了一波AI浪潮后,AI仿佛已经沉寂了很久,ChatGPT的横空出世就如同一束耀眼的光芒,让AI这个名词重回C位。过去在AI1.0时代,主要通过训练模型来实现图像识别、声音识别、语言处理等特
文:互联网江湖作者:志刚2023年的IoT需要一个新故事。6月29日,涂鸦智能在开发者大会上,发布了企业级战略PaaS2.0,希望通过一个平台+四大开发服务,建立起IoT生态。对于这场发布会,市场的态度是积极的。美东时间6月29日收盘,涂鸦智能美股股价上涨5.6%,来到1.87美元/股。近日股价稳定
2020年底,王慧文在朋友圈写下这句话时,外界本以为这位伴随中国互联网发展而持续创业20年的人物即将告别创业舞台。但是,一个曾经多次创业,正值壮年的互联网老将心中的创业热情是难以熄灭的。
四个月前邀请码炒至10万元,如今官网变灰、社交账号清空,这家AI新贵的闪电迁移折射中国科技企业出海潮涌。7月11日,打开Manus官网的用户发现一则突兀提示:“Manus在你所在的地区不可用”。而就在不久前,这个位置还显示着“Manus中文版本正在开发中”的乐观声明。同时,Manus官方微博和小红书
文/十界来源/节点财经一场围绕算力自主的竞赛,正在科创板上演。近日,国产全功能GPU厂商摩尔线程递交科创板招股书,拟募资约80亿人民币,成为今年上半年科创板拟募资规模最大的冲刺者,也打响了“国产英伟达”上市的第一枪。据招股书显示,摩尔线程自2020年成立以来,主营全功能GPU芯片的研发与销售,以自主
“AI大模型六小虎”百川智能危机重重。这是前搜狗CEO王小川创办的AI公司。昨天就爆出新闻,百川智能的联合创始人离职,这是王小川入局AI的第一道大坎。接下的成败非常关键:(1)拿下河北(2)学习科大讯飞百川智能离职高端概览:(1)2025年7月10日,百川智能技术联合创始人谢剑将离职。他是百川只能的
百度AI团队今日正式推出PaddleOCR3.1版本,以突破性的多语言组合识别(MultilingualCompositionPerception,MCP)技术为核心,彻底重构复杂文档处理边界。此次升级标志着OCR领域首次实现对同一文档内任意混合语言文本的精准识别,为全球化企业、跨境业务及多元文化场
“宇树已形成硬件、算法、场景联动的业务飞轮,自研率超95%的技术壁垒让其成为全球机器人赛道不可忽视的中国力量。”首程资本管理合伙人朱方文在追加投资时如是评价。7月7日,据每日经济新闻从宇树科技投资方处获悉,国内人形机器人领军企业宇树科技(UnitreeRobotics)已明确计划于科创板IPO,预计
推理与多模态的终极融合,将彻底终结用户在不同模型间切换的烦恼。7月7日,OpenAI正式确认将在今年夏季推出新一代人工智能模型GPT-5。这一突破性产品将整合现有的多个强大模型,特别是融合专注推理能力的“O系列”与具备多模态功能的“GPT系列”,为用户提供前所未有的统一体验。OpenAI开发者体验负
高考一结束,忙坏了海内外一众大模型。豆包、DeepSeek、ChatGPT、元宝、文心一言、通义千问……掀起了一波“AI赶考”大战。据悉,去年高考期间,大模型的成绩才勉强过一本线,今年集体晋升985。据悉,豆包甚至过了清北的录取线。头部大模型在高考“考场”上玩得不亦乐乎,中小AI创企的处境却日益尴尬
文/二风来源/节点财经每年高考成绩放榜后,数千万考生和家长将迎来另一场硬仗——填报志愿。今年,这一领域迎来了AI的全面介入,多家互联网大厂和教育公司纷纷推出智能志愿填报产品,为考生提供院校和专业选择建议。据艾媒咨询数据,2023年中国高考志愿填报市场付费规模约9.5亿元,近九成考生愿意借助志愿填报服
苹果还没从WWDC25的“群嘲”中走出,又迎来了一次新的痛击。据路透社报道,21日,苹果公司遭到股东集体起诉,被指在信息披露中低估了将先进生成式AI整合进语音助手Siri所需的时间,导致iPhone销量受影响、股价下滑,构成证券欺诈。在这份诉讼中,库克、首席财务官凯文·帕雷克及前首席财务官卢卡·马埃
华为的盘古大模型终于推出新版本了。6月20日华为云计算CEO张平安宣布基于CloudMatrix384超节点的新一代昇腾AI云服务全面上线,盘古大模型5.5同步发布。不过,当前国内的AI大模型竞争可谓是相当激烈,华为的盘古大模型在众多大模型中并不是十分出众。华为云此次重磅推出的盘古大模型5.5能否从