文 | 曾响铃
来源 | 科技向令说(xiangling0815)
用文字描述“一个女人打着红色的雨伞在路上走”,系统呈现出一张唯美的街拍;
有一张飞机起飞的照片,想配上一段适合的声音,上传图片后,一段发动机呼啸声的音频播放出来;
把淅淅沥沥的下雨声导入进去,江南水乡老宅的氤氲雨景图展现在了眼前……
这些,是已经实现了的多模态AI应用,横贯文字、图像、语音,在初级应用功能上就已经展现出相比单模态更智能、更自然、更多样化的魅力,其前景被普遍关注,只不过很长一段时间以来,多模态的发展速度一直不算快。
现在,事情正在发生变化。
在华为全联接2021期间,中国科学技术信息研究所、AITISA(新一代人工智能产业技术创新战略联盟)和鹏城实验室联合了发布《人工智能计算中心发展白皮书2.0——从人工智能计算中心走向人工智能算力网络》,其中明确提到了以“大算力+大数据”使能大模型(多模态多样化的能力一般都由大模型才能更好的实现,或者说多模态的形式表现为大模型)。会上,中国科学院自动化研究所发布了全球首个三模态大模型紫东.太初,这无疑让多模态的发展进入了一个全新的落地阶段。
多模态大模型,正在与人工智能算力网络互相促进,成为彼此的最佳伴行者。
多重因素下,多模态大模型已成大势所趋
随着AI的技术和产业发展逐步走向深入,多模态大模型的趋势十分明朗,这主要表现在三个方面:
首先,是AI自身的能力进化要求。
在单模态领域,例如归属NLP的跨语种翻译这类应用,机器可以说早已超越人类,实现了重要的技术和产业价值,如果要进一步往前走,多模态自然而然就成为AI技术和产业突围的新方向。与此同时,单模态本身也面临“知识冰山”的瓶颈问题,进一步智能化也需要大模型来支撑,例如对“老王去吃食堂”的理解,单纯的文字数据很难让AI辨别“吃食堂”不是把食堂吃掉而是“到食堂吃饭”,但一张场景图片或视频就可以很容易解释清楚并关联起来。
然后,是“数据”供给的要求。
数据是AI发展的根本、是AI的“食物”,在全球范围内,包括中国市场上,互联网的出现帮助AI模型训练的数据量越来越庞大,它们让AI得到了快速的能量补充。
然而,目前互联网音视频数据高速增长,占比超过80%,单一数据类型例如文本只占不多的比例,这使得更丰富的语音、图像、视频等数据并未被充分利用与学习,以多模态的方式将更深度、更广泛地挖掘这些数据的价值,反过来,大量的各种属性的数据投喂也将推动AI摆脱单模态,朝着多模态大模型不断前进。
最后,是产业需求的倒逼。
随着AI逐步落地,产业需求也在往深处走,更多场景应用需要多模态大模型来支撑,例如,跨模态检索、智能问答、文学艺术创作、视频配音、视频摘要等等。
可以说,越是在技术层面将图像、文字、语音相互融合,一个应用在场景中表现的价值就越为明显,也更能让AI的场景应用真正告别常常被诟病的“鸡肋”感。
算力、框架、技术积累三位一体,多模态大模型加速落地
为什么紫东.太初这样的多模态大模型得以实现,原因主要有三大方面,缺一不可:
1、人工智能算力网络成为多模态、大模型的重要推进因素
多模态大模型的一个重要特征,是训练的参数规模呈现指数级的上升。
以往的单模态,单一类型的数据“喂养”帮助AI模型获取知识、迭代能力,相对而言模型本身并不需要太多的参数,就如同小学生不断学习加减乘除一样只要理解基本的数学规则一样。
而当不同模态加入后,一个可以识别图像、文字、语音的通用算法,不仅需要理解单模态的各种数据,还需要理解不同数据之间极端复杂的联系,模型的参数发生膨胀,这就如同专业的大学理工科学习需要综合各种学科知识进行复杂地算一样。
这时候,很显然,算力就成为最基本的支撑,只有超大规模的算力才能支撑大模型的训练,才能让多模态应用有更好的效果。
所以,在提供强大集群化算力的各地人工智能计算中心基础上,人工智能算力网络的出现,进一步解决了多模态大模型的算力需求问题,成为重要的推进因素。
事实上,由于大模型的运算很多时候还有波峰波谷的问题(即计算时算力耗费巨大,而不计算时则算力闲置),而人工智能算力网络又能在全国范围内感知、分配、调度人工智能算力,根据各中心算力资源的情况和各地区的需求情况进行算力动态调配,双方的供需关系除了“量”之外在“节奏”上也十分契合。
反过来看,多模态大模型的技术发展以及在产业中的应用,也将推动本身作为各地产业集群推进力量的人工智能算力网络更好地发展,“物尽其用”同时技术不断进步,可见二者是相互促进的关系。
2、昇思MindSpore特性推动开发加速
由于模型参数十分庞大,光有算力支撑还不行,多模态大模型开发所依托的AI框架也需要有承载和利用算力、支持庞大参数的能力,而这方面,过去国内外已有的一些主流开发框架都只支持简单的数据并行,满足不了大模型的需要。
本次在华为全联接2021上发布的多模态大模型紫东.太初,就基于昇思框架训练的,这是业界首个支持全自动并行的框架,全球首个中文预训练大模型鹏程.盘古就出自其手。
昇思框架与多模态大模型相契合的主要技术优势在于,可以在训练过程中自动将模型切分到不同的设备,并高效地利用庞大的计算设备集群来完成并行训练,相当于建立了一套行之有效的中枢指挥系统,将计算任务以同时进行的方式分配下去,再大的训练任务也能有条不紊实现加速,而不是堵塞起来。
其实现过程,是通过多维度自动并行这一独特能力来实现的——通过数据并行、模型并行、Pipeline并行、异构并行、重复计算、高效内存复用及拓扑感知调度,降低通信时间的占用,实现整体迭代时间最小,简单来说就是通过一系列技术创新来让并行更有规模和效率,无需像其他AI框架一样半自动甚至是手动来完成大模型的并行执行开发。
在最新的1.5版本更新中,昇思框架还增加了多种并行调优,支持在大集群下高效训练千亿至万亿参数模型。
3、已有多模态大模型相关经验基础
多模态能力一定建立在单模态能力的基础之上,这是毫无疑问的。此次紫东.太初的开发者即中国科学院自动化研究所,是昇腾AI的重要生态伙伴,在发布紫东.太初之前,中科院自动化研究所就已经在图像、语音、文本三个方面自研了业界领先的模型:
在此基础上,中科院自动化研究所与昇腾AI携手,还实现了一些“前期准备”能力的构建,包括图文跨模态理解与生成性能、视频理解与描述性能的全球领先,这些都成为紫东.太初的重要支撑:
最终可以看到,全球首个三模态大模型紫东.太初应运而生,让多模态从常见的两个模态一跃迈入了三模态时代,不仅可以实现跨模态理解(比如图像识别、语音识别等任务),也能完成跨模态生成(比如从文本生成图像、从图像生成文本、语音生成图像和视频等任务)。
看起来,两个模态与三个模态似乎只有数量的差别,但从技术上,其实现难度或与二维世界到三维世界的跨越类似,需要大量的技术积累与创新。而一旦三模态得以实现,相比较两模态,AI的交互会变得更加自然,能够离强人工智能更近一步。
结语
多模态大模型正在加速赋能产业,在开源开放的大前提下,昇腾AI加持的紫东.太初正在走入智能驾驶、工业质检、影视创作、智慧医疗等应用场景,合作客户包括上汽集团、魏桥创业等知名企业,一幅多模态大模型赋能千行百业的图景正在展开。
从多模态大模型的发展可以看出,未来,随着人工智能算力网络、昇思框架这样的基础软硬件突破性项目的发展,中国的AI将实现从基础技术到产业应用的全面领先,凭借技术和模式创新拥有真正的竞争壁垒。
*本文图片均来源于网络
*此内容为【科技向令说】原创,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。
【完】
曾响铃
1钛媒体、品途、人人都是产品经理等多家创投、科技网站年度十大作者;
2虎啸奖评委;
3作家:【移动互联网+ 新常态下的商业机会】等畅销书作者;
4《中国经营报》《商界》《商界评论》《销售与市场》等近十家报刊、杂志特约评论员;
5钛媒体、36kr、虎嗅、界面、澎湃新闻等近80家专栏作者;
6“脑艺人”(脑力手艺人)概念提出者,现演变为“自媒体”,成为一个行业;
7腾讯全媒派荣誉导师、多家科技智能公司传播顾问。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
2025年10月25日,2025世界青年科学家峰会之人工智能(AI)融合创新发展论坛在浙江温州成功举办。本次论坛由国际院士科创中心主办,中国投资协会能源投资专业委员会、温港院士科创中心承办,中国电工技术学会、中科先进技术温州研究院与温州市电力工程学会提供支持,以“瓯江论道-AI赋能绿色发展”为主题,
个人创业需要启动成本低、无需庞大团队、可快速验证、能利用个人技能或资源。这里分享适合个人创业的十个机会一.AI内容优化与本地化服务·做什么:帮助企业或个人利用AI工具(如GPT-4,Midjourney)优化内容生产流程。例如,为跨境电商撰写多语言产品描述,为小红书博主生成爆款文案,为小公司制作营销
百度AI团队今日正式推出PaddleOCR3.1版本,以突破性的多语言组合识别(MultilingualCompositionPerception,MCP)技术为核心,彻底重构复杂文档处理边界。此次升级标志着OCR领域首次实现对同一文档内任意混合语言文本的精准识别,为全球化企业、跨境业务及多元文化场
导航网站的崛起:从信息过载到精准触达随着全球AI工具数量爆发式增长(2025年已超数万款),用户面临前所未有的选择困境。传统搜索引擎的“关键词-链接”模式难以应对工具筛选的场景需求,垂直化、场景化的AI导航网站应运而生。这类平台通过聚合、评测、分类与推荐四重机制,将分散的工具资源整合为结构化入口。例
当微信公众号文章中出现一个人的名字,它会自动变成蓝色链接,点击即可查看AI生成的“个人简历”——这一微信新功能让不少用户感到被“扒光”在互联网上。近日,微信新上线的“AI搜索”功能陷入隐私泄露争议漩涡。多位网友在社交平台反映,当微信公众号推文中出现本人姓名时,名字会自动变为蓝色超链接,点击即可浏览由
3月31日,科技圈上演了一场现实版的“代码大逃杀”。一向以“闭源”为傲的AI巨头Anthropic,因一个低级打包失误,将旗下明星产品ClaudeCode的完整源代码拱手送给了全世界。一次59.8MB的“裸奔”事情始于一个普通的周二早晨。Web3安全公司FuzzLab的实习研究员ChaofanSho
当地时间3月31日,人工智能明星公司OpenAI宣布完成一轮规模达1220亿美元的私募融资,投后估值攀升至8520亿美元,创下全球AI企业估值新纪录,同时也刷新了科技行业私募融资的历史最高规模。本轮融资筹备历时数月,核心资金来自三家头部科技企业:亚马逊承诺投资500亿美元,英伟达与软银集团分别出资3
“我也想养一只AI小龙虾,但听说安装特别难,我连代码都不会写,怎么办?”这是最近后台收到最多的私信。面对OpenClaw这个技术门槛不低的AI智能体,很多普通人跃跃欲试,却又望而却步。于是,一个“代装”产业应运而生——远程50到300元,上门500到1500元,帮你搞定一切。但问题是:这些代装服务靠
最近,身边不少人都在讨论“养AI小龙虾”。这只叫OpenClaw的智能体,能替你自动订机票、写代码、整理文件,听起来像请了一个24小时不休息的数字员工。但问题来了——月薪五千的普通人,养得起吗?我们先算一笔账。养这只“虾”,主要有三个花钱的地方。第一笔:硬件投入。OpenClaw创始人推荐用MacM
最近,“养AI小龙虾”成了互联网上的一股热潮。这里的“小龙虾”指的是OpenClaw——一个能替你自动做事的人工智能体。订机票、写代码、整理文件,它就像一个24小时不休息的数字员工。听起来很酷,但很多人忽略了一个关键问题:这只“虾”需要你电脑的完整访问权限。也就是说,一旦你把它“请”进家门,它就能看
最近,互联网上刮起了一股“养虾热”。这个“虾”不是餐桌上的小龙虾,而是一个叫OpenClaw的AI智能体。标志是一只红色小龙虾,寓意不断蜕壳成长。OpenClaw到底是个什么东西?简单说,它是一个开源的AI智能体框架,能装进你的电脑,替你自动做事——订机票、写代码、整理文件,就像一个24小时不休息的
2025年,被业界公认为具身智能(EmbodiedAI)真正觉醒的元年。当人工智能跨越数字世界的边界,轰然撞开物理世界的大门,是谁在荒野中劈开荆棘?又是谁在定义行业的未来?由魔搭社区(ModelScope)、CCF智能机器人专委会、工信部装备数字孪生技术重点实验室、Lumina具身智能社区、开放原子
拒绝“智元”走私语义,七维拆解Token物理本质,定义AI时代唯一真名:「符元」。
3月22日,智汇金陵·AI开源人才峰会暨魔搭开发者大会在南京举办。从去年6月30日至今,魔搭社区用户数从1600万增长至2500万,9个月内用户增量近千万;魔搭社区上的开源模型数量从7万增长至17万,9个月内新增10万个开源模型,包括DeepSeek、智谱、MiniMax、阶跃星辰、Mistral等
文/杨雪健来源/节点财经Meta或迎来史上最大规模裁员潮。2026年3月14日,路透社曝出Meta正计划启动新一轮大规模裁员,此次裁员比例或达公司总员工数的20%,按其近7.9万的员工规模计算,约1.58万名员工或将被裁。若该计划执行,将成为Meta自2022年底实行“效率之年”重组后规模最大的一次