谷歌发布多模态大模型重回领先，中国大模型谁能一战

2024-05-24 17:02 来源：A5专栏我来投稿撤稿纠错

5月14日OpenAI抢跑发布GPT-4o，通过实时的语音、视频和文本交互刷屏社交网络。

但仅仅24小时后，谷歌毫不示弱，在一年一度的Google I/O 开发者大会上，展示了由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo，以及在硬件方面发布的第六代Tensor处理器单元（TPU）Trillium芯片，并推出了彻底AI改造后的搜索。

谷歌首席执行官桑达尔・皮查伊表示，谷歌所有的工作都围绕生成式AI模型Gemini来做。

由此，多模态大模型成为巨头选定的未来方向，这让人不由的发出疑问，中国大模型谁能扛起多模态的大旗？

多模态遥遥领先的中国大模型

谷歌发布会固然精彩，但总体上也谈不上绝对领先，比如我们看到一个挺有意思的演示，就是给出一个三天的膳食计划，最后得出的结果是图文并茂的。这一点确实带来了很大的体验提升，而目前国内的大部分大模型的对话方式还是简单的停留在文字交互上，多模态的混合内容几乎没有。

不过比起国内的多模态AI搜索领军产品天工大模型（www.tiangong.cn）来说，谷歌这个多模态的搜索结果就有点花拳绣腿了，比如我提的一个问题是“特斯拉与小米的参数对比”，这里给出的答案应该是所有大模型里唯一能够用表格对比并配图的了，在实用性和可用性上来说，真的是遥遥领先，根本不需要二次处理数据就可以直接输出内容了。

从这个角度来看的话，我觉得谷歌还是处于一个炫技的demo阶段，而天工大模型在多模态这块确实已经进入了一个实用阶段。

从这里我们可以看出，早在4月17日发布的“天工3.0”在多模态领域的领先并不仅仅是在国内范围，而是全球范围。“天工3.0”是采用4千亿级参数MoE混合专家模型，也是全球模型参数最大、性能最强的MoE模型之一。

最为重要的一点则是，“天工3.0”也是全球首个多模态“超级模型”（Super Model），其最早集成了AI搜索、AI PPT、AI视频转绘、AI写作、AI长文本阅读、AI对话、AI语音合成、AI图片生成、AI漫画创作、AI图片识别、AI音乐生成、AI代码写作、AI表格生成等多项能力。

这一路径选择，在一个月之后的今天，两大巨头的模型更新后，也被确认为全球大模型未来的发展方向。

之所以天工能够实现这样的领先，是因为早在去年9月就发布了多模态大模型Skywork-MM然后一步一步迭代而来，这种对未来发展方向的远见和正确判断，无疑是在AI这种创新领域实现领先的关键。

反观谷歌反而在摸索方向方面耗费了太多的时间，现在才开始逐渐步入正轨。

多模态AI打破个人创作局限

如果说AI搜索是刚需的入口，那么多模态显然就是应用的未来。我曾向很多公务员朋友推荐使用天工AI,其中很多多模态功能在工作中都有很好的表现。比如说AI ppt功能可以一键生成大纲和PPT，大幅降低工作的繁琐程度，只要简单修改就可以直接应用。

而AI视频转绘画的功能则是我意想不到的一个受欢迎的功能，因为大家都要做短视频，但又不方便露脸，一键转成漫画风格就完全没有问题了。

对于文案工作者来说，阅读分析大量的材料和进行范式文体的写作是日常工作中最耗费精力的部分，而AI能够带来的最大价值就在这里了。

天工的AI文档解析支持无字数限制的文档阅读，除了PDF和TXT、EXCEL等文档形式外也支持网络链接，文档上传后，能一键生成AI摘要和要点提炼，还贴心标注提炼内容的总计字数及阅读时间，方便参考。

而且AI阅读的所有问答历史、阅读列表都将成为你的个人知识库，避免重复学习，也能随时找到过去的工作成果。

然后再配合AI写作、AI PPT，可以快速生成大纲、框架、文本或者PPT，大幅提升文字工作的效率。这就是AI辅助未来办公的一个真实可用的场景。

值得一提到是，天工AI解析EXCEL这种复杂数据场景也是游刃有余，绝对是未来的硬核生产力工具。

文字工作是一切的基础，AI图片、AI音乐、AI漫画、AI代码、AI数据分析等一系列AI多模态能力的诞生，则实现了全场景的生产效率提升，无论是我们想配一个无版权的插图，还是想配一个合适的音乐，漫画，现在都可以通过AI来生成完全具有知识产权的内容，这一点不仅仅会为职场人士带来效率提升的价值，也会为大量的内容创业者打开创作的桎梏，生成更多的优质内容。

从这一点来说，多模态的未来相关于每一个生产内容的人，也势必会为创造力插上最强的辅助翅膀。

除此之外，天工垂直领域的智能体对话的工具性也非常有实用价值，比如旅游在出行前问一问，就可以作出很好的推荐和路线规划。

星座运势也可以随时给出关于星座的运势走向和生活指南，也可以给枯燥的生活带来几分乐趣和期待。

这里尤其需要说明的是，能够提供即时的信息内容，且视觉感不输传统搜索引擎的体验，也是天工大模型的独家能力，如果是其他大模型，大部分都只能呈现文字效果，甚至还在分析过去的信息，是没有办法提供星座运程这样的即时的信息分析反馈的。

还有很多年轻的朋友会在二次元漫画中乐此不疲的完成自己的作品创作。而随着多模态能力的发展，我相信还会有更多垂直领域的垂直模型被开发出来，这些对于人们的工作生活都会带来颠覆性的改变。

而最完美的场景自然是和语音助手的结合，让每个人都能拥有一个类似钢铁侠的贾维斯那样的AI助手，这样大量的工作和娱乐需求只要一句话就会被AI满足，这种完美的生活体验我相信距离我们已经不远了。

AI搜索的开创者

值得一提的是，除了在多模态方面的领先，天工也是中国AI搜索的开创者，2023年8月就率先推出基于自研大语言模型的AI搜索产品——天工AI搜索，这也启发了国内的搜索巨头，百度和360也相继入局。

目前来看，搜索融入AI可以说是一个神来之笔，从全球范围来看，谷歌最终也很有可能凭借搜索的优势来反超OpenAI。

因为搜索和AI的结合是最为自然的，也是实用性提升最强的，它大大降低了搜索工具的使用门槛，同时筛掉了很多往往需要专业人士才能分辨的垃圾信息，而最终产生的搜索结果，就好像上面的对比表格一样，直接利用率非常高，不再需要人们进行更复杂的二次数据整理和编辑。

在这里需要强调的是，天工大模型和其他AI搜索的领先之处还有一点是支持简洁、增强、研究3个模式，其中的简洁模式的结果和其他大模型类似，而增强和研究两个模式则能输出更为丰富和复杂的结果来供更加专业的需求使用。

比如关于普通人有必要理财么这个问题，简洁模式就回复了基本的理财的目的、好处、风险，而增强版搜索则更为细节的阐述了理财的目的、理财的策略甚至还有理财的产品推荐。

而在研究模式下，我们就可以看到指定理财计划的推荐，以及10种理财工具的介绍，真的对这个领域有兴趣的用户就可以针对这10种产品进一步的进行研究和采纳了。这三个答案可以说是比较充分的体现出了天工AI搜索三种模式结果的不同。

对我本人的使用场景来说，大大解决了搜索中专业度不足的问题。之前我使用的大模型提供的素材很难在专业的稿件中用到，但天工AI搜索的增强尤其是研究模式下的结果，可用度就非常高了。

当然天工在AI搜索方面的领先也不是凭空而来，很多人只知道天工的研发者昆仑万维是国内市值数百亿的上市公司，但不知道的是，它之前曾收购并成功运营海外主流浏览器Opera，所以在搜索方面不仅有很强的技术积累，同时也奠定了如今自研搜索引擎的能力，这种积累最终在AI领域实现了爆发，不能不说昆仑万维在战略和远见方面的优势。

要知道，在国内同时具有大模型和搜索能力的公司屈指可数，而从目前的发展趋势来看，这两种能力的齐备是最后还能留在一线的必要条件。

昆仑万维在研发人员方面也是国内的第一梯队，相较于国内几个创业团队百十人的规模，有数倍的优势。而且这些研发人员质量也非常高，海内外知名院校博士就超过百人，其他大部分也都来自于微软、阿里、百度这样的行业大厂，技术水准有更好的保障。

AI发展如火如荼，这其中不仅仅需要技术能力的支撑，也需要对未来发展方向的准确判断和精准投入。毕竟AI发展就像滚雪球，好处是越来越大，领先优势也越来越明显，后来者很难追上。坏处就是一旦方向错了，很容易尾大不掉，难以转向。

从目前的发展趋势来看，多模态的方向已经相当确定，而天工在海内外的领先优势也比较明显。接下来就是要拉开差距和分胜负的时刻了。期待更强大的产品出现，也期待AI改变世界早日到来。

申请创业报道，分享创业好点子。点击此处，共同探讨创业新机遇！

相关标签: 谷歌; 大模型

历时400多天，国产大模型全面赶超GPT-4？

赶超GPT-4的阶段性升级，可以看作是国产大模型有序迭代部署、不断拉近差距的标志，切莫像手机跑分那样，在过度营销的作用下，沦为被群嘲的对象。

标签：

大模型
大模型争霸的下一站：不仅是超越GPT-4，更是寻求模型之间的平衡应用

文|智能相对论作者|沈浪知名科学杂志《Nature》发表了一篇关于大模型规模参数大小争议的文章《InAl,isbiggeralwaysbetter?》——AI大模型，越大越好吗？随着大模型应用走向实践，这一问题不可避免地成为了当前AI行业发展的焦点与争议。有人认为，大模型当然是越大越好，参数越大，性

标签：

大模型
解密Kimi：大模型应用当红顶流是如何练成的？

抛开营销战，或许在中国也可以探索新的大模型应用聚合方式、供给方式以及商业利润分配的方式，对大模型公司来说，这将是一个新议题。

标签：

大模型
大模型的现在进行时：走出对话框，走向产业端

大模型热潮涌动了一年多后，越来越多人平复了激动的情绪，开始从客观的视角重新思考大模型的价值和机会。红杉资本在AlAscent2024的开场演讲中提到，大模型的创造能力和推理能力，第一次实现了以类似人类的方式进行交互，将支撑起数十万亿美元的市场。然而和AGI的遥远梦想相比，大模型的创业者们却不得不正视

标签：

大模型
李彦宏放话：百度AI大模型绝不抢开发者饭碗

关注卢松松，会经常给你分享一些我的经验和观点。昨晚，李彦宏内部讲话称：AI大模型开源意义不大，百度绝不抢开发者饭碗。但你一定要说话算话哦，可千万别说：“我永远不做手机，谁再敢提做手机就给我走人”，结果5年后自己的手机销量排名第一。如果百度也这么干的话估计AI也没人用了。李彦宏认为：从商业模式的角度来

标签：

大模型

大模型抢滩高考志愿填报，能否顶替「张雪峰」们？

文/二风来源/节点财经每年高考成绩放榜后，数千万考生和家长将迎来另一场硬仗——填报志愿。今年，这一领域迎来了AI的全面介入，多家互联网大厂和教育公司纷纷推出智能志愿填报产品，为考生提供院校和专业选择建议。据艾媒咨询数据，2023年中国高考志愿填报市场付费规模约9.5亿元，近九成考生愿意借助志愿填报服

标签：

大模型
苹果AI掉队？现在唱衰或许还为时过早

苹果还没从WWDC25的“群嘲”中走出，又迎来了一次新的痛击。据路透社报道，21日，苹果公司遭到股东集体起诉，被指在信息披露中低估了将先进生成式AI整合进语音助手Siri所需的时间，导致iPhone销量受影响、股价下滑，构成证券欺诈。在这份诉讼中，库克、首席财务官凯文·帕雷克及前首席财务官卢卡·马埃

标签：

苹果公司

ai智能
DeepSeek、豆包向左，盘古大模型向右

华为的盘古大模型终于推出新版本了。6月20日华为云计算CEO张平安宣布基于CloudMatrix384超节点的新一代昇腾AI云服务全面上线，盘古大模型5.5同步发布。不过，当前国内的AI大模型竞争可谓是相当激烈，华为的盘古大模型在众多大模型中并不是十分出众。华为云此次重磅推出的盘古大模型5.5能否从

标签：

deepseek

豆包ai

盘古大模型
数字人罗永浩一场直播卖了5000万，数字人能取代真人主播吗？

一场没有罗永浩的“罗永浩直播”，正在改写带货规则当数字人罗永浩在百度直播间举起青岛啤酒，以标志性幽默回应粉丝提问时，弹幕疯狂刷出“这是真的还是假的？”的疑问。这场持续近7小时的直播，创下1300万人次观看、GMV突破5500万元的惊人战绩，甚至超过了他本人一个月前真人直播5000万元的成绩。数字人主

标签：

数字人

数字人直播

罗永浩
新东方发布首款原创AI教育产品，开启一对一智能学习时代

高频互动、个性化教学、突破成本壁垒，AI老师让英语学习更普惠。6月24日，新东方正式推出面向消费者的首款原创AI教育产品——“新东方AI1对1”。这款产品标志着新东方在教育+AI战略布局中迈出关键一步，旨在以科技力量推动优质教育资源的普惠发展。在发布会现场，新东方教育科技集团CEO周成刚表示：“AI

标签：

ai智能
AI工作流是什么？coze扣子工作流怎么搭建和使用？

大家好，我是白杨SEO，专注SEO十年以上，全网SEO流量实战派，AI搜索优化研究者。为什么想分享这个AI工作流及coze扣子这个？因为我们搞流量的如果学会了用AI给我们生产提效将更有助于我们去获客。目前白杨SEO用得并不是很好，分享仅供参考，希望给你一些启发。老规矩，先说下文章大纲如下：1、AI工

标签：

ai智能

特斯拉与百度在自动驾驶的全维度较量

将在2025年见分晓

标签：

自动驾驶

特斯拉

百度
2025年10个顶级GPU云平台：Serverless+RL开启AI普惠时代

近期，“AI新云”（NeoCloud）概念在科技圈和投资圈引发热潮。今年3月，被业内称作“英伟达亲儿子”的AI基础设施企业CoreWeave上市。这家依托英伟达GPU资源冲击新云市场的初创公司，上市不到3个月市值飙升359%，达881亿美元。CoreWeave的“身价暴涨”吸引了无数视线。对此，不少

标签：

ai智能
阿里巴巴梭哈AI

2024年往前数三年，我们称之为阿里巴巴失去的三年。

标签：

阿里巴巴

ai智能
华为盘古大模型5.5发布：深度思考模型将上线

一场人工智能领域的革新风暴正从华为开发者大会现场席卷全球产业界。2025年6月20日，在东莞举行的华为开发者大会HDC2025上，华为常务董事、华为云计算CEO张平安揭开了盘古大模型5.5的神秘面纱。这一全新版本在自然语言处理、计算机视觉、多模态、预测和科学计算五大基础模型上实现全面突破，标志着中国

加载更多

谷歌发布多模态大模型重回领先，中国大模型谁能一战

相关文章

历时400多天，国产大模型全面赶超GPT-4？

大模型争霸的下一站：不仅是超越GPT-4，更是寻求模型之间的平衡应用

解密Kimi：大模型应用当红顶流是如何练成的？

大模型的现在进行时：走出对话框，走向产业端

李彦宏放话：百度AI大模型绝不抢开发者饭碗

大模型抢滩高考志愿填报，能否顶替「张雪峰」们？

苹果AI掉队？现在唱衰或许还为时过早

DeepSeek、豆包向左，盘古大模型向右

数字人罗永浩一场直播卖了5000万，数字人能取代真人主播吗？

新东方发布首款原创AI教育产品，开启一对一智能学习时代

AI工作流是什么？coze扣子工作流怎么搭建和使用？

特斯拉与百度在自动驾驶的全维度较量

2025年10个顶级GPU云平台：Serverless+RL开启AI普惠时代

阿里巴巴梭哈AI

华为盘古大模型5.5发布：深度思考模型将上线

热门排行

编辑推荐