5月14日OpenAI抢跑发布GPT-4o,通过实时的语音、视频和文本交互刷屏社交网络。
但仅仅24小时后,谷歌毫不示弱,在一年一度的Google I/O 开发者大会上,展示了由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo,以及在硬件方面发布的第六代Tensor处理器单元(TPU)Trillium芯片,并推出了彻底AI改造后的搜索。
谷歌首席执行官桑达尔・皮查伊表示,谷歌所有的工作都围绕生成式AI模型Gemini来做。
由此,多模态大模型 成为巨头选定的未来方向,这让人不由的发出疑问,中国大模型谁能扛起多模态的大旗?
多模态遥遥领先的中国大模型
谷歌发布会固然精彩,但总体上也谈不上绝对领先,比如我们看到一个挺有意思的演示,就是给出一个三天的膳食计划,最后得出的结果是图文并茂的。这一点确实带来了很大的体验提升,而目前国内的大部分大模型的对话方式还是简单的停留在文字交互上,多模态的混合内容几乎没有。

不过比起国内的多模态AI搜索领军产品天工大模型(www.tiangong.cn)来说,谷歌这个多模态的搜索结果就有点花拳绣腿了,比如我提的一个问题是“特斯拉与小米的参数对比”,这里给出的答案应该是所有大模型里唯一能够用表格对比并配图的了,在实用性和可用性上来说,真的是遥遥领先,根本不需要二次处理数据就可以直接输出内容了。
从这个角度来看的话,我觉得谷歌还是处于一个炫技的demo阶段,而天工大模型在多模态这块确实已经进入了一个实用阶段。

从这里我们可以看出,早在4月17日发布的“天工3.0”在多模态领域的领先并不仅仅是在国内范围,而是全球范围。“天工3.0”是采用4千亿级参数MoE混合专家模型,也是全球模型参数最大、性能最强的MoE模型之一。
最为重要的一点则是,“天工3.0”也是全球首个多模态“超级模型”(Super Model),其最早集成了AI搜索、AI PPT、AI视频转绘、AI写作、AI长文本阅读、AI对话、AI语音合成、AI图片生成、AI漫画创作、AI图片识别、AI音乐生成、AI代码写作、AI表格生成等多项能力。
这一路径选择,在一个月之后的今天,两大巨头的模型更新后,也被确认为全球大模型未来的发展方向。
之所以天工能够实现这样的领先,是因为早在去年9月就发布了多模态大模型Skywork-MM然后一步一步迭代而来,这种对未来发展方向的远见和正确判断,无疑是在AI这种创新领域实现领先的关键。
反观谷歌反而在摸索方向方面耗费了太多的时间,现在才开始逐渐步入正轨。
多模态AI打破个人创作局限
如果说AI搜索是刚需的入口,那么多模态显然就是应用的未来。我曾向很多公务员朋友推荐使用天工AI,其中很多多模态功能在工作中都有很好的表现。比如说AI ppt功能可以一键生成大纲和PPT,大幅降低工作的繁琐程度,只要简单修改就可以直接应用。
而AI视频转绘画的功能则是我意想不到的一个受欢迎的功能,因为大家都要做短视频,但又不方便露脸,一键转成漫画风格就完全没有问题了。


对于文案工作者来说,阅读分析大量的材料和进行范式文体的写作是日常工作中最耗费精力的部分,而AI能够带来的最大价值就在这里了。
天工的AI文档解析支持无字数限制的文档阅读,除了PDF和TXT、EXCEL等文档形式外也支持网络链接,文档上传后,能一键生成AI摘要和要点提炼,还贴心标注提炼内容的总计字数及阅读时间,方便参考。
而且AI阅读的所有问答历史、阅读列表都将成为你的个人知识库,避免重复学习,也能随时找到过去的工作成果。
然后再配合AI写作、AI PPT,可以快速生成大纲、框架、文本或者PPT,大幅提升文字工作的效率。这就是AI辅助未来办公的一个真实可用的场景。

值得一提到是,天工AI解析EXCEL这种复杂数据场景也是游刃有余,绝对是未来的硬核生产力工具。

文字工作是一切的基础,AI图片、AI音乐、AI漫画、AI代码、AI数据分析等一系列AI多模态能力的诞生,则实现了全场景的生产效率提升,无论是我们想配一个无版权的插图,还是想配一个合适的音乐,漫画,现在都可以通过AI来生成完全具有知识产权的内容,这一点不仅仅会为职场人士带来效率提升的价值,也会为大量的内容创业者打开创作的桎梏,生成更多的优质内容。
从这一点来说,多模态的未来相关于每一个生产内容的人,也势必会为创造力插上最强的辅助翅膀。
除此之外,天工垂直领域的智能体对话的工具性也非常有实用价值,比如旅游在出行前问一问,就可以作出很好的推荐和路线规划。

星座运势也可以随时给出关于星座的运势走向和生活指南,也可以给枯燥的生活带来几分乐趣和期待。
这里尤其需要说明的是,能够提供即时的信息内容,且视觉感不输传统搜索引擎的体验,也是天工大模型的独家能力,如果是其他大模型,大部分都只能呈现文字效果,甚至还在分析过去的信息,是没有办法提供星座运程这样的即时的信息分析反馈的。

还有很多年轻的朋友会在二次元漫画中乐此不疲的完成自己的作品创作。而随着多模态能力的发展,我相信还会有更多垂直领域的垂直模型被开发出来,这些对于人们的工作生活都会带来颠覆性的改变。
而最完美的场景自然是和语音助手的结合,让每个人都能拥有一个类似钢铁侠的贾维斯那样的AI助手,这样大量的工作和娱乐需求只要一句话就会被AI满足,这种完美的生活体验我相信距离我们已经不远了。
AI搜索的开创者
值得一提的是,除了在多模态方面的领先,天工也是中国AI搜索的开创者,2023年8月就率先推出基于自研大语言模型的AI搜索产品——天工AI搜索,这也启发了国内的搜索巨头,百度和360也相继入局。
目前来看,搜索融入AI可以说是一个神来之笔,从全球范围来看,谷歌最终也很有可能凭借搜索的优势来反超OpenAI。
因为搜索和AI的结合是最为自然的,也是实用性提升最强的,它大大降低了搜索工具的使用门槛,同时筛掉了很多往往需要专业人士才能分辨的垃圾信息,而最终产生的搜索结果,就好像上面的对比表格一样,直接利用率非常高,不再需要人们进行更复杂的二次数据整理和编辑。
在这里需要强调的是,天工大模型和其他AI搜索的领先之处还有一点是支持简洁、增强、研究3个模式,其中的简洁模式的结果和其他大模型类似,而增强和研究两个模式则能输出更为丰富和复杂的结果来供更加专业的需求使用。
比如关于普通人有必要理财么这个问题,简洁模式就回复了基本的理财的目的、好处、风险,而增强版搜索则更为细节的阐述了理财的目的、理财的策略甚至还有理财的产品推荐。


而在研究模式下,我们就可以看到指定理财计划的推荐,以及10种理财工具的介绍,真的对这个领域有兴趣的用户就可以针对这10种产品进一步的进行研究和采纳了。这三个答案可以说是比较充分的体现出了天工AI搜索三种模式结果的不同。
对我本人的使用场景来说,大大解决了搜索中专业度不足的问题。之前我使用的大模型提供的素材很难在专业的稿件中用到,但天工AI搜索的增强尤其是研究模式下的结果,可用度就非常高了。

当然天工在AI搜索方面的领先也不是凭空而来,很多人只知道天工的研发者昆仑万维是国内市值数百亿的上市公司,但不知道的是,它之前曾收购并成功运营海外主流浏览器Opera,所以在搜索方面不仅有很强的技术积累,同时也奠定了如今自研搜索引擎的能力,这种积累最终在AI领域实现了爆发,不能不说昆仑万维在战略和远见方面的优势。
要知道,在国内同时具有大模型和搜索能力的公司屈指可数,而从目前的发展趋势来看,这两种能力的齐备是最后还能留在一线的必要条件。
昆仑万维在研发人员方面也是国内的第一梯队,相较于国内几个创业团队百十人的规模,有数倍的优势。而且这些研发人员质量也非常高,海内外知名院校博士就超过百人,其他大部分也都来自于微软、阿里、百度这样的行业大厂,技术水准有更好的保障。
AI发展如火如荼,这其中不仅仅需要技术能力的支撑,也需要对未来发展方向的准确判断和精准投入。毕竟AI发展就像滚雪球,好处是越来越大,领先优势也越来越明显,后来者很难追上。坏处就是一旦方向错了,很容易尾大不掉,难以转向。
从目前的发展趋势来看,多模态的方向已经相当确定,而天工在海内外的领先优势也比较明显。接下来就是要拉开差距和分胜负的时刻了。期待更强大的产品出现,也期待AI改变世界早日到来。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
9月24日,2025云栖大会在杭州开幕,阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭发表主旨演讲,首次系统性地阐述通往ASI的三阶段演进路线,包括智能涌现、自主行动以及自我迭代等,实现从学习人、辅助人到超越人的发展脉络。基于上述的发展路线,吴泳铭对外做出判断,大模型是下一代的操作系统。“我
文/二风来源/节点财经每年高考成绩放榜后,数千万考生和家长将迎来另一场硬仗——填报志愿。今年,这一领域迎来了AI的全面介入,多家互联网大厂和教育公司纷纷推出智能志愿填报产品,为考生提供院校和专业选择建议。据艾媒咨询数据,2023年中国高考志愿填报市场付费规模约9.5亿元,近九成考生愿意借助志愿填报服
崔大宝|节点财经创始人进入2024年,大模型似乎有熄火之势:资本市场,与之关联的概念炒不动了,英伟达股价动辄暴跌重挫,引发“泡沫戳破”的担忧;消费市场,BATH们的推新活动少了,产品更新迭代的速度慢了,民众的关注度降了……热闹的大概只剩下两场酣仗:自5月15日字节跳动宣布“以厘计费”,打响国内大模型
年初大模型行业上演“长文本”大战时,我们就萌生过做一个“读书助理”的想法。测试了市面上主流的大模型后,发现普遍存在两个不足:一种是可以处理的文本长度不够,即使有些大模型将文本长度提升到了20万字,像《红楼梦》这样近百万字的名著,还是需要多次才能“读”完。另一种是语言理解和生成能力不足,经常出现“幻觉
“你自己还搞技术啊?”这句话,我最近用AI做网站的时候,被好几个人说过。言下之意:你是老板,不该干这个。这半年,我一直在用AI做网站,很多人在我评论里、群里、视频都说过,大意是你不开公司,天天琢磨用AI做网站干嘛?网站都是夕阳行业了。本来还没当回事,结果评论区说的人多了,我自己都恍惚了?我做网站20
昇腾,打响了一场Agent前夜的“硬软合围战”
5月13日,阿里巴巴集团发布2026财年Q4及全年财报。财报表示,阿里全栈AI技术投入已正式跨越初期培育阶段,进入正向的规模商业化回报周期。在财年第四季度,阿里AI在模型、云基础设施和应用各层实现加速突破。在AItoB方向,阿里旗下企业级Agent平台“悟空”已于近期逐步规模化放量。悟空是阿里巴巴旗
近日,负债28万元的张先生被短视频广告吸引,支付39.9元咨询费后,对方承诺减免5万元利息,却在收取14350元服务费后失联。新浪黑猫投诉平台显示,涉及“律所”与“债务协商”的投诉已超1500件。面对债务压力,许多持卡人急需知晓平安信用卡逾期怎么处理,却不慎跌入黑灰产陷阱。虚假承诺借律所外壳行骗,黑
“养龙虾”到底要花多少钱?这个问题可能是大家最关心的。我们把成本拆成三部分:服务器租用费+大模型API调用费+杂项开销。第一部分:服务器租用费。最省钱的方案当然是本地旧电脑自托管——零新增成本,电费忽略不计。但如前所述,你需要接受“不是7×24小时在线”的局限性。如果选择云服务器,成本差异就很大了。
不少朋友第一次接触OpenClaw时,都会有一个相同的困惑:这玩意儿到底该装在哪里?OpenClaw(社区戏称“养龙虾”,因Logo为龙虾钳)不是普通的聊天机器人,而是一款本地优先、可自主执行、支持多Agent分工协作的AI执行网关。说白了,它让大模型从“只会说话”变成“会动手做事”——帮你管理文件
01别相信“一键养虾,躺平赚钱”的鬼话打开社交媒体,你可能会看到这样的标题:“养只龙虾自动炒股,零代码养出数字巴菲特!”信了,你就输了。真实情况是:一个做跨境电商的小哥花了200元租服务器、订阅API,指望龙虾帮他炒股暴富。结果龙虾开始几天还像模像样,后来直接摆烂,生成个干瘪的大纲就敷衍了事。AI是
一张证书引发的讨论4月7日,北京嫣然天使儿童医院给陈光标发了一张感谢证书,感谢他捐赠1000万元。这事说起来挺曲折的。此前陈光标高调说要赠给张雪一台价值1300万元的劳斯莱斯,张雪回应“收了,八折卖掉捐给嫣然”,一番拉扯之后,陈光标把车变现,1000万元直接打到了嫣然医院账上。医院发证书感谢,本来是
2026年4月7日,国家安全部就AI核心术语“词元”(Token)发布安全警示,强调在日均调用量突破140万亿规模的市场背景下,需高度警惕由此引发的数据泄露与金融诈骗风险。据统计,截至今年3月,我国日均词元调用量已超过140万亿,较2024年初增长1000多倍。词元作为大模型处理信息的最小单元,兼具
如今出门,如果你还没用过AI智能助手,可能真有点跟不上节奏了。无论是写作文、查资料,还是规划出行路线,越来越多的人已经习惯随手打开AI问一句。这股热潮背后,中国AI大模型用实打实的数据交出了一份亮眼的成绩单。根据全球知名AI模型聚合平台OpenRouter的最新数据,在3月30日至4月5日这一周,中