稍微留意下近期的新闻,“赶超GPT-4”正在成为国产大模型的新热点。
百度文心一言、商汤日日新以及阿里云刚刚发布的通义千问2.5,均已迈入“全面赶超GPT-4”阵营。
把时间线稍微拉长一些的话,过去大半年时间里,“超越GPT-4”的消息可谓屡见不鲜,即使在报道中刻意加上了多项基准、部分指标等前缀,依然赚足了眼球,成为国产大模型佐证自身能力的有力指标。
简单做个复盘的话,国产大模型对GPT-4的追赶已经进行了400多天,其中“赶超进程”可以粗分为三个阶段。
第一阶段:部分性能超越GPT-4
2023年3月14日,OpenAI正式推出了GPT-4,彼时大多数国产大模型还未开放,少数内测大模型的比较对象还是GPT-3。作为业界标杆的GPT-4,就像是科幻照进了现实,被无数人捧上神坛。
但在短短半年后,GPT-4就出现在了国产大模型厂商的比较名单里。

2023年8月底,商汤科技对外公布了一则新进展:拥有1230亿个参数的“书生·浦语”,在全球51个知名评测集共计30万道问题集合上,测试成绩排名全球第二,并在综合考试agieval、知识问答commonsenseqa、阅读理解和推理的十项评测中位列第一,分数超过风头正盛的GPT-4。
2023年10月17日的“生成未来”发布会上,百度正式发布了文心大模型4.0版本,李彦宏在现场依次演示了大模型的理解、生成、逻辑和记忆四大核心能力的特点与应用场景。尽管没有给出评测数据,李彦宏却自信地表示:文心大模型4.0的综合水平,“与GPT-4相比毫不逊色”。
国产大模型赶超GPT-4的序幕正式拉开,此后一两个月里,不少大模型给了这样的营销口径:整体能力已经不输于GPT-3.5,并且在部分性能指标上开始超越GPT-4。
第二阶段:整体性能逼近GPT-4
时间来到2024年初,国内的“百模大战”进入收敛期,一些不被资本市场认可的大模型,渐渐成了一个数字,只有几家科技大厂和独角兽仍活跃在大模型一线。“活下来”的大模型,势必要在能力上证明自己。
综合性能逼近GPT-4,开始成为新的营销话术。

2024年1月中旬的智谱AI技术开放日上,正式发布了新一代基座大模型GLM-4。按照智谱AI官方的说法:在权威的英文测试榜单中,GLM-4已经整体逼近GPT-4,平均能达到GPT-4 90%以上的水平,在个别项目上表现持平;而在国内企业更加看重的中文任务上,GLM-4的表现全面超过GPT-4。

同样是在2024年1月,科大讯飞发布了星火认知大模型V3.5,在逻辑推理、语言理解、文本生成、数学答题、代码、多模态等核心能力均显著提升,其中语言理解、数学能力已经超过GPT-4 Turbo,代码能力达到GPT-4 Turbo 96%,多模态理解达到GPT-4V 91%。“在中文理解方面,甚至遥遥领先。”

回头来看,智谱AI和科大讯飞的营销策略还是有些“保守”,百川智能在同一时间段发布的Baichuan 3,对外表示已经在CMMLU、GAOKAO等中文评测中超越GPT-4。
第三阶段:全面赶超GPT-4 Turbo
2023年11月的OpenAI首届开发者大会,GPT-4 Turbo可以说整个活动的焦点,不仅比GPT-4更聪明,文本处理的上限更高,推理的速度更快,价格也更便宜,国产大模型随即迎来了新的比较对象。

先是2024年4月份发布的日日新5.0,拥有6000亿参数,并在发布会上引用了OpenCompass的评测数据:日日新5.0达到或超越了GPT-4 Turbo版本,几乎全方位碾压了同期发布的 Llama 3-70B。

再然后就是阿里云刚刚发布的通义千问2.5,根据媒体报道中的说法:模型性能全面赶超GPT-4-Turbo,成为“地表最强”中文大模型;通义千问1100亿参数开源模型在多个基准测评收获最佳成绩,超越Meta的Llama-3-70B,成为开源领域最强大模型。

可以笃定的是,日日新5.0和通义千问2.5只是个开始,后续将有更多国产大模型在能力上超越GPT-4-Turbo。
毕竟科大讯飞早已预热了上半年发布星火认知大模型V4.0的消息,将全面对标GPT-4系列;文心一言4.0的发布已经超过半年,不排除新版本正在准备中,且大概率会在性能上再上一个台阶……
“跑分”的意义在哪里?
不管是一开始的“部分性能超越”,还是现在进行中的“全面赶超”,依据都是第三方评测结果,或者说大模型厂商的主观判断。比如商汤和阿里云争相引用的OpenCompass,就是上海人工智能实验室开源的大模型评测平台。
对于一些大模型沉迷于刷榜、跑分的现象,上海人工智能实验室领军科学家林达华教授曾在媒体采访中直言:通过题海战术提高大模型成绩,对于模型实际能力的反应是失真的,影响了模型研发团队的改进方向和模型的商业落地,“高分低能”伤害的是机构本身;榜单上任何具体的名字只是大模型成长过程中无数次测试中的一次,一时的排名高低并不真正反映模型的能力。
何况很多大模型测试集为了公开透明,测试题目或者提纲都是公开的,大模型厂商不难通过“针对性的训练”来提高分数。只要将足够的的测试题喂给大模型,在开卷考试的机制下,分数总不会太低。
也就是说,分数高并不一定代表大模型的能力强。“跑分”的意义仅仅是让客户或开发者对大模型能力有一个初步的认识,最终的评估因素永远是“能不能解决问题”,“能不能在场景中带来实实在在的生产力”。
特别是在大模型走向落地应用的趋势下,一味炒作“超越GPT-4”、“跑分第一”,妄顾落地应用的实效,可能会适得其反。以大模型应用中比较常见的财报分析为例,如果大模型连一家企业的财报都看不懂,再高的计算分数也不会让客户信服,反而会被排除在合作名单外。
而参考中信证券等机构的研究报告,目前OpenAI的GPT-5正处于红队测试阶段,有望在今年夏天正式发布,可能在多模态理解、长文本输入、zero-shot学习等方面实现重大突破,且性能将远超GPT-4。即使国产大模型花费400多天追平了GPT-4,在相当长一段时间里,仍将处于追赶的姿态。
大模型的价值是解决日常问题的生产力工具,赶超GPT-4的阶段性升级,可以看作是国产大模型有序迭代部署、不断拉近差距的标志,切莫像手机跑分那样,在过度营销的作用下,沦为被群嘲的对象。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
9月24日,2025云栖大会在杭州开幕,阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭发表主旨演讲,首次系统性地阐述通往ASI的三阶段演进路线,包括智能涌现、自主行动以及自我迭代等,实现从学习人、辅助人到超越人的发展脉络。基于上述的发展路线,吴泳铭对外做出判断,大模型是下一代的操作系统。“我
文/二风来源/节点财经每年高考成绩放榜后,数千万考生和家长将迎来另一场硬仗——填报志愿。今年,这一领域迎来了AI的全面介入,多家互联网大厂和教育公司纷纷推出智能志愿填报产品,为考生提供院校和专业选择建议。据艾媒咨询数据,2023年中国高考志愿填报市场付费规模约9.5亿元,近九成考生愿意借助志愿填报服
崔大宝|节点财经创始人进入2024年,大模型似乎有熄火之势:资本市场,与之关联的概念炒不动了,英伟达股价动辄暴跌重挫,引发“泡沫戳破”的担忧;消费市场,BATH们的推新活动少了,产品更新迭代的速度慢了,民众的关注度降了……热闹的大概只剩下两场酣仗:自5月15日字节跳动宣布“以厘计费”,打响国内大模型
年初大模型行业上演“长文本”大战时,我们就萌生过做一个“读书助理”的想法。测试了市面上主流的大模型后,发现普遍存在两个不足:一种是可以处理的文本长度不够,即使有些大模型将文本长度提升到了20万字,像《红楼梦》这样近百万字的名著,还是需要多次才能“读”完。另一种是语言理解和生成能力不足,经常出现“幻觉
2025年,被业界公认为具身智能(EmbodiedAI)真正觉醒的元年。当人工智能跨越数字世界的边界,轰然撞开物理世界的大门,是谁在荒野中劈开荆棘?又是谁在定义行业的未来?由魔搭社区(ModelScope)、CCF智能机器人专委会、工信部装备数字孪生技术重点实验室、Lumina具身智能社区、开放原子
拒绝“智元”走私语义,七维拆解Token物理本质,定义AI时代唯一真名:「符元」。
3月22日,智汇金陵·AI开源人才峰会暨魔搭开发者大会在南京举办。从去年6月30日至今,魔搭社区用户数从1600万增长至2500万,9个月内用户增量近千万;魔搭社区上的开源模型数量从7万增长至17万,9个月内新增10万个开源模型,包括DeepSeek、智谱、MiniMax、阶跃星辰、Mistral等
文/杨雪健来源/节点财经Meta或迎来史上最大规模裁员潮。2026年3月14日,路透社曝出Meta正计划启动新一轮大规模裁员,此次裁员比例或达公司总员工数的20%,按其近7.9万的员工规模计算,约1.58万名员工或将被裁。若该计划执行,将成为Meta自2022年底实行“效率之年”重组后规模最大的一次
3月17日,阿里发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的”龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。拥有8亿用户的钉钉重写底层代码,进行全面CLI(命令行界面)化改造,让悟空Agent能够原生操
AI的“免费红利期”结束了,未来18个月,靠“API倒卖”的公司,会成片消失。这个导火索就是最近Google的一轮封号导致的,随着封号风波的结束,这也标志着AI行业【收租时代】来了。2月封号潮:高付费用户被一锅端一周前,Google开始大规模封号,付着250美金月费的人,账号说没就没,Gmail、Y
来自路透社等媒体报道的最新消息:DeepSeek未发布的V4Lite模型遭泄露上网,华为获得早期访问权限,英伟达被排除在外。近期,谷歌发表了2篇Multi-Agent协作学习新论文有网友提供了更加详细的信息,DeepSeekV4Lite:100万token上下文窗口(V3为128K)内置原生多模态推
春节红包会结束,但AI已融入数亿人生活里
性能、商业、生态诠释开源模型的最佳姿态
2026年刚开年,全世界最狂的那个男人,穿着他的经典黑皮衣,在CES舞台上发出了未来十年的信号。他搞了个“能吃饱套餐”:6个包子+一碟小菜+一碗粥=肉包子套餐,这样以后你只要买一个套餐就能吃饱了。(Rubin平台)同时他们店里还免费提供的筷子、勺子、蘸料、酱油、醋、水果、零食等等。(开放10万亿语言