OpenAI一纸禁令,挑动了大模型行业的神经。但没有什么阻碍,可以抵挡技术向上的决心。在不少大模型厂商开出优惠价格,试图从OpenAI禁令中截流用户的同时,国产大模型的代表企业科大讯飞,拿出了直面技术挑战的勇气。
6月27日,科大讯飞在北京国家会议中心举行讯飞星火4.0发布会。在“懂你的AI助手”这个主题下,讯飞星火大模型不但在8个国际主流测试集中排名第一,实现了对GPT-4 Turbo的全面对标,还对商业化落地、生产力探索做出了更全面的阐释,前瞻了行业的“Next-level”。
这一次,星火大模型掀起了新的巨浪。
自力更生,星火大模型成国产力量代言人
在国内外总共覆盖中英文的12项主流测试集,讯飞星火大模型V4.0在其中8项全面超越了GPT-4 Turbo、Claude 3 Opus、Gemini 1.5 Pro。后面这三位,正是目前英文世界大模型的战力天花板选手。
换一个指标,去年,科大讯飞参与设计了国产通用认知智能大模型测评体系,包含由481个测试项组成的7个方面。而如今,星火大模型V4.0在其中的文本生成、语言理解、知识问答、逻辑推理、数学能力五个方面超越了GPT-4 Turbo,仅在代码能力和多模态能力上仍有一定差距。
不过从数据来看,文本生成(80.2%)、语言理解(82.3%)、知识问答(85.7%)、逻辑推理(82.2%)、数学能力(86.5%)、代码能力(81.2%)、多模态能力(78.4%)这组数据放在一起,星火大模型V4.0总体已然算是国产大模型的能力代表。
具体来看,GPT-4 Turbo、Claude 3 Opus和星火大模型V4.0,重点都放在多维度信息组成的复杂指令、更考验逻辑任务能力的空间推理等高阶能力上。根据科大讯飞发布会现场的介绍,星火大模型V4.0不仅在长文本等通用能力上整体打平GPT-4 Turbo,而且更加擅长利用已有资料进行联系推理——比如解读几张有联系的图片的关系,为其补全内容情节,并减少“幻觉”的出现。
有趣的地方在于,星火大模型V4.0其实在多模态能力方面,实现了对GPT4-Turbo的部分超越,比如科研、金融、医疗、司法和办公等专业领域的图文识别能力。这代表星火大模型V4.0的侧重点明显不同于普通的通用大模型。它更侧重于某些垂直领域的应用潜力。
对此,科大讯飞董事长刘庆峰在演讲中做了一些阐述:“大模型不仅可以写诗、作画,在改变工业、改变科研范式等方面已经实实在在发挥作用,包括我们和中国科学技术大学做的合成类的科学创新,比如说化学;还有与合肥综合性国家科学中心能源研究院合作,在推进大模型赋能核聚变整个过程中更快地预测、更好地应对各种各样的异常情况。”
应用,已经成为星火大模型V4.0的重头戏。只有真正用起来,能力才会有价值。
以讯飞星火APP为例,自2023年9月全面开放以来,讯飞星火APP在安卓公开市场累计下载量达1.31亿次。现在,全新升级的讯飞星火APP,允许消费者用自己的知识库打造“更懂你的AI助手”。换句话说,专属于个体的智能体。
按照刘庆峰在演讲中透露的信息,讯飞星火APP使用的高峰期是工作日的工作时间段,意味着它真的变成了不少用户的刚需。这是对“AI只能用来玩玩”的刻板印象的有力回击,也是星火大模型价值的体现。
但更让人激动的应用,其实还在蓄力。个人能从星火大模型中找到助手,企业乃至社会,将从中汲取更大的力量。这就是整个大模型产业的“Next-level”,它的亮点就在落地的最后一公里,以及那些暂时还是畅想的形式。
真正的Next-level,藏在最后一公里
几个简单的问题,可以让我们对星火大模型V4.0的未来进化更有数。
首先,智能体为什么值得期待?九合创投在近日召开的年会上发布了《不朽的计算:比特连接世界,词元生成未来》报告。其中提到,“模型是能够沉淀智慧的计算形态”。传统算法是数学结果,一次使用不具备普及性。但模型可以持续进化,适应多维度的使用需求。而封装为智能体之后的超级模型,已经是特定领域的智慧结晶。它具有不可估量的复用价值。
以星火企业智能体平台为例,科大讯飞已经首批创建了32个企业智能体,可以深入业务流程,满足企业的需求。而这个过程其实非常轻松,企业只需要提出需求就可以开始创建智能体,经过功能验证后,就可以真实上马,并可以和企业内部办公平台打通。
从市场价值来看,讯飞星火大模型从去年发布到现在,已经和国家能源集团、中国石油、中国移动、交通银行、大众汽车、海尔集团、美的集团等行业领军企业建立合作,证明其使用价值得到一线认可。
其次,为什么是讯飞?因为企业智能的底层除了大模型技术,还有对企业业务的理解,对分门别类的场景的认知,这不是坐在办公室里就能拍脑袋想出来的。讯飞建立这些认知,花费了数十年的时间和遍布各行各业的具体尝试。所以,智能体是新物种,但在讯飞和星火大模型的共同支持下,它会很快和现有生态相融。
换句话说,讯飞的领先,是星火大模型的技术领先和自身To B和To G业务领先的复合结果。2024年6月,讯飞刚刚荣获国家科学技术进步奖一等奖,获奖项目名为“多语种智能语音关键技术及产业化”,技术和产业化的双剑合璧,成为一块勋章。上半场的技术较量,讯飞能和OpenAI掰手腕。下半场的应用较量,讯飞更懂中国市场。
最后,星火大模型V4.0背后的进化,对智能体概念的探索,远期价值恐怕会远超普通人的想象。目前,还只是这个概念的蓄力阶段。
一个很关键的问题是,从GPT-4 Turbo到星火大模型V4.0,我们越来越关注大模型的多模态能力、空间和逻辑推理能力、对复杂指令的理解和执行能力等等。这种需求引导下发展的大模型和智能体,注定用于和现实世界融合交互。
现代机器人之父罗德尼·布鲁克斯(Rodney Brooks)在1991年发表的《没有表征的智能》论文中提出,传统智能基于复杂算法和内部数据模型是错误和片面的,真正的智能行为要从自主机器与环境的物理交互中产生。这个想法更加适合今天大模型和智能体的发展,或者说“具身智能”的概念——能理解和推理物理世界,并且产生互动。
“AI教母”李飞飞选择的创业方向就是与之类似的“空间智能”。她曾在TED的演讲上举过一个例子——一张猫伸出爪子将玻璃杯推向桌子边缘的图片。她说,人类大脑可以评估“这个玻璃杯的几何形状,它在三维空间中的位置,它与桌子、猫和所有其他东西的关系”,所有推理都基于这些认知。
无疑,星火大模型V4.0也好,GPT-4 Turbo也罢,都是在朝着这种意义上的智能发展。
刘庆峰曾提出星火大模型的四条商业化路径,其中一条就是基于“超脑2030计划”推动机器人走进千家万户,重头戏在于全栈机器人能力,而这又源于大模型的多模感知和多维表达。
对科大讯飞来说,好消息是它所掌握的应用经验,很有可能让星火大模型在向空间智能、具身智能的发展过程中步步领先。比如现在,星火个人智能体和企业智能体的落地,其实已经在调动现实要素对大模型和智能体进行完善。只不过,目前的应用停留在数字空间,还没有深入现实进行交互。
但我们相信,这一天会比想象的更早到来。毕竟,从去年的星火大模型1.0版本到如今的4.0版本,科大讯飞从无到有,创造出世界一流的大模型能力和应用,已然是一个奇迹。
而在当下这个世界中,地缘层面的割裂已经影响到大模型世界的完整性。当OpenAI发出断供宣言,有星火大模型这样的一线玩家能够顶上,不得不说是中国大模型产业的幸运。在这一年,中国人工智能领域的实力,正在这些领先者身上,闪耀着新的光芒。
来源:松果财经
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
9月24日,2025云栖大会在杭州开幕,阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭发表主旨演讲,首次系统性地阐述通往ASI的三阶段演进路线,包括智能涌现、自主行动以及自我迭代等,实现从学习人、辅助人到超越人的发展脉络。基于上述的发展路线,吴泳铭对外做出判断,大模型是下一代的操作系统。“我
文/二风来源/节点财经每年高考成绩放榜后,数千万考生和家长将迎来另一场硬仗——填报志愿。今年,这一领域迎来了AI的全面介入,多家互联网大厂和教育公司纷纷推出智能志愿填报产品,为考生提供院校和专业选择建议。据艾媒咨询数据,2023年中国高考志愿填报市场付费规模约9.5亿元,近九成考生愿意借助志愿填报服
崔大宝|节点财经创始人进入2024年,大模型似乎有熄火之势:资本市场,与之关联的概念炒不动了,英伟达股价动辄暴跌重挫,引发“泡沫戳破”的担忧;消费市场,BATH们的推新活动少了,产品更新迭代的速度慢了,民众的关注度降了……热闹的大概只剩下两场酣仗:自5月15日字节跳动宣布“以厘计费”,打响国内大模型
年初大模型行业上演“长文本”大战时,我们就萌生过做一个“读书助理”的想法。测试了市面上主流的大模型后,发现普遍存在两个不足:一种是可以处理的文本长度不够,即使有些大模型将文本长度提升到了20万字,像《红楼梦》这样近百万字的名著,还是需要多次才能“读”完。另一种是语言理解和生成能力不足,经常出现“幻觉
5月13日,阿里巴巴集团发布2026财年Q4及全年财报。财报表示,阿里全栈AI技术投入已正式跨越初期培育阶段,进入正向的规模商业化回报周期。在财年第四季度,阿里AI在模型、云基础设施和应用各层实现加速突破。在AItoB方向,阿里旗下企业级Agent平台“悟空”已于近期逐步规模化放量。悟空是阿里巴巴旗
近日,负债28万元的张先生被短视频广告吸引,支付39.9元咨询费后,对方承诺减免5万元利息,却在收取14350元服务费后失联。新浪黑猫投诉平台显示,涉及“律所”与“债务协商”的投诉已超1500件。面对债务压力,许多持卡人急需知晓平安信用卡逾期怎么处理,却不慎跌入黑灰产陷阱。虚假承诺借律所外壳行骗,黑
“养龙虾”到底要花多少钱?这个问题可能是大家最关心的。我们把成本拆成三部分:服务器租用费+大模型API调用费+杂项开销。第一部分:服务器租用费。最省钱的方案当然是本地旧电脑自托管——零新增成本,电费忽略不计。但如前所述,你需要接受“不是7×24小时在线”的局限性。如果选择云服务器,成本差异就很大了。
不少朋友第一次接触OpenClaw时,都会有一个相同的困惑:这玩意儿到底该装在哪里?OpenClaw(社区戏称“养龙虾”,因Logo为龙虾钳)不是普通的聊天机器人,而是一款本地优先、可自主执行、支持多Agent分工协作的AI执行网关。说白了,它让大模型从“只会说话”变成“会动手做事”——帮你管理文件
01别相信“一键养虾,躺平赚钱”的鬼话打开社交媒体,你可能会看到这样的标题:“养只龙虾自动炒股,零代码养出数字巴菲特!”信了,你就输了。真实情况是:一个做跨境电商的小哥花了200元租服务器、订阅API,指望龙虾帮他炒股暴富。结果龙虾开始几天还像模像样,后来直接摆烂,生成个干瘪的大纲就敷衍了事。AI是
一张证书引发的讨论4月7日,北京嫣然天使儿童医院给陈光标发了一张感谢证书,感谢他捐赠1000万元。这事说起来挺曲折的。此前陈光标高调说要赠给张雪一台价值1300万元的劳斯莱斯,张雪回应“收了,八折卖掉捐给嫣然”,一番拉扯之后,陈光标把车变现,1000万元直接打到了嫣然医院账上。医院发证书感谢,本来是
2026年4月7日,国家安全部就AI核心术语“词元”(Token)发布安全警示,强调在日均调用量突破140万亿规模的市场背景下,需高度警惕由此引发的数据泄露与金融诈骗风险。据统计,截至今年3月,我国日均词元调用量已超过140万亿,较2024年初增长1000多倍。词元作为大模型处理信息的最小单元,兼具
如今出门,如果你还没用过AI智能助手,可能真有点跟不上节奏了。无论是写作文、查资料,还是规划出行路线,越来越多的人已经习惯随手打开AI问一句。这股热潮背后,中国AI大模型用实打实的数据交出了一份亮眼的成绩单。根据全球知名AI模型聚合平台OpenRouter的最新数据,在3月30日至4月5日这一周,中
01别在主电脑上养!这是最最重要的一条“保命”建议。很多小白心血来潮,直接在自己存着毕业论文、工作文件、银行卡信息的主力电脑上部署OpenClaw。然后悲剧发生了:让龙虾帮忙整理一下桌面文件,结果它把整台电脑的文件全删了。这不是段子,是真事。OpenClaw一旦被授予高权限,就能执行删除、修改等不可
01免费领养,但饲料要钱很多人第一次听说OpenClaw时,脑子里冒出的第一个念头是:开源软件,那不免费吗?没错,OpenClaw本身确实是开源的,下载安装一分钱不收。但你很快就会发现,真正的开销根本不在这里。养一只“龙虾”,就像领养了一只宠物——领养免费,但“虾缸”“虾粮”“虾保姆”都得自己掏钱。