通义听悟诞生背后，AI大模型打响应用第一枪

2023-06-05 14:36 来源：A5专栏我来投稿撤稿纠错

2023年伊始，ChatGPT的爆火出圈，迅速引发了业界对于生成式AI应用的关注，AI大模型的竞争更是愈演愈烈。

作为参与其中的重要玩家，阿里云先是在4月11日举行的阿里云峰会上，推出了通义千问大模型。紧接着6月1日，阿里云宣布通义大模型进展，聚焦音视频内容的AI新品“通义听悟”正式上线，成为国内首个开放公测的大模型应用产品，这意味着阿里云大语言模型，又向前端应用迈进了一大步。同时其基于AI大模型应用的发布，也相当于给当前纷争正劲的“大模型混战”，掷下了一枚重磅炸弹。

千模大战一触即发

近几个月，随着微软、谷歌、亚马逊等硅谷大厂，纷纷公布大模型及AIGC进展，通过AI搜索引擎、AI办公软件等一系列应用打响AI竞赛，国内互联网云大厂也陆续全军出击了。不只是大厂就连很多初创企业，VC/PE机构、各行各业巨头，都涌入了AI大模型赛道，试图从中分一杯羹。据不完全统计，目前公布推出AI大模型计划的大企业，不下于50多家，其他参与者更是不计其数。

从格局上来看，以“BATH”等为代表的互联网科技公司，凭借场景、算力、全栈技术能力等综合实力，稳居行业第一梯队；而处于二线的重要行业企业，如商汤科技、中国电信、京东、360等，则借助其在相关领域的影响力，位列行业第二梯队；紧随各行业巨头之后的是，包括美团联合创始人王慧文、前搜狗CEO王小川等在内的各路知名创业者，他们有认知、有机构加持和相关背景，但由于还处于初始阶段，因此在AI大模型混战中暂居第三梯队。

从分类上来看，围绕通用大模型以及专用大模型，各个企业都有自己的定位和分工。根据业内人士介绍，目前国内大模型主要可以分为两类：一类是对标GPT的通用大模型，聚焦基础层的公司，如阿里、百度等公司；另一类是在开源大模型基础之上训练垂类大模型，聚焦垂直行业的企业，如应用于金融、医疗、交通等领域的垂类大模型。由于前者的技术要求高、成本大，因此当前很多行业已经开始基于自身的情况，纷纷采取与通用大模型企业合作的方式，来训练适合自己行业的垂类大模型了。

从产业链上来看，算力厂商、云服务厂商、前端应用厂商都有参与，体系完整、联系紧密且范围宽广。目前包括算力厂商英伟达、云服务厂商阿里云，前端应用厂商如金山办公、用友网络、云从科技等，都在积极参与AI大模型的技术研发和场景落地。总之，当前围绕AI大模型的混战正在陡然升温。

通义听悟打响大模型应用第一枪

而从AI大模型涉及的层面来看，主要可以分为应用层、模型层、框架层和芯片层等四个层次，而目前市面上大部分公司都还在模型层，深一点的涉及到框架层和芯片层的研究，前端应用目前业内还没有。作为业内首个公测的大模型应用产品，通义听悟的示范作用极为明显。

一方面，相比底层技术，靠近应用前端的技术价值将更具想象空间。纵观所有的技术演变历史不难发现，技术的价值核心在于应用普及程度，以及对用户问题解决的程度。正因为如此，承担这一职责和使命的前端应用，往往具备更大的想象空间。

以6月1日阿里云推出的通义听悟为例，它通过接入阿里的通义大模型，其作用已经不仅仅是简单的具备音视频转写的工具了，而是已经成为帮助人们在音视频场景之下的高效AI助手了。它为人们提供自动做笔记、整理访谈、提取PPT等多种办公服务，而且能够实现音视频转化成图文内容、分章节摘要和总结全文观点等能力，具备了“类人”的高效检索分类能力。

此外，在细分场景中，它还具备不少“宝藏”功能，比如可以打开Chrome插件，外语学习者和听障人士，可以借助双语悬浮字幕条随时随地看无字幕视频，日程冲突时，听悟还可成为职场人士的“开会替身”，在静音情况下入会AI可代为记录会议、整理要点；转写结果可下载为字幕文件，方便新媒体从业者视频后期制作；听悟梳理的问答回顾可以让记者、分析师、律师、HR等群体整理访谈更高效。总之，在解决具体场景问题的能力上，它已经超出了现有音视频应用的能力范畴，也刷新了以往用户体验的上限，必将在业内掀起不小的风浪。

另一方面，从阿里云自身来说，通义千问大模型刚刚对外推出不久，就能够迅速推出基于AI大模型的技术应用，说明阿里云AI大模型的确已经比较成熟，具备了衍生AI应用的能力。

从模型层到应用层，从AI大模型到大模型应用的诞生，看似简单实则实现起来并不容易。通常来说，垂类应用是依托于通用大模型这个技术底座来实现的，撇开通用大模型的话，这些通常无法实现，而这要求其所依托的通用大模型本身是足够成熟的，否则其很难推出相对好用且超出现有产品能力的应用。拿通义听悟来说，其所呈现的技术实力，在业内并不是所有玩家都有的。

全体系AI基础设施成决胜关键

从AI大模型本身所需要的动轧千亿的参数训练要求来说，其推进的难度和复杂性可能远超外界想象。长远来看，具备全栈AI大模型技术能力和基础设施能力的企业，才能够走得更远。

一来，由于生成式AI的发展速度远超外界预期，任何单一环节的进步对整体的大模型训练促进作用有限。据OpenAI测算，自2012年以来，全球头部的AI模型训练算力需求，3-4个月翻一番，每年增长幅度高达10倍。但根据摩尔定律，芯片计算性能每隔18-24个月才能翻一番，也就说是芯片性能远远跟不上AI大模型的发展要求。具体到相关领域来说，基于CPU的计算体系，难以满足大模型训练之下，高带宽、低时延的网络传输要求，这些问题的解决，依靠单一的“堆砌算力”很难短期内见效，并且可能并不经济，必须借助来自算法、算力、框架等多层次的整体系统支持，才能更好地应对这种变化。

二来，由于发展通用大模型所需要的算力需求大、推理训练成本高、数据量要求高，导致其本身的门槛非常高，不具备全栈大模型研发、场景落地能力、生态开放能力的公司，很难保持较快的更迭速度，很容易被淘汰出局。据业内人士分析，要做成一个成功的可对外商业化输出的通用大模型，需要厂商拥有全栈大模型训练与研发能力，业务场景落地经验、AI安全治理举措，以及生态开放性等核心优势，而一般的企业很难完全具备这些能力。

而阿里云作为亚洲第一、全球第三的云计算服务商，其拥有国内最强的算力支撑体系。比如，阿里云飞天云操作系统，可实现单集群10万台规模、千亿文件数运算能力，其飞天智算平台可实现千卡并行效率达到90%，自研网络架构可对万卡规模的AI集群，提供无拥堵、高性能的集群通讯能力，阿里云自有的深度学习平台PAI，可以将计算资源利用率提高3倍以上，AI训练效率提升11倍，推理效率提升6倍。另外，阿里云还牵头建立了国内最大规模的AI模型服务社区“魔搭”，降低大模型开发成本、助力AI普惠；算法方面，阿里在语言以及多模态能力、超大模型、通用统一模型等多个技术维度，处于国内第一梯队，这都是阿里通义大模型能够迅速“出圈”的核心原因。

三来，从商业可能性来看，拥有全体系AI基础设施能力的公司，在MaaS（模型即服务）到来之后拥有更大的商业价值，在市场竞争方面会有更大的“回旋余地”。以阿里云为例，其后期既可以通过提供通用大模型服务，获取平台服务费；也可以出租算力和推训平台，赚取租金，变现路径相对更多，在市场竞争中可以根据情况灵活调整产品定价，以应对经营挑战。

产业迎来AI惠普时代

随着AI大模型应用的诞生，以深度AI普惠为特征的全新时代，也在逐渐拉开帷幕，AI深度嵌入产业实体，将成为不可逆转的行业趋势。

一方面，通用大模型的高门槛和广泛的垂类领域差异化需求，决定了基于通用大模型的专属大模型和产业应用，会成为未来主流的应用方向，推动AI加速进入千行百业。正如前文所述，通用大模型的高门槛，决定了国内外能够做成通用大模型的公司只是少数，而且随着AI模型变大，AI产业正从“手工作坊”组成的轻工业走向集约化生产，需要高性能、低成本的体系化基础设施，才能完成工业化生产。

这种能力不仅很多中小企业没有，即便是对于各行业头部企业，从0到1优化大模型训练，本身也并不经济，各行各业都需要成本足够低的AI基础设施。而且对于现有的厂商而言，继续加入这个领域“重复造轮子”并无多大必要。相比之下，垂类大模型本身的训练成本相对较低，而且一些专业领域拥有丰富数据场景的公司，做垂直大模型条件更好、数据质量更优，推出的产品更能够适应垂类行业需求，因此未来各类垂类行业GPT，或将成为主流大模型应用，推进AI迅速渗入产业。

另一方面，发展AI大模型的短期瓶颈是算力，长期来看是数据，因此高质量的前端应用有助于加速企业积累充分的数据资产，增强自身长期竞争力，加速产业应用普惠进程。当前来看，大模型的迅速迭代和进化，迫使所有的参与玩家不断累积算力资源，从芯片、云服务等各方面来优化配置，保证大模型训练所需要的算力支持。不过，从更长远来看，训练AI大模型的算法还在不断优化调整之中，未来随着算法的突破，算力可能不再是瓶颈，而高质量的数据资源将成为一种稀缺的资源，会受到更多关注。

作为业内首个基于AI大模型的应用，通义听悟的面世，有利于阿里加速积累优质数据资源，加速产业普惠进程，为更长期的发展奠定良好基础。

申请创业报道，分享创业好点子。点击此处，共同探讨创业新机遇！

相关标签: ai技术

汇聚中国AI顶尖力量云天励飞参与华为AI大模型联合创新

2023年7月6日,第六届世界人工智能大会(WAIC2023)在上海开幕,“人工智能大模型”是本届大会的备受瞩目的话题,据悉,在昇腾AI大模型的创新研发中,华为联手26家行业领军企业,组建了一支协同创新的“AI明星队”,云天励飞作为中国人工智能企业的杰出代表,和互联网大厂、运营商、科研院所等优秀团队

标签：

ai技术
用友大易：迈入AI招聘2.0时代，让人力资源回归本质

这几个月来，以ChatGPT为代表的生成式AI展现出的能力令世界惊叹。自从2016年AlphaGo战胜李世石掀起了一波AI浪潮后，AI仿佛已经沉寂了很久，ChatGPT的横空出世就如同一束耀眼的光芒，让AI这个名词重回C位。过去在AI1.0时代，主要通过训练模型来实现图像识别、声音识别、语言处理等特

标签：

ai技术
新发布的PaaS2.0，能否助力涂鸦智能再起飞？

文：互联网江湖作者：志刚2023年的IoT需要一个新故事。6月29日，涂鸦智能在开发者大会上，发布了企业级战略PaaS2.0，希望通过一个平台+四大开发服务，建立起IoT生态。对于这场发布会，市场的态度是积极的。美东时间6月29日收盘，涂鸦智能美股股价上涨5.6%，来到1.87美元/股。近日股价稳定

标签：

ai技术
大模型难掩AI制药的悲伤：越过山丘，无人等候

美团曾经的二号人物王慧文对标OpenAI的创业项目光年之外，以20亿卖给美团，再度引发市场对大模型的热议。

标签：

ai技术
拾起王慧文的AI梦，美团冲向“光年之外”？

2020年底，王慧文在朋友圈写下这句话时，外界本以为这位伴随中国互联网发展而持续创业20年的人物即将告别创业舞台。但是，一个曾经多次创业，正值壮年的互联网老将心中的创业热情是难以熄灭的。

标签：

ai技术

Manus「撤出」中国，昔日AI Agent新星为何仓促离场？

文/道哥大举裁员、清空账号、国内IP无法访问——曾被誉为“中国AIAgent希望之星”的Manus，在估值飙至5亿美元的高光时刻“闪离”中国市场。近日，Manus“裁员、出走”的消息在媒体端大量发酵。消息称，Manus公司总部将由中国迁至新加坡，其国内团队也将大幅裁撤——原有120人规模团队除40余

标签：

ai智能
靠“虚拟伴侣”赚钱的AI独角兽，上市有点悬

虚拟伴侣，乱象丛生

标签：

ai智能
Manus官网突现“地区不可用”提示，中国区业务战略性调整引关注

四个月前邀请码炒至10万元，如今官网变灰、社交账号清空，这家AI新贵的闪电迁移折射中国科技企业出海潮涌。7月11日，打开Manus官网的用户发现一则突兀提示：“Manus在你所在的地区不可用”。而就在不久前，这个位置还显示着“Manus中文版本正在开发中”的乐观声明。同时，Manus官方微博和小红书

标签：

ai智能
摩尔线程估值超 250 亿，「中国英伟达」冲刺科创板

文/十界来源/节点财经一场围绕算力自主的竞赛，正在科创板上演。近日，国产全功能GPU厂商摩尔线程递交科创板招股书，拟募资约80亿人民币，成为今年上半年科创板拟募资规模最大的冲刺者，也打响了“国产英伟达”上市的第一枪。据招股书显示，摩尔线程自2020年成立以来，主营全功能GPU芯片的研发与销售，以自主
百川智能高管集体跑路!王小川的医疗AI还能赢吗?

“AI大模型六小虎”百川智能危机重重。这是前搜狗CEO王小川创办的AI公司。昨天就爆出新闻，百川智能的联合创始人离职，这是王小川入局AI的第一道大坎。接下的成败非常关键：(1)拿下河北(2)学习科大讯飞百川智能离职高端概览：(1)2025年7月10日，百川智能技术联合创始人谢剑将离职。他是百川只能的

标签：

人工智能

ai智能
百度智能云PaddleOCR 3.1正式发布：关键能力支持MCP

百度AI团队今日正式推出PaddleOCR3.1版本，以突破性的多语言组合识别（MultilingualCompositionPerception,MCP）技术为核心，彻底重构复杂文档处理边界。此次升级标志着OCR领域首次实现对同一文档内任意混合语言文本的精准识别，为全球化企业、跨境业务及多元文化场

标签：

ai智能

ai技术

宇树科技加速冲刺科创板IPO，人形机器人龙头估值飙至120亿元

“宇树已形成硬件、算法、场景联动的业务飞轮，自研率超95%的技术壁垒让其成为全球机器人赛道不可忽视的中国力量。”首程资本管理合伙人朱方文在追加投资时如是评价。7月7日，据每日经济新闻从宇树科技投资方处获悉，国内人形机器人领军企业宇树科技（UnitreeRobotics）已明确计划于科创板IPO，预计

标签：

宇树科技
OpenAI推出GPT-5：AI大统一时代的到来？

推理与多模态的终极融合，将彻底终结用户在不同模型间切换的烦恼。7月7日，OpenAI正式确认将在今年夏季推出新一代人工智能模型GPT-5。这一突破性产品将整合现有的多个强大模型，特别是融合专注推理能力的“O系列”与具备多模态功能的“GPT系列”，为用户提供前所未有的统一体验。OpenAI开发者体验负

标签：

chatgpt
中小AI企业，没有“高考”资格

高考一结束，忙坏了海内外一众大模型。豆包、DeepSeek、ChatGPT、元宝、文心一言、通义千问……掀起了一波“AI赶考”大战。据悉，去年高考期间，大模型的成绩才勉强过一本线，今年集体晋升985。据悉，豆包甚至过了清北的录取线。头部大模型在高考“考场”上玩得不亦乐乎，中小AI创企的处境却日益尴尬

标签：

ai智能
大模型抢滩高考志愿填报，能否顶替「张雪峰」们？

文/二风来源/节点财经每年高考成绩放榜后，数千万考生和家长将迎来另一场硬仗——填报志愿。今年，这一领域迎来了AI的全面介入，多家互联网大厂和教育公司纷纷推出智能志愿填报产品，为考生提供院校和专业选择建议。据艾媒咨询数据，2023年中国高考志愿填报市场付费规模约9.5亿元，近九成考生愿意借助志愿填报服

标签：

大模型

加载更多

通义听悟诞生背后，AI大模型打响应用第一枪

相关文章

汇聚中国AI顶尖力量云天励飞参与华为AI大模型联合创新

用友大易：迈入AI招聘2.0时代，让人力资源回归本质

新发布的PaaS2.0，能否助力涂鸦智能再起飞？

大模型难掩AI制药的悲伤：越过山丘，无人等候

拾起王慧文的AI梦，美团冲向“光年之外”？

Manus「撤出」中国，昔日AI Agent新星为何仓促离场？

靠“虚拟伴侣”赚钱的AI独角兽，上市有点悬

Manus官网突现“地区不可用”提示，中国区业务战略性调整引关注

摩尔线程估值超 250 亿，「中国英伟达」冲刺科创板

百川智能高管集体跑路!王小川的医疗AI还能赢吗?

百度智能云PaddleOCR 3.1正式发布：关键能力支持MCP

宇树科技加速冲刺科创板IPO，人形机器人龙头估值飙至120亿元

OpenAI推出GPT-5：AI大统一时代的到来？

中小AI企业，没有“高考”资格

大模型抢滩高考志愿填报，能否顶替「张雪峰」们？

热门排行

编辑推荐