AI的数据、算法、算力“轮流坐庄”，NLP到了“数据为王”的时代

2020-05-08 18:18 来源：A5专栏我来投稿撤稿纠错

工作人员齐整坐好，每个人都对着电脑全神贯注，一件又一件的“东西”在眼前划过，经过标准化处理就转到下一流程……这实际上是人工智能行业里的数据标注办公区一角。

由于深度学习的研究方向，人力密集型的数据标注工作是推进人工智能技术落地的重要环节之一。

很长一段时间以来，在过往AI的发展中数据的采集与标注行业没有过多地被关注，毕竟，与算法、算力这些高大上的东西相比，AI数据的生产总带着那么几分与AI技术的“科技感”截然不同的形象。

然而，随着AI的发展走向纵深，更多人发现这是一个误解，AI数据产业正在向着高专业化、高质量化 的方向蓬勃发展。

根据2018年智研发布的《2019-2025年中国数据标注与审核行业市场专项分析研究及投资前景预测报告》，2018年该行业市场规模已达到52.55亿元，2020年市场规模有望突破百亿。有行业人士估计AI项目中会有10%的资金用于数据的采集和标记，2020年，数据标注行业最终市场规模将达到150亿。

而分享市场的，既有BAT、京东等互联网巨头，也有云测数据这种专注于高质量交付的专业化数据平台。

庞大的前景下，数据采集与标注也可以分NLP(自然语音处理)、CV(计算机视觉)等几个部分，随着数据需求量的增大、对数据质量要求的提高，其中的NLP越来越成为“硬骨头”，AI数据产业终将面临它带来的难题，也承袭这种难题下空出的市场空间。

AI的数据、算法和算力“轮流坐庄”，NLP到了“数据为王”的时代

芯片制程以及大规模并联计算技术的发展，使得算力快速提升后，AI能力的提升主要集中到了算法和数据上(算力提升当然还有价值，只是相对价值那么明显了，例如不可能对一个物联网终端设备有太多的算力设定要求)。

这方面，多年以来，人工智能技术都呈现“轮流坐庄”的螺旋提升关系：

算法突破后，可容纳的数据计算量往往变得很大，所以会迎来一波数据需求的高潮；而当AI数据通过某些方式达到一个新的程度时，原来的算法又“不够了”，需要提升。

2018年11月，Google AI团队推出划时代的BERT模型，在NLP业内引起巨大反响,认为是NLP领域里程碑式的进步，地位类似于更早期出现的Resnet相对于CV的价值。

以BERT为主的算法体系开始在AI领域大放异彩，从那时起，数据的重要性排在了NLP的首位。

加上两个方面的因素，这等于把NLP数据采集与标注推到了更有挑战的位置上。

一个因素，是NLP本身相对CV在AI数据方面的要求就更复杂。

CV是“感知型”AI，在数据方面有Ground Truth（近似理解为标准答案） ，例如在一个图片中，车、人、车道线等是什么就是什么，在采集和标注时很难出现“感知错误”(图片来源：云测数据)

而NLP是“认知”型AI，依赖人的理解不同产生不同的意义，表达出各种需要揣测的意图，Ground Truth是主观的。

例如，“这房间就是个烤箱”可能是说房间的布局不好，但更有可能说的是里边太热。人类语言更富魅力的“言有尽而意无穷”的特点，应用于AI时，需要被多方位、深度探索。

另一个因素，是AI数据的价值整体上由“饲料”到“奶粉”，对NLP而言这更有挑战。

大部分算法在拥有足够多常规标注数据的情况下，能够将识别准确率提升到95%，而商业化落地的需求现在显然不止于此，精细化、场景化、高质量的数据成为关键点，从95% 再提升到99% 甚至99.9%需要大量高质量的标注数据，它们成为制约模型和算法突破瓶颈的关键指标。

但是，正如云测数据总经理贾宇航所言，“图像采标有很强的规则性，按照规范化的指导文档工作即可，但NLP数据对应的是语言的丰富性，需要结合上下文等背景去理解和处理。”在高位提升这件事上，NLP数据更难。

例如，在订机票这个看似简单的AI对话场景中，想订票的人会有多种表达，“有去上海的航班么”，“要出差，帮我查下机票”，“查下航班，下周二出发去上海”……自然语言有无穷多的组合表现出这个意图，AI要“认得”它们，就需要大量高质量的数据的训练。

由此，我们再来理解商业机会。

数据采集与标注的公司有很多，从巨头的“副业”到AI数据专业化平台，总体而言主要玩家如图所示：

除此之外，更多中小玩家甚至几十人的草台班子数不胜数。在中国，目前全国从事数据标注业务的公司约有几百家，全职的数据标注从业者有约20万人，兼职数据标注从业者有约100万人。

易入门、难精通，而上述两大因素决定NLP数据面临巨大的挑战，做得好的就更少。

在数据“坐庄”NLP的大背景下，空出了大量的商业机会，而客观上的高要求阻却了大量低门槛入场的玩家，NLP数据相对于CV更像一个蓝海。

打破单纯“体力活”标签，NLP数据采集与标注从四个方面自我演进

有机会就总有人会进场，不久前，中国人工智能高峰论发布了中国人工智能科技服务商50强，既有商汤、旷视这种明星企业，也出现了榜单内唯一的AI数据服务商云测数据，这显示AI数据正在进入“主流圈”，在蓝海中尝试跑出独角兽企业。

当然，前提是平台能够解决好NLP数据的痛点问题。

事实上，CV的“感知”需求使得“体力活”可能就能够胜任大多数据生产工作(谁不认识一辆车、一个人呢)，而“认知”的NLP数据要突围，只是“体力活”早已经不够。

至少目前来看，行业玩家在四个方面有所动作，或正在解决NLP数据痛点问题。

1、业务模式，用“定制化”迎合商业落地期的NLP

曾有媒体向Google工程师提起M-Turk的时候，他表示“我们不敢用Turk标注”，因为回收的数据良莠不齐。

众包模式(在公开平台发布任务，自由申领)是曾经的AI数据产业主流，拥有数据丰富性和多样性的优势，不过数据质量比较难以把控。在数据精细化要求的今天，很多需求方都转向了“定制化”(一对一，以项目制的方式完成交办的数据任务)服务模式。

例如，云测数据的“定制化”服务模式，跟的就是需求方复杂、精深而个性化的数据要求。具体到NLP，在数据采集上满足特定人物(老人、妇女、小孩)、特定场景(家居、办公、商业等)、不同方言的声音/文本数据采集;在数据标注上进行需求的对接、理解清楚场景化要求再分发尽量具体的规范指导(同样一句话在不同交流目的中可能需要标注不同的内容，例如“我没钱”在信贷服务中意味着潜在客户，在理财服务中则表达拒绝的态度)。

当然，众包模式也有它的优点，能够轻量化承载大量相对简单的数据需求，而场景化的定制模式则更专业，主要依靠自有员工和基地 ，像云测数据就在华东、华南、华北拥有自建标注基地，这种玩法显然更适合匹配客单价更高的场景化、定制化需求，NLP是典型。

2、管理流程，从“粗放制造”到“精益制造”

既然数据采集与标注很像是工厂的流水线，那么如果要提升数据的精准度，其实就如同“制造业”升级那样需要进行“粗放制造”到“精益制造”的转变，首要体现在管理流程的优化上。

无论是从平台接取任务的众包团队，还是直接对接需求方的定制化服务平台，至少，草台班子式的做法已经不适合NLP对数据的要求。

高精准度、高效率，都依赖管理流程的优化，以云测数据为例，具体做法包括这几个大方向：

标注、审核、抽检的层层把关：标注人员的结果交由另一批人进行审核，打回不合格的，最终再由质检进行抽检，大体如此，可能步骤更复杂;

人才类型的基础分类：文本、语音、图像标注人员不相互混用;

擅长场景的优先任务派发：在同等条件下，擅长对应场景的人优先派发给任务。

例会制度：如同精细化管理的制造业一样，早会、晚会、周会、月会，总结问题、提醒改进。

……

而无论如何，管理流程的事，说得再多，日常工作的落实才是最重要的。

3、职业技能，专业培训摆脱“低水平重复”

“不要门槛”意味着更低的价值，在人员个人能力上，NLP在逐渐抛弃那些“无门槛”入局的人，尤其是在特定的场景需求下。

例如，这是一个非常简单的NLP数据标注实例：

它的需求可能只有初中语文即可。但是，NLP的数据需求早已超过这样的标注太多。

例如，客服询问用户是否购买此商品时，“我要和家人商量一下”、“我会考虑”、“我现在不方便，你一会儿再打过来”，标注人员得准确标注出暂不购买，暂不考虑，拒绝购买或者兴趣较大等多种意图。

一方面，这依赖于平台进行的场景深挖，这也是为什么云测数据智能客服单个场景的意图标注就分为10-20个大类、上百个子类，根据业务需求可能还会有进一步的标注细分，如此数据标注可以更细化、直达需求。

另一方面，这绕不开人员能力的持续培训，把“干体力”的标注工人转化成懂一些专业的业务人员，典型的如云测数据在金融服务领域通过几个月的专业培训，培养出销售人员视角去揣测用户话语中的意图。

举例来看，在客服沟通中，用户回馈“我在开车”这短短的一个语料数据，可能需要标记出“有车一族”、“司机”、“没有明显拒绝”、“可能有兴趣”等多个标注给NLP算法，按云测数据自己的说法，其培训达到的目标，是让标注员工达到成为专业员工的水准。

显然，在NLP标注数据的初期阶段将各大金融机构的AI客服机器人训练到大致相当的初级认知智能水平后，再进行提升、提高销售转化或者服务满意度，都需要质量更高、针对特定需求更强的NLP标注数据。

值得一提的是，在NLP领域不是所有标注都能通过人员培训来解决，医疗、法律等过于专业的领域可能还是依赖专家标注(邀请医生、律师等参与标注)，那是一个更复杂的故事了。

4、工具使用，持续加码“便捷化”

工欲善其事必先利其器，NLP的标注虽然不像CV有很多空间维度的数据需求，但工具提升便捷度进而提升标准效率和准确性的价值仍然不可小觑。

这方面，巨头的脚步更早，在国外，Google Fluid Annotation一度是NLP标注“最好使”的工具，国内，大厂和专业平台的工具也被广泛使用，云测数据在工具上的创新优势很明显。

总体而言，标注工具适合自己的才是最好的。这种根据定制化需求开发贴合实际需要的数据工具对场景化数据的生产，发挥着重要作用。

无论如何，持续加码“便捷化”，是一个不会停止的过程。

NLP数据产业的机会，将会是谁坐庄？

在AI领域，虽然有大厂走在前列，但市场并没有被巨头垄断，中型AI平台也常常崭露头角成为主角。以AI数据服务领域为例，像云测数据这种专注于企业服务的第三方独立平台，以客户为中心的企业基因，一直贯穿在数据交付的始终。

一个典型的表现是，高精确度的NLP数据需要以企业服务的心态与客户仔细对接需求 ，例如，用户需求的场景是什么，如果是订票，AI问答应该主要导向订票，对应的NLP数据也要往这个方向去标注。

这一过程中需要数据服务人员对需求进行拆解、预判甚至提前给出建议，与客户反复沟通确认达成一致后，才能真正地去作业。大厂偏重于技术架构、前沿技术开发、云服务器中心大规模并发能力等建设，很难俯下身好好完成这件事，这时候，AI数据专业化平台更有优势。

此外，影响竞争格局走向的还有数据服务的安全性。

在数据采集与标注行业，复制一份数据在技术上非常简单，也能节省大量的人力和运营成本，但给客户带来的损失却不小(尤其是被竞争对手拿到)，保证数据隐私性和安全性,在AI激烈的竞争环境下几乎成为某些客户的首要决策标准。

总而言之，高专业度、高精准度、高效率、强安全才能赢得AI数据客户尤其是NLP数据客户的选择，不论巨头还是AI数据专业化平台在行业爆发式增长的关口都在努力，落实和推进了诸多动作。NLP数据产业正处在蓝海，一个不会由巨头坐庄的蓝海。

此内容为【智能相对论】原创，仅代表个人观点，未经授权，任何人不得以任何方式使用，包括转载、摘编、复制或建立镜像。

部分图片来自网络，且未核实版权归属，不作为商业用途，如有侵犯，请作者与我们联系。

文 | 李永华

来源 | 智能相对论(ID：aixdlun)

申请创业报道，分享创业好点子。点击此处，共同探讨创业新机遇！

相关标签: ai技术; ai智能

瓯江论道：AI赋能绿色发展

2025年10月25日，2025世界青年科学家峰会之人工智能（AI）融合创新发展论坛在浙江温州成功举办。本次论坛由国际院士科创中心主办，中国投资协会能源投资专业委员会、温港院士科创中心承办，中国电工技术学会、中科先进技术温州研究院与温州市电力工程学会提供支持，以“瓯江论道-AI赋能绿色发展”为主题，

标签：

ai技术
王通：未来个人创业的十个机会

个人创业需要启动成本低、无需庞大团队、可快速验证、能利用个人技能或资源。这里分享适合个人创业的十个机会一.AI内容优化与本地化服务·做什么：帮助企业或个人利用AI工具（如GPT-4,Midjourney）优化内容生产流程。例如，为跨境电商撰写多语言产品描述，为小红书博主生成爆款文案，为小公司制作营销

标签：

创业机会

ai技术
Figma股价热情仅存1天，AI焦虑成关键隐忧？

文/道哥美国设计软件公司Figma近期在纽约证券交易所挂牌上市，首日即上演“狂飙”行情——发行价定每股33美元，开盘报价85美元，较发行价翻倍。首日收报115.50美元，较发行价大涨约250%，市值飙升至近670亿美元，创下近30年来同等规模美股IPO的最大单日涨幅纪录。然而，随着短线资金获利了结，

标签：

ai智能
AI「带飞」腾讯业绩

文/一灯来源/节点财经在当前无人敢缺席的AI军备竞赛中，巨头们一面为巨额的资本支出焦虑，一面又向市场勾勒着未来的宏伟蓝图。在各家动辄千亿级投入的背景下，市场迫切需要一份关于AI回报价值的有力证明。而腾讯，率先给出了答卷。8月13日，腾讯控股发布2025年第二季度财报。尽管资本开支同比剧增119%，达

标签：

ai智能

腾讯
Meta用亿元薪酬发起「人才狙击」能否买来一个AI未来？

文/二风来源/节点财经2025年的硅谷，一场没有硝烟的战争正以前所未有的烈度上演。这场战争的核心武器不是代码或芯片，而是人——那些全球仅有数千名、能够构建未来人工智能基础模型的顶尖大脑。在这场激烈的人才争夺战中，Meta及其首席执行官马克·扎克伯格（MarkZuckerberg）正扮演着最具侵略性的

标签：

ai智能

养openclaw小龙虾，每月要花多少钱才能养好？

“养龙虾”到底要花多少钱？这个问题可能是大家最关心的。我们把成本拆成三部分：服务器租用费+大模型API调用费+杂项开销。第一部分：服务器租用费。最省钱的方案当然是本地旧电脑自托管——零新增成本，电费忽略不计。但如前所述，你需要接受“不是7×24小时在线”的局限性。如果选择云服务器，成本差异就很大了。

标签：

openclaw小龙虾

ai龙虾是什么

ai小龙虾什么意思
养小龙虾用个人电脑还是云服务器？先搞清楚OpenClaw到底是什么

不少朋友第一次接触OpenClaw时，都会有一个相同的困惑：这玩意儿到底该装在哪里？OpenClaw（社区戏称“养龙虾”，因Logo为龙虾钳）不是普通的聊天机器人，而是一款本地优先、可自主执行、支持多Agent分工协作的AI执行网关。说白了，它让大模型从“只会说话”变成“会动手做事”——帮你管理文件

标签：

ai龙虾是什么

ai小龙虾什么意思

openclaw小龙虾
AI龙虾养了这么久，这8个建议你一定要听

01别相信“一键养虾，躺平赚钱”的鬼话打开社交媒体，你可能会看到这样的标题：“养只龙虾自动炒股，零代码养出数字巴菲特！”信了，你就输了。真实情况是：一个做跨境电商的小哥花了200元租服务器、订阅API，指望龙虾帮他炒股暴富。结果龙虾开始几天还像模像样，后来直接摆烂，生成个干瘪的大纲就敷衍了事。AI是

标签：

ai龙虾是什么

ai小龙虾什么意思

openclaw小龙虾
“养龙虾”火了，可你养的“虾”要是闯了祸，责任到底算谁的？

一张证书引发的讨论4月7日，北京嫣然天使儿童医院给陈光标发了一张感谢证书，感谢他捐赠1000万元。这事说起来挺曲折的。此前陈光标高调说要赠给张雪一台价值1300万元的劳斯莱斯，张雪回应“收了，八折卖掉捐给嫣然”，一番拉扯之后，陈光标把车变现，1000万元直接打到了嫣然医院账上。医院发证书感谢，本来是

标签：

ai龙虾是什么

ai小龙虾什么意思

openclaw小龙虾
国家安全部发布Token安全警示：需高度警惕数据泄露与金融诈骗风险

2026年4月7日，国家安全部就AI核心术语“词元”（Token）发布安全警示，强调在日均调用量突破140万亿规模的市场背景下，需高度警惕由此引发的数据泄露与金融诈骗风险。据统计，截至今年3月，我国日均词元调用量已超过140万亿，较2024年初增长1000多倍。词元作为大模型处理信息的最小单元，兼具
中国AI大模型连续五周领跑全球，调用量大幅增长

如今出门，如果你还没用过AI智能助手，可能真有点跟不上节奏了。无论是写作文、查资料，还是规划出行路线，越来越多的人已经习惯随手打开AI问一句。这股热潮背后，中国AI大模型用实打实的数据交出了一份亮眼的成绩单。根据全球知名AI模型聚合平台OpenRouter的最新数据，在3月30日至4月5日这一周，中

标签：

大模型

小白养龙虾的5条保命建议，值得收藏！

01别在主电脑上养！这是最最重要的一条“保命”建议。很多小白心血来潮，直接在自己存着毕业论文、工作文件、银行卡信息的主力电脑上部署OpenClaw。然后悲剧发生了：让龙虾帮忙整理一下桌面文件，结果它把整台电脑的文件全删了。这不是段子，是真事。OpenClaw一旦被授予高权限，就能执行删除、修改等不可

标签：

ai龙虾是什么

ai小龙虾什么意思

openclaw小龙虾
养一只OpenClaw小龙虾1个月到底要花多少钱，快来算一算适不适合你？

01免费领养，但饲料要钱很多人第一次听说OpenClaw时，脑子里冒出的第一个念头是：开源软件，那不免费吗？没错，OpenClaw本身确实是开源的，下载安装一分钱不收。但你很快就会发现，真正的开销根本不在这里。养一只“龙虾”，就像领养了一只宠物——领养免费，但“虾缸”“虾粮”“虾保姆”都得自己掏钱。

标签：

ai龙虾是什么

ai小龙虾什么意思

openclaw小龙虾
“养龙虾”为什么突然火了？OpenClaw很强，但普通人真的适合吗？

一只“龙虾”，火遍全网“今天你养龙虾了吗？”这句话在2026年初，迅速取代“吃了吗”成为社交媒体上的新晋暗号。别误会，这不是什么水产养殖新风口。这里说的“龙虾”，是一款名为OpenClaw的开源AI智能体。因为它的图标是一只红色龙虾，网友们便把部署、配置和使用它的过程，戏称为“养龙虾”。一个开源软件

标签：

ai龙虾是什么

ai小龙虾什么意思

openclaw小龙虾
一秒当导演：小云雀上线短剧Agent，10万字剧本一键生成60集

凌晨两点，小王合上笔记本，揉了揉酸胀的眼睛。花了一个月写出来的10万字短剧剧本躺在硬盘里，要真正把它拍成剧，得找演员、租场地、请摄像、做后期……粗算下来少说要几十万，他只能把剧本继续锁在抽屉里。不过，现在小王的剧本可以“见光”了。2026年3月19日，字节跳动旗下的小云雀AI正式上线了短剧Agent

标签：

大模型

加载更多

AI的数据、算法、算力“轮流坐庄”，NLP到了“数据为王”的时代

相关文章

瓯江论道：AI赋能绿色发展

王通：未来个人创业的十个机会

Figma股价热情仅存1天，AI焦虑成关键隐忧？

AI「带飞」腾讯业绩

Meta用亿元薪酬发起「人才狙击」能否买来一个AI未来？

养openclaw小龙虾，每月要花多少钱才能养好？

养小龙虾用个人电脑还是云服务器？先搞清楚OpenClaw到底是什么

AI龙虾养了这么久，这8个建议你一定要听

“养龙虾”火了，可你养的“虾”要是闯了祸，责任到底算谁的？

国家安全部发布Token安全警示：需高度警惕数据泄露与金融诈骗风险

中国AI大模型连续五周领跑全球，调用量大幅增长

小白养龙虾的5条保命建议，值得收藏！

养一只OpenClaw小龙虾1个月到底要花多少钱，快来算一算适不适合你？

“养龙虾”为什么突然火了？OpenClaw很强，但普通人真的适合吗？

一秒当导演：小云雀上线短剧Agent，10万字剧本一键生成60集

热门排行

编辑推荐