1. 创业头条
  2. 前沿领域
  3. 人工智能
  4. 正文

AI数据服务行业进入“认知战争”,云测数据凭什么稳居行业TOP1?

 2020-09-18 09:48  来源:A5专栏  我来投稿 撤稿纠错

  【推荐】海外独服/站群服务器/高防

文 | 曾响铃

来源 | 科技向令说(xiangling0815)

新基建驱动AI加速落地,也让它背后的“粮草”——AI数据标注产业进入发展快车道。

不久前,今年首场国家级重大国际经贸活动服贸会的成果发布环节上,数据标注领域的头部企业云测数据首次对外展示了一项成果,其数据项目的最高交付精准度竟然达到了99.99%。

这个决定AI产品落地水平的领域里,99.99%的精准度刷新了一个行业记录,按照实际AI项目的需要,AI客户可选择的服务标准跨越到了一个新的时代。

事实上,在多元化的人工智能场景落地背景下,更高标准的AI数据质量已成为AI的刚需。这次服贸会上,数据标注的头部企业所进行的99.99%的成果展示,其背后也隐含着行业高阶进化的改变,最突出的就是“劳动密集”的标签,可能要被彻底撕掉了。

高精度,成就数据标注的“差异化”?

AI数据标注产业是人工智能链条上最偏“人工”的部分,早期的低门槛使得市面上存在着大大小小的企业、工作室,泥沙俱下,良莠不齐。

但现如今,我们已经看到这一现状正在发生变化,AI数据服务行业随着AI产业需求进行着优胜劣汰。现在,当行业头部企业将最高项目交付精准度提升到一个“顶尖”时,马太效应突出,差异化趋势愈发明显。

1、表面同质化服务下,数据精度推动数据标注企业获得“差异化认知”

在过去很长一段时间内,AI企业多根据自身项目需求为导向来选择数据标注服务商,AI数据行业内并没有太多严谨的规则。可以说,过去的数据标注,是一个有些缺乏“差异化认知”的行业,A企业和B企业到底怎么区分,没有明确的标准。

当头部企业从自身出发首次规范行业标准,将最高99.99%的数据标注精准度进行正式发布,实际上就等于给行业设定了一个可行的认知标准,这样的AI数据才是高质量数据。

至此,不管是AI企业客户还是业界人士,或都可以借助精准度对数据标注行业进行企业与企业的区分,而不是在认知上一锅烩。

而这,当然也来源于99.99%这个精确度与其他诸如92%、95%、98%之类的数字存在着跨越时代级别的差异。

这某种程度上也表明数据标注产业在伴随AI发展多年后,自身开始趋向成熟,头部玩家强者恒强,产业内优势资源和技术得到有效聚集,朝着无限接近100%进发,99.99%更像是一个里程碑,将加快人工智能时代的到来。

2、用高精度切中AI发展需求,数据标注企业更容易获得“差异化竞争优势”

跳出普通人“认知”方面的驱动力,高精度数据的另一重差异化价值是切中AI发展需求。

随着AI的持续深度发展,场景落地已经代替技术研究成为主旋律,数据标注的服务方向从“AI产品训练”走向“AI产品落地”,这意味着AI项目试错空间相较于技术研究大幅下降,要求更高的精确度来满足用户体验。

更进一步看,新基建中的重要版块AI新基建,生来就带有强烈的落地应用导向——要驱动各大产业升级,也必须更贴近落地。

在数据质量决定AI算法的精度、算法的精度又决定产品质量的关联逻辑下,更注重落地的AI项目会更积极主动寻找那些数据质量(精确度)更高的供应商,数据标注行业将会形成过去没有的梯度, 发布最高99.99%精确度标准的头部企业云测数据,还将藉此获得“差异化竞争优势”吸引更多产业客户,如果没有更多企业跟随上来,则将一直保持唯一的“第一梯队”。

PK高精度后,是时候放弃对数据标注“劳动密集”偏见了?

劳动密集是之前业界对AI数据标注的主要评价,或者说刻板印象,AI界的“富士康”之类的说法揭示出这个产业的外在尴尬形象。

但这一切,随着更高精度的数据标注成果出现而开始改变。

一个普通的草台班子数据标注团队可能也能实现及格线上的AI数据精确度,这是机械式的人力操作天然具备的能力,毕竟数据标注确实主要靠的是人力的劳动。但再要提升精度,尤其是无限往100%靠近,就必须更多依赖各种技能的支撑,不断进行高位再优化,榨取精度提升的空间。

数据标注的精准度越高,再次上升(并保证配套服务质量)能够从“人力”中获得的支持越少,从“技能”获得的支持越多。

因此,当数据标注产业出现99.99%这类高精度成果时,也意味着技能的成分可能超越了人力的成分,行业已经走向了各类前沿技术支撑的“技能密集”阶段。

这种支撑高精确度的“技能密集”,应当包括四个方面:

1、专业人才技能:需求专业化倒逼数据标注人才素养提升

专业、垂直类的数据标注,比泛化的数据标注更需要技能支撑,尤其在需要获得高精准度的情况下,单纯的体力劳动已经不可能完成。

一是特殊的数据标注类型,例如,云测数据的主要服务场景之一自动驾驶,常常会有激光雷达传感器产生的数据需要标注。一般车载摄像头的数据标注,比较“体力化”,框出指定的元素教会算法识别即可:

而激光雷达的数据则与人类现实世界差距甚远:

这时候,云测数据不得不要求人工对雷达数据有丰富的知识技能和处理经验,可能还牵扯很多物理学方面的知识,绝不再是简单地体力劳动了。

二是,专业领域的数据标注。这方面较为典型的是垂直领域的语音、文本类数据标注,例如金融、家居领域,这些数据标注的需求不亚于这些领域一线的业务人员(需要深度理解业务,才能标注好包括专业词汇、逻辑等数据),因此,像云测数据这类平台培养了金融、家居等领域的“专才”,甚至于,在为一些金融机构服务时,还要按照需求提供达到素质要求的标注队伍进行作业。

2、复杂工具技能:数据标注本身也在进行某种数字化升级

高精度的实现,除了数据标注人员由流水线工人转化为有特定技能的专业人才之外,随着业务量的扩大,还配套有渗透全流程的各种数字化工具来提高准确率、效率,这就如同一个制造业企业进行了数字化、智能化升级来应对严苛的市场竞争一样。

从云测数据的案例看,99.99%的准确率背后是一大堆技术工具在支撑。

标准API接口的数据处理平台支持各种主流格式,跟众多AI企业可以做到短时间无缝衔接,省略线下做导入导出的繁琐步骤。数据生产过程通过模板化的任务创建,数据采集,清洗到标注全部线上流转,传统线下流转可能面临的信息丢失、失真问题得到解决。

此外,云测数据引入了基于规则的机器筛查方式,在人工校验流程前根据所标注内容要求引入相关查错规则,这种数字化辅助直接提升了数据精度和效率。

事实上,强化工具能力一直是各数据标注平台在做的事,甚至AI本身的发展也反过来支撑数据标注工作。云测数据这类扎根行业的企业这些年投入了大量资源在工具开发上,打个不恰当的比方,这就好比富士康不断增加工厂智能化水平、引入大量智能机械一样,朝着“高端制造”前进一样。

3、综合研发技能:“解决方案”输出下的采集、标注一体化

随着AI技术深入到各个细分领域,企业对AI在商业化落地中的表现要求越来越高。在很多领域,客户企业对服务供应商会提出更多样化的需求,这时候,“解决方案”式的合作方式不可能避免出现在数据标注产业中,在拿出99.99%精准度的同时,云测数据还对外发布了智慧城市、智能家居、智能驾驶、智慧金融这四个场景的“全链条的AI训练数据服务方案”。

这些解决方案,简单说,就是过去合作的拓宽、拓深,为了同样保证超高精准度,这个过程必然伴随大量专业技术性的工作。

在数据标注产业链上,采集与标注不分家,华东、华北、华南设有数据交付中心和数据场景实验室的云测数据,在给出的四个场景解决方案中,都十分强调场景化的数据采集服务。

例如,智慧城市数据解决方案的一个重要亮点或者说价值,是为客户企业提供“长尾场景数据”——如不同光线下人员检测、危险动作检测等长尾情形,都需要不断充实长尾场景,来提升“智慧”的覆盖能力(处理、统计一些城市管理任务)。

云测数据建立的“数据场景实验室”,通过还原场景、研究长尾场景的特点完成对应传感器下的场景数据采集工作,这种行为,本质上相当于数据标注企业为智慧城市AI项目完成特定规则下的知识图谱搭建。

类似的,还有智能家居场景中,在各类复杂语音背景下采集语音数据,实验室开发底噪、混响、方言、语种等特殊要求下的数据采集;此外,在智能驾驶场景中,云测数据为了更加贴近真实场景,甚至通过改造轿车、标定传感器这种参照智能驾驶汽车行驶场景的方式来采集所需要的AI数据。

显然,这些方式方法都远远超出了“劳动密集”的范畴。

4、安全技能:被忽视的数据标注“硬核”技术能力

AI越往深处走,数据资产的重要性就越高,尤其是AI数据更加立体和丰富、精准度到达一个新的高度后,AI数据的价值变得更高,数据安全就更加成为客户企业的刚需。

从数据标注产业的演变来看,对安全的重视,导致不少数据标注企业至少在数据安全维护方面拥有可圈可点的技术耕耘,甚至不输于其他被打上技术公司标签的巨头。

一个现实是,像云测数据这样的头部企业,即便拥有行业内最专业的全职团队,能够保证高质量数据也能够实现高效的作业效率,甚至不断引导行业的规范化发展,这些地位、价值或者优势,也都是建立在数据隐私安全的原则之上。

数据精准度做得越高,云测数据这种企业就更看重数据隐私安全的保护。这些年,除了流程和工作方式的严格控制,云测数据内部还开发了数据隔离、质量保障等一系列数据安全方面的技术,这也使得数据标注企业的“技术”标签更加浓厚。

Testin云测CMO张鹏飞也强调,“从目前看来,AI数据行业关于安全、隐私等方面并没有统一的标准。但从我们长远角度出发,一直在隐私和安全防护角度下大力气服务行业、树立数据质量标杆,只有以这种负责的态度来服务客户,我们的行业才能‘良币驱除劣币’,真正让人工智能成为新一轮技术革命,改变整个社会和人类进程”。

结语

99.99%的AI数据精准度虽然是云测数据技术实力和服务能力积累的产物,但它也是行业发展到一定程度向更高阶段跃迁的标志。

更进一步看,企业将精准度推高到接近100%的动作,本质上也代表着数据标注产业正在走出“劳动密集”,转入“技能密集”发展阶段,这是与精准度一样重要的行业发展里程碑。数据标注最终将撕掉旧有偏见下的标签,走入与AI同行的强技术服务产业行列。

*此内容为【科技向令说】原创,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

【完】

曾响铃

1钛媒体、品途、人人都是产品经理等多家创投、科技网站年度十大作者;

2虎啸奖评委;

3作家:【移动互联网+ 新常态下的商业机会】等畅销书作者;

4《中国经营报》《商界》《商界评论》《销售与市场》等近十家报刊、杂志特约评论员;

5钛媒体、36kr、虎嗅、界面、澎湃新闻等近80家专栏作者;

6“脑艺人”(脑力手艺人)概念提出者,现演变为“自媒体”,成为一个行业;

7腾讯全媒派荣誉导师、多家科技智能公司传播顾问。

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关标签
人工智能

相关文章

  • IoT开发者为王,涂鸦智能硬核“靠边站”

    IoT盛宴:涂鸦向下,产品向上

    标签:
    人工智能
  • IPO观察丨黑芝麻智能递表港交所,车芯行业已迈向量产决战期?

    虽然我国汽车芯片行业还处在发展初期,但已经迸发出无限潜力。一方面,智能汽车的发展不断带动需求增长;另一方面,政策引导下,汽车芯片企业持续抢占高地。对此,在7月5日-7日举办的2023年中国汽车论坛上,中国汽车工业协会副秘书长李邵华就做出表示,“中国将成为未来汽车芯片发展的集聚地”。车规芯片行业近日的

    标签:
    人工智能
  • 倒计时2天丨云天励飞将亮相世界人工智能大会

    2023世界人工智能大会将于7月6日至8日在上海举办。云天励飞将在大会上展示自主设计开发的新一代边缘计算芯片DeepEdge10系列SoC芯片,并公布“天书”大模型的最新动态。欢迎莅临上海世博展览馆H1-C801展台参观交流!同时,云天励飞也将与中国电子、中国信通院、华为等合作伙伴,在WAIC的舞台

    标签:
    人工智能
  • 酷学院智能产品发布会:引领中大型企业学习新潮流

    近日,酷学院智能产品发布会在深圳闪亮登场。近200位现场观众和近万人次在线观看,共同见证了这一激动人心的时刻。发布会上,酷学院引领大家探索企业培训学习和人才发展领域的新高度,并揭幕其全新的产品智能升级和突破。酷学院产品负责人徐晨通过形象生动、逻辑严谨的讲述,揭晓了全新的智能企业培训和人才发展平台,以

    标签:
    人工智能
  • 青少年在科创新活动中受益:人工智能教育开启未来的可能性

    随着人工智能技术的快速发展,各行各业都受到了深刻影响,特别是中小学人工智能教育的普及,已经成为当今不可忽视的重要课程。ChatGPT等人工智能技术的出现,让我们看到了人工智能将成为未来推动科技跨越发展、生产力整体跃升的重要驱动力量之一。在这个背景下,中小学教育已经将人工智能作为重要学习内容,并将科技

    标签:
    人工智能
  • 为何海尔智家能够做到“换新不厌旧”?

    在繁忙的城市角落,张先生的小公寓里藏着一个宝贝——一台20年前的海尔老式彩电。这台电视见证了他的拼搏、快乐和岁月的流转。虽然他对新科技并不感冒,但他的儿子小张对此却充满了好奇和热情。小张在线上看到以旧换新活动的同时,说服了张先生,并在手机上下单预约上门服务。没多久,服务人员便上门拆走旧家电,安装调试

    标签:
    海尔智家
  • 也谈谈AI洗稿

    前几天腾讯发了个公告称:平台巡查发现有些MCN和作者发布大量“AI洗稿”内容。并宣称要对“AI洗稿”行为进行打击,同时鼓励合理运用AI技术。其实我是想借此机会,给大家说说“AI洗稿”这件事,隐秘在黑暗角落里的赚钱行为。“洗稿”就是把别人的文章用AI工具修改润色一下或调整段落,然后再发到自媒体平台上,

    标签:
    ai智能
  • 竞逐智能家居大模型:美的“蓄力”,海尔“疾行”

    随着ChatGPT火热出圈,AI大模型便成为了各行各业必争的高地。

    标签:
    智能家居
  • 李彦宏新目标,押注AI原生应用

    文/道哥“未来,自然语言将成为新的通用编程语言。你只要会说话,就可以成为一名开发者,用自己的创造力改变世界。”4月16日,百度创始人、董事长兼首席执行官李彦宏在Create2024百度AI开发者大会上表述了对未来AI人工智能发展的新一轮展望。自OpenAI发布ChatGPT大模型后,这股AI人工智能

    标签:
    李彦宏
  • AI算力竞赛加速散热技术变革,液冷方案获行业青睐

    进入AIGC时代,智算中心规模日渐庞大,服务器能耗与日俱增。如何降低智算中心能耗已成为国家和地方政府关注的焦点。工信部数据显示,2022年全国数据中心总耗电量约2700亿千瓦时。当前,大部分数据中心仍主要采用风冷散热技术,在单柜密度、PUE值方面已愈发难以满足行业发展及绿色节能方面的要求,而冷板式液

  • 中国AIGC最值得关注企业&产品榜单揭晓!首份应用全景图谱发布

    “你好,新应用!”站在大模型落地元年,是时候喊出这句话了。从软件APP、智能终端乃至具身智能等等,AIGC开始席卷一切。大模型玩家、互联网巨头、终端厂商、垂直场景玩家纷纷入场,办公、创作、营销、教育、医疗领域相继被渗透……一个万亿市场,正在酝酿。站在浪潮起点,当下发展究竟如何了?机遇在哪?挑战如何?

  • 标准引领促转型 提升新质生产力——2024数字教育标准创新应用研讨会召开

    4月14日,以“标准引领促转型,提升新质生产力”为主题,由全国信息技术标准化技术委员会教育技术分技术委员会主办,锐捷网络承办的2024数字教育标准创新应用研讨会暨《高等学校数字校园建设规范(试行)》(以下简称《规范》)优秀及典型应用案例的颁奖活动在福州举办。本次会议聚焦赋能新质生产力和高校教育数字化

  • 两座超大城市对“视”联手 杭深奏响智能物联产业合鸣!

    春至岭南花似锦,出门俱是看花人。4月16日,2024“中国视谷”城市(深圳)推介会暨智能物联产业合作发展论坛在深圳举行。一场广聚全球英才的产业思想盛宴就像早春的花潮,召示着智能物联产业合作发展的丰硕成果正在孕育、成长。站在时代的风口和机遇中瞭望,智能物联产业是人工智能和物联网融合与应用的战略性新兴产

  • AI提高效率:用智谱清言打造爆款视频号

    关注卢松松,会经常给你分享一些我的经验和观点。(1)想做副业、短视频的同学,看完本文一定对你有所帮助!(2)很多人说2024是视频号红利的一年,有分成收益,广告主也多,流量大。(3)松松一共做了10多个视频号,在视频号布局3年了,几乎啥都做过,有的收益千八百、有的收益1-2k,有的收益3-5k。(4

    标签:
    ai技术
  • CPU上跑AI?从推荐系统的演进看CPU的崛起

    在信息和数据极度繁荣的当下,人工智能正在通过各种方式影响着人类生活。其中,AI推荐系统作为互联网时代最关键的伴生技术之一,正在帮助人类梳理着各种纷繁杂乱的信息,让资源实现更精准的调配,让一切变得井然有序。推荐系统:数字营销的重要引擎当你到一座旅游城市,不知道当地有什么美食时,AI推荐系统在手机上的本

编辑推荐