商品识别成AI新浪潮，海深科技CEO戴剑彬博士道出技术实情

2019-09-09 16:30 来源：互联网我来投稿撤稿纠错

化繁为简，是科技发展的核心目的之一，在零售行业，消费和运营流程的简化、人员结构的优化，在一次次的技术变革中获得不断的突破。近几年，人工智能图像识别技术带动新零售经历了新一轮升级，其中极具科技感与未来感的人脸识别技术开始深入我们的生活。而在智慧零售的背后，图像识别的另一个分支——商品识别技术可能并不为人熟知，但却同样承载着线下零售数字化的重任。

9月3日晚，智东西公开课邀请到在商品识别领域有丰富经验的海深科技创始人、CEO戴剑彬博士，就商品识别在零售行业的应用，进行了详细讲解，并现场解答众多相关从业者在实际应用中遇到的难题。

以下为课程内容实录。

一、图像识别的应用场景，以及对零售行业的变革

1.以图搜图，拍照购物

说到图像识别，大家可能马上能想到以图搜图的方式，也就是“拍照购”。这个想法出现的很早，在零几年的时候就有很多公司开始做这方面的尝试。

美国硅谷的snaptell，他们早在零六年的时候就开始做拍照购物的应用场景，他们做的大部分是一些书籍和CD类的简单物品识别，2009年被Amazon收购。2015年Amazon收购了另一家做图像识别相关的华人公司Orbeus。到2016年后，像Google、Pinterest、Instagram，都开发了一些类似的功能。

国内，淘宝是比较早开始涉及这个领域的。2014年，淘宝自己开始研发了拍立淘的功能，而另一家电商巨头——京东，在2017年上线的“拍照购”采用的是海深科技的算法。同时海深科技还服务了小红书、搜狗图像搜索等一些一线的互联网企业。

2.货架排面管理

货架排面管理的需求主要来自品牌方，以前会有巡店的业务需求。比如商品摆到货架上，需要知道占了多大的排面，是不是整齐摆放，以前是派员工巡店，后来是通过拍照的方式。现在出现了很多众包公司，专门帮助品牌方拍摄门店的照片。

照片收到后如何处理是一个问题，如果以人力来处理这些照片效率很低，无法及时反馈，所以在这样的场景下，商品识别技术有很大的应用需求。众包公司负责拍照的人差异很大，拍照的方式、用的相机、照片的像素都不一样，回传图片后审核，可能一周后发现有不符合要求的门店，需要再次跑到店里去解决。如果能在拍照后，实时通过图像识别知道这个结果，对众包的人员来说，是非常高效和节省成本的方式。

这个领域有一家公司叫TRAX，他们用的是一个机器人来巡店，这是一家目前有一定规模的公司，总部在新加坡，核心研发人员是以色列的，与以色列的几个学校在联合做这个项目。国内目前也有一些同行在做类似的自动货架拍摄的相关项目。

3.无人超市

说到无人超市，Amazon Go是近几年都很火的。当然，Amazon Go用到的核心技术不止是图像识别，更不止于商品识别。他们采取了很多手段，包括他们称之为smart shelf，是采用了重力感应技术，也有红外技术，顶部是摄像头用来跟拍店里的用户，也做了很多Re-ID的工作。

Amazon Go的方案成本非常高，核心难点是人与货的关联。图像识别的一个核心技术就是Re-ID——人的跟踪，他们用了一些像红外技术这样的辅助手段来探测手的位置，用重量感应来判断商品是否被拿起来，然后后摄像头来跟踪人的位置。

我们也在研发类似的技术，目前在与百联合作尝试落地，但总体还是一个计算量非常大而且成本很高的项目。但是Amazon Go具体核心算法是怎么做的，我们也只能是一些猜测，他们做了这么长时间，很多技术细节都是很值得研究的。Amazon Go是一个开放性的环境，虽然做了很多定制性的优化，但整个店面环境以及与人的交互，实际问题是非常难解决的。

4.无人零售柜

现在出现了一些无人零售柜，跟无人超市相比，是一个更小的单元，环境是更可控的。从应用场景来看，很多人会跟以前传统的贩卖机Vending Machine去比较，其实在我的理解下它是一个新的形态，更像一个小的便利店，但是是一个更灵活的形态，商品的品类和摆放也会更自由，这是跟传统贩卖机最大的区别。

现在无人零售柜的技术实现有静态图像和动态视觉两种，海深科技采用的是静态的方案，就是在关门之后拍照，跟关门前的图片进行对比，确认用户拿走哪些商品。因为这个方案用的是云端服务，所以成本会比较低。而动态视频无论是线上传输还是本地计算，都会产生更高的成本，而且准确率无法保证。

5.无人结算台

目前我们还在做的另一个设备，是无人结算台。这样的产品也有几家公司在做，我们的不同点是，它是一个半封闭的场景，周围的环境影响会更小，在技术实现上会更有优势。目前的深度学习模型的泛化能力还是比较有限的，我们会通过一些物理手段，或者其他技术手段来对环境做一些控制，会更有利于技术实现，或者是效率、准确率的提升。

无人结算台的商业化落地还在探索阶段，并且还是会有一些限制。比如说很大的商品，都没有办法放到这个结算台上，当然也没有办法做结算。未来的结算会以什么样的方式，是人工的，还是需要把商品放在一个设备里，还是像Amazon Go这样的完全无感知的结算方式，我们都不知道。当然，从长远来看，Amozon Go的方式肯定是一个方向，但是短期内商业化落地是非常困难的，最大的问题就是过高的成本。

6.线下数字化

在线上，所有的用户信息是数字化的，比如购物时，浏览过什么商品，点击、停留时长、购买等等信息都是有记录的。这方面今日头条号称是做的最好的，给用户的内容推荐相对比较精准。对电商来说，这样的数字化数据可以帮助优化运营策略，是很重要的一个方面。

在线下，用户信息的数字化是很困难的。最早的时候，线下数字化是用探针的方式来做。探针最大的问题就是精度，定位不准确，即使是用两三个点来共同定位，也只能简单定位人的位置，误差还是比较大。

2017年开始，很多公司开始通过视频分析用户的行为，来做线下数字化。有一家海外数一数二的连锁店希望跟我们合作，去做用户路径跟踪、人与物的交互分析。这有点像Amazon Go的技术，但是他们需要做到结算，这样的线下数字化只是做数据分析。

除此之外，线下还有两个很大的需求就是防盗和员工管理。防盗的需求比较清晰，员工管理其实也很重要，比如员工与客户沟通的热情，甚至员工的异常行为等等。

做线下数字化的原因是什么呢?其实无人店的核心不是有人和无人，而是强制的会员制。Costaco为什么这么火爆，他做的最好的就是明确的用户定位+会员制，然后只服务于这个群体。无人店通过强制的会员制，去绘制用户画像，对他进行精准定位，然后可以打通线上和线下，以定制化的服务来优化商品、提高客单价。我觉得这是零售行业的趋势，也是线下数字化的意义。

二、商品识别的技术难点

1.人脸识别难还是商品识别难

首先这个问题不是很科学，任何一个问题都可以变得容易，也可以很难。人脸识别一般是比较配合的，像第一个图，相对来说难度会比较低，现在方案也比较成熟。那如果大街上，下着雨，半遮着脸，距离很远，清晰度很低，这样识别难度就很大了。那如果是看着后脑勺希望把人识别出来，就显然不太合理。

商品识别也是类似，一个商品摆在面前来区分是比较容易的，但实际的场景中就会很困难。比如第二张图的排面，这还是我们做过的项目里相对容易的，因为摆的很整齐。第三张图的难度就很大了，这是一个非常极端的例子。农夫山泉和可乐都是红色的盖子，饮料的颜色是不同的，但左下角只露出了一个盖子，就非常难识别了。所以人脸识别和商品识别哪个更难这个问题，需要从不同的角度来看待。

2.准确率 = 70%*数据+30%*算法

提升识别准确率，核心是两个部分，数据和算法。我们都非常关注的算法层面，可能只占30%的比例，数据可能要占70%。

3.目标检测往往是更难的

目标检测其实比识别更难，大部分的时间我们花在做目标检测上。零售行业的排面检测相对要求还不会特别高，多一个小一个框不会构成大的问题。但比如像我们智能柜的场景，商品识别是用来做结算的，要求100%准确，特别是密集摆放的情况下，难度就很高。

实际的场景中除了密集摆放，还会有倾倒重叠的情况出现。像下图中的重叠，我们目前能够识别，但如果出现一个商品比较长，另一个商品完全覆盖把商品截成两段，人可以通过联想知道是同一个商品，但是机器会识别为两个商品。

再比如说商店的排面，上图左上角的牛奶只露出了不到1/20，商品识别很可能会出错，所以这不能只依靠商品识别来做。人会通过推理来判别，那么商品识别中也许可以增加近似的技术手段来优化整个方案。

4.物体的重识别Re-ID

一般物体的识别，我们更多的解决的是一个摄像头下的商品识别，还有一个常见但更复杂的场景，就是在更大的区域下，可能需要两个摄像头协同拍摄，每张图分别拍到一部分，两张图还有重合的部分。如何在这样的情况下精准地识别，我们团队去年花了整整一年的时间，解决了这个问题。

很多人马上想到的是把两张图进行拼接，但实际拼不起来，商品有高有矮，两张图也是不同的角度。实际要如何解决呢?其实跟人的推理方法是一样的。首先我们比较确定的是一些边缘的信息，比如两张图分别有哪些靠近边缘，找到一些关键点，也就是说，哪些商品在两张图里是同一个。简单地说，人是如何理解这两个画面，那么让算法也近似地去理解。

三、智能零售解决方案工程化落地关键

1.数据标注的优化

之前也提到，数据的重要程度非常高，如何提升数据质量，采集、标注数据策略的优化，在什么场景下做采集，都是非常重要的方面。而后期，当数据达到一定量的时候，如何实现数据工程化高效采集，也成为需要考虑的方面。

数据的采集没有捷径，高质量的数据一定需要花费很多时间。同时，优质的数据采集和标注平台，也是非常重要的。一个优质的数据平台的开发，本身就可以成为一个独立的产品。

我们也尝试过3D建模，成本相抵会更低，可以迅速把准确率提升到90%，甚至95%以上，但是要达到99%以上接近100%的水平，3D建模是不够的，还是需要采集更多有效的数据。

2.场景限定与优化

现在深度学习的能力其实还是有限，泛化能力还比较弱，只针对一些限定的场景会有比较好的结果。就像之前我们提到两个例子，一个是Amazon Go，一个是我们的智能柜，整体的环境还是定制化的。比如外界的灯光、阳光造成的光线差异，摄像头的更换导致的色差，都会是影响结果的原因。

因而目前的商业落地，场景的限定与优化是比较重要的，在深度学习还没有达到一定强度的时候，外界的辅助手段可能是提升效果的重要辅助方式，场景、算法、应用、硬件都需要协同配合。

3.数据共享

图像识别能有今天的发展，很大程度上受益于李飞飞教授主持的ImageNet大量标注图片数据集，可以说是现在所有图像识别最根本的基础。

同样的道理，由于商品种类的繁多性，靠一个公司或者团体的能力，很难提升算法的泛化能力，也就是单一算法只能适用于非常有限的场景，很难形成规模化效应。其实我们这个行业也是类似，在数据层面其实可以合作共赢的方式来推进整个行业的良性发展，数据共享和算法开放将会成为人工智能发展的一个重要趋势。

讲师介绍

戴剑彬博士，海深科技创始人、CEO，深度学习资深专家，曾在Oracle，Yahoo!等硅谷著名互联网公司长期从事机器学习算法的研发。在百度美国研究所期间与深度学习世界顶级专家吴恩达教授合作共事两年，在超大规模深度模型的架构和优化领域有世界前沿性成果。2016年6月回国创建海深科技。

智东西公开课介绍

智东西公开课，专注讲解新兴技术创新与应用。智东西公开课隶属于智能产业媒体与创新服务平台“智一科技”，旗下有主题系列课、企业专场、专栏以及技术社群，目前重点关注的新兴技术包括人工智能、AI芯片、RISC-V、自动驾驶、AIoT，涉及行业覆盖互联网、汽车、半导体、智能家居、新零售、机器人、安防等等。

申请创业报道，分享创业好点子。点击此处，共同探讨创业新机遇！

相关标签: ai技术; ai智能

汇聚中国AI顶尖力量云天励飞参与华为AI大模型联合创新

2023年7月6日,第六届世界人工智能大会(WAIC2023)在上海开幕,“人工智能大模型”是本届大会的备受瞩目的话题,据悉,在昇腾AI大模型的创新研发中,华为联手26家行业领军企业,组建了一支协同创新的“AI明星队”,云天励飞作为中国人工智能企业的杰出代表,和互联网大厂、运营商、科研院所等优秀团队

标签：

ai技术
用友大易：迈入AI招聘2.0时代，让人力资源回归本质

这几个月来，以ChatGPT为代表的生成式AI展现出的能力令世界惊叹。自从2016年AlphaGo战胜李世石掀起了一波AI浪潮后，AI仿佛已经沉寂了很久，ChatGPT的横空出世就如同一束耀眼的光芒，让AI这个名词重回C位。过去在AI1.0时代，主要通过训练模型来实现图像识别、声音识别、语言处理等特

标签：

ai技术
新发布的PaaS2.0，能否助力涂鸦智能再起飞？

文：互联网江湖作者：志刚2023年的IoT需要一个新故事。6月29日，涂鸦智能在开发者大会上，发布了企业级战略PaaS2.0，希望通过一个平台+四大开发服务，建立起IoT生态。对于这场发布会，市场的态度是积极的。美东时间6月29日收盘，涂鸦智能美股股价上涨5.6%，来到1.87美元/股。近日股价稳定

标签：

ai技术
大模型难掩AI制药的悲伤：越过山丘，无人等候

美团曾经的二号人物王慧文对标OpenAI的创业项目光年之外，以20亿卖给美团，再度引发市场对大模型的热议。

标签：

ai技术
拾起王慧文的AI梦，美团冲向“光年之外”？

2020年底，王慧文在朋友圈写下这句话时，外界本以为这位伴随中国互联网发展而持续创业20年的人物即将告别创业舞台。但是，一个曾经多次创业，正值壮年的互联网老将心中的创业热情是难以熄灭的。

标签：

ai技术

靠“虚拟伴侣”赚钱的AI独角兽，上市有点悬

虚拟伴侣，乱象丛生

标签：

ai智能
Manus官网突现“地区不可用”提示，中国区业务战略性调整引关注

四个月前邀请码炒至10万元，如今官网变灰、社交账号清空，这家AI新贵的闪电迁移折射中国科技企业出海潮涌。7月11日，打开Manus官网的用户发现一则突兀提示：“Manus在你所在的地区不可用”。而就在不久前，这个位置还显示着“Manus中文版本正在开发中”的乐观声明。同时，Manus官方微博和小红书

标签：

ai智能
摩尔线程估值超 250 亿，「中国英伟达」冲刺科创板

文/十界来源/节点财经一场围绕算力自主的竞赛，正在科创板上演。近日，国产全功能GPU厂商摩尔线程递交科创板招股书，拟募资约80亿人民币，成为今年上半年科创板拟募资规模最大的冲刺者，也打响了“国产英伟达”上市的第一枪。据招股书显示，摩尔线程自2020年成立以来，主营全功能GPU芯片的研发与销售，以自主
百川智能高管集体跑路!王小川的医疗AI还能赢吗?

“AI大模型六小虎”百川智能危机重重。这是前搜狗CEO王小川创办的AI公司。昨天就爆出新闻，百川智能的联合创始人离职，这是王小川入局AI的第一道大坎。接下的成败非常关键：(1)拿下河北(2)学习科大讯飞百川智能离职高端概览：(1)2025年7月10日，百川智能技术联合创始人谢剑将离职。他是百川只能的

标签：

人工智能

ai智能
百度智能云PaddleOCR 3.1正式发布：关键能力支持MCP

百度AI团队今日正式推出PaddleOCR3.1版本，以突破性的多语言组合识别（MultilingualCompositionPerception,MCP）技术为核心，彻底重构复杂文档处理边界。此次升级标志着OCR领域首次实现对同一文档内任意混合语言文本的精准识别，为全球化企业、跨境业务及多元文化场

标签：

ai智能

ai技术
宇树科技加速冲刺科创板IPO，人形机器人龙头估值飙至120亿元

“宇树已形成硬件、算法、场景联动的业务飞轮，自研率超95%的技术壁垒让其成为全球机器人赛道不可忽视的中国力量。”首程资本管理合伙人朱方文在追加投资时如是评价。7月7日，据每日经济新闻从宇树科技投资方处获悉，国内人形机器人领军企业宇树科技（UnitreeRobotics）已明确计划于科创板IPO，预计

标签：

宇树科技

OpenAI推出GPT-5：AI大统一时代的到来？

推理与多模态的终极融合，将彻底终结用户在不同模型间切换的烦恼。7月7日，OpenAI正式确认将在今年夏季推出新一代人工智能模型GPT-5。这一突破性产品将整合现有的多个强大模型，特别是融合专注推理能力的“O系列”与具备多模态功能的“GPT系列”，为用户提供前所未有的统一体验。OpenAI开发者体验负

标签：

chatgpt
中小AI企业，没有“高考”资格

高考一结束，忙坏了海内外一众大模型。豆包、DeepSeek、ChatGPT、元宝、文心一言、通义千问……掀起了一波“AI赶考”大战。据悉，去年高考期间，大模型的成绩才勉强过一本线，今年集体晋升985。据悉，豆包甚至过了清北的录取线。头部大模型在高考“考场”上玩得不亦乐乎，中小AI创企的处境却日益尴尬

标签：

ai智能
大模型抢滩高考志愿填报，能否顶替「张雪峰」们？

文/二风来源/节点财经每年高考成绩放榜后，数千万考生和家长将迎来另一场硬仗——填报志愿。今年，这一领域迎来了AI的全面介入，多家互联网大厂和教育公司纷纷推出智能志愿填报产品，为考生提供院校和专业选择建议。据艾媒咨询数据，2023年中国高考志愿填报市场付费规模约9.5亿元，近九成考生愿意借助志愿填报服

标签：

大模型
苹果AI掉队？现在唱衰或许还为时过早

苹果还没从WWDC25的“群嘲”中走出，又迎来了一次新的痛击。据路透社报道，21日，苹果公司遭到股东集体起诉，被指在信息披露中低估了将先进生成式AI整合进语音助手Siri所需的时间，导致iPhone销量受影响、股价下滑，构成证券欺诈。在这份诉讼中，库克、首席财务官凯文·帕雷克及前首席财务官卢卡·马埃

标签：

苹果公司

ai智能

加载更多

商品识别成AI新浪潮，海深科技CEO戴剑彬博士道出技术实情

相关文章

汇聚中国AI顶尖力量云天励飞参与华为AI大模型联合创新

用友大易：迈入AI招聘2.0时代，让人力资源回归本质

新发布的PaaS2.0，能否助力涂鸦智能再起飞？

大模型难掩AI制药的悲伤：越过山丘，无人等候

拾起王慧文的AI梦，美团冲向“光年之外”？

靠“虚拟伴侣”赚钱的AI独角兽，上市有点悬

Manus官网突现“地区不可用”提示，中国区业务战略性调整引关注

摩尔线程估值超 250 亿，「中国英伟达」冲刺科创板

百川智能高管集体跑路!王小川的医疗AI还能赢吗?

百度智能云PaddleOCR 3.1正式发布：关键能力支持MCP

宇树科技加速冲刺科创板IPO，人形机器人龙头估值飙至120亿元

OpenAI推出GPT-5：AI大统一时代的到来？

中小AI企业，没有“高考”资格

大模型抢滩高考志愿填报，能否顶替「张雪峰」们？

苹果AI掉队？现在唱衰或许还为时过早

热门排行

编辑推荐