1. 创业头条
  2. 前沿领域
  3. 人工智能
  4. 正文

商品识别成AI新浪潮,海深科技CEO戴剑彬博士道出技术实情

 2019-09-09 16:30  来源:互联网  我来投稿 撤稿纠错

  【推荐】海外独服/站群服务器/高防

化繁为简,是科技发展的核心目的之一,在零售行业,消费和运营流程的简化、人员结构的优化,在一次次的技术变革中获得不断的突破。近几年,人工智能图像识别技术带动新零售经历了新一轮升级,其中极具科技感与未来感的人脸识别技术开始深入我们的生活。而在智慧零售的背后,图像识别的另一个分支——商品识别技术可能并不为人熟知,但却同样承载着线下零售数字化的重任。

9月3日晚,智东西公开课邀请到在商品识别领域有丰富经验的海深科技创始人、CEO戴剑彬博士,就商品识别在零售行业的应用,进行了详细讲解,并现场解答众多相关从业者在实际应用中遇到的难题。

以下为课程内容实录。

一、图像识别的应用场景,以及对零售行业的变革

1.以图搜图,拍照购物

说到图像识别,大家可能马上能想到以图搜图的方式,也就是“拍照购”。这个想法出现的很早,在零几年的时候就有很多公司开始做这方面的尝试。

美国硅谷的snaptell,他们早在零六年的时候就开始做拍照购物的应用场景,他们做的大部分是一些书籍和CD类的简单物品识别,2009年被Amazon收购。2015年Amazon收购了另一家做图像识别相关的华人公司Orbeus。到2016年后,像Google、Pinterest、Instagram,都开发了一些类似的功能。

国内,淘宝是比较早开始涉及这个领域的。2014年,淘宝自己开始研发了拍立淘的功能,而另一家电商巨头——京东,在2017年上线的“拍照购”采用的是海深科技的算法。同时海深科技还服务了小红书、搜狗图像搜索等一些一线的互联网企业。

2.货架排面管理

货架排面管理的需求主要来自品牌方,以前会有巡店的业务需求。比如商品摆到货架上,需要知道占了多大的排面,是不是整齐摆放,以前是派员工巡店,后来是通过拍照的方式。现在出现了很多众包公司,专门帮助品牌方拍摄门店的照片。

照片收到后如何处理是一个问题,如果以人力来处理这些照片效率很低,无法及时反馈,所以在这样的场景下,商品识别技术有很大的应用需求。众包公司负责拍照的人差异很大,拍照的方式、用的相机、照片的像素都不一样,回传图片后审核,可能一周后发现有不符合要求的门店,需要再次跑到店里去解决。如果能在拍照后,实时通过图像识别知道这个结果,对众包的人员来说,是非常高效和节省成本的方式。

这个领域有一家公司叫TRAX,他们用的是一个机器人来巡店,这是一家目前有一定规模的公司,总部在新加坡,核心研发人员是以色列的,与以色列的几个学校在联合做这个项目。国内目前也有一些同行在做类似的自动货架拍摄的相关项目。

3.无人超市

说到无人超市,Amazon Go是近几年都很火的。当然,Amazon Go用到的核心技术不止是图像识别,更不止于商品识别。他们采取了很多手段,包括他们称之为smart shelf,是采用了重力感应技术,也有红外技术,顶部是摄像头用来跟拍店里的用户,也做了很多Re-ID的工作。

Amazon Go的方案成本非常高,核心难点是人与货的关联。图像识别的一个核心技术就是Re-ID——人的跟踪,他们用了一些像红外技术这样的辅助手段来探测手的位置,用重量感应来判断商品是否被拿起来,然后后摄像头来跟踪人的位置。

我们也在研发类似的技术,目前在与百联合作尝试落地,但总体还是一个计算量非常大而且成本很高的项目。但是Amazon Go具体核心算法是怎么做的,我们也只能是一些猜测,他们做了这么长时间,很多技术细节都是很值得研究的。Amazon Go是一个开放性的环境,虽然做了很多定制性的优化,但整个店面环境以及与人的交互,实际问题是非常难解决的。

4.无人零售柜

现在出现了一些无人零售柜,跟无人超市相比,是一个更小的单元,环境是更可控的。从应用场景来看,很多人会跟以前传统的贩卖机Vending Machine去比较,其实在我的理解下它是一个新的形态,更像一个小的便利店,但是是一个更灵活的形态,商品的品类和摆放也会更自由,这是跟传统贩卖机最大的区别。

现在无人零售柜的技术实现有静态图像和动态视觉两种,海深科技采用的是静态的方案,就是在关门之后拍照,跟关门前的图片进行对比,确认用户拿走哪些商品。因为这个方案用的是云端服务,所以成本会比较低。而动态视频无论是线上传输还是本地计算,都会产生更高的成本,而且准确率无法保证。

5.无人结算台

目前我们还在做的另一个设备,是无人结算台。这样的产品也有几家公司在做,我们的不同点是,它是一个半封闭的场景,周围的环境影响会更小,在技术实现上会更有优势。目前的深度学习模型的泛化能力还是比较有限的,我们会通过一些物理手段,或者其他技术手段来对环境做一些控制,会更有利于技术实现,或者是效率、准确率的提升。

无人结算台的商业化落地还在探索阶段,并且还是会有一些限制。比如说很大的商品,都没有办法放到这个结算台上,当然也没有办法做结算。未来的结算会以什么样的方式,是人工的,还是需要把商品放在一个设备里,还是像Amazon Go这样的完全无感知的结算方式,我们都不知道。当然,从长远来看,Amozon Go的方式肯定是一个方向,但是短期内商业化落地是非常困难的,最大的问题就是过高的成本。

6.线下数字化

在线上,所有的用户信息是数字化的,比如购物时,浏览过什么商品,点击、停留时长、购买等等信息都是有记录的。这方面今日头条号称是做的最好的,给用户的内容推荐相对比较精准。对电商来说,这样的数字化数据可以帮助优化运营策略,是很重要的一个方面。

在线下,用户信息的数字化是很困难的。最早的时候,线下数字化是用探针的方式来做。探针最大的问题就是精度,定位不准确,即使是用两三个点来共同定位,也只能简单定位人的位置,误差还是比较大。

2017年开始,很多公司开始通过视频分析用户的行为,来做线下数字化。有一家海外数一数二的连锁店希望跟我们合作,去做用户路径跟踪、人与物的交互分析。这有点像Amazon Go的技术,但是他们需要做到结算,这样的线下数字化只是做数据分析。

除此之外,线下还有两个很大的需求就是防盗和员工管理。防盗的需求比较清晰,员工管理其实也很重要,比如员工与客户沟通的热情,甚至员工的异常行为等等。

做线下数字化的原因是什么呢?其实无人店的核心不是有人和无人,而是强制的会员制。Costaco为什么这么火爆,他做的最好的就是明确的用户定位+会员制,然后只服务于这个群体。无人店通过强制的会员制,去绘制用户画像,对他进行精准定位,然后可以打通线上和线下,以定制化的服务来优化商品、提高客单价。我觉得这是零售行业的趋势,也是线下数字化的意义。

二、商品识别的技术难点

1.人脸识别难还是商品识别难

首先这个问题不是很科学,任何一个问题都可以变得容易,也可以很难。人脸识别一般是比较配合的,像第一个图,相对来说难度会比较低,现在方案也比较成熟。那如果大街上,下着雨,半遮着脸,距离很远,清晰度很低,这样识别难度就很大了。那如果是看着后脑勺希望把人识别出来,就显然不太合理。

商品识别也是类似,一个商品摆在面前来区分是比较容易的,但实际的场景中就会很困难。比如第二张图的排面,这还是我们做过的项目里相对容易的,因为摆的很整齐。第三张图的难度就很大了,这是一个非常极端的例子。农夫山泉和可乐都是红色的盖子,饮料的颜色是不同的,但左下角只露出了一个盖子,就非常难识别了。所以人脸识别和商品识别哪个更难这个问题,需要从不同的角度来看待。

2.准确率 = 70%*数据+30%*算法

提升识别准确率,核心是两个部分,数据和算法。我们都非常关注的算法层面,可能只占30%的比例,数据可能要占70%。

3.目标检测往往是更难的

目标检测其实比识别更难,大部分的时间我们花在做目标检测上。零售行业的排面检测相对要求还不会特别高,多一个小一个框不会构成大的问题。但比如像我们智能柜的场景,商品识别是用来做结算的,要求100%准确,特别是密集摆放的情况下,难度就很高。

实际的场景中除了密集摆放,还会有倾倒重叠的情况出现。像下图中的重叠,我们目前能够识别,但如果出现一个商品比较长,另一个商品完全覆盖把商品截成两段,人可以通过联想知道是同一个商品,但是机器会识别为两个商品。

再比如说商店的排面,上图左上角的牛奶只露出了不到1/20,商品识别很可能会出错,所以这不能只依靠商品识别来做。人会通过推理来判别,那么商品识别中也许可以增加近似的技术手段来优化整个方案。

4.物体的重识别Re-ID

一般物体的识别,我们更多的解决的是一个摄像头下的商品识别,还有一个常见但更复杂的场景,就是在更大的区域下,可能需要两个摄像头协同拍摄,每张图分别拍到一部分,两张图还有重合的部分。如何在这样的情况下精准地识别,我们团队去年花了整整一年的时间,解决了这个问题。

很多人马上想到的是把两张图进行拼接,但实际拼不起来,商品有高有矮,两张图也是不同的角度。实际要如何解决呢?其实跟人的推理方法是一样的。首先我们比较确定的是一些边缘的信息,比如两张图分别有哪些靠近边缘,找到一些关键点,也就是说,哪些商品在两张图里是同一个。简单地说,人是如何理解这两个画面,那么让算法也近似地去理解。

三、智能零售解决方案工程化落地关键

1.数据标注的优化

之前也提到,数据的重要程度非常高,如何提升数据质量,采集、标注数据策略的优化,在什么场景下做采集,都是非常重要的方面。而后期,当数据达到一定量的时候,如何实现数据工程化高效采集,也成为需要考虑的方面。

数据的采集没有捷径,高质量的数据一定需要花费很多时间。同时,优质的数据采集和标注平台,也是非常重要的。一个优质的数据平台的开发,本身就可以成为一个独立的产品。

我们也尝试过3D建模,成本相抵会更低,可以迅速把准确率提升到90%,甚至95%以上,但是要达到99%以上接近100%的水平,3D建模是不够的,还是需要采集更多有效的数据。

2.场景限定与优化

现在深度学习的能力其实还是有限,泛化能力还比较弱,只针对一些限定的场景会有比较好的结果。就像之前我们提到两个例子,一个是Amazon Go,一个是我们的智能柜,整体的环境还是定制化的。比如外界的灯光、阳光造成的光线差异,摄像头的更换导致的色差,都会是影响结果的原因。

因而目前的商业落地,场景的限定与优化是比较重要的,在深度学习还没有达到一定强度的时候,外界的辅助手段可能是提升效果的重要辅助方式,场景、算法、应用、硬件都需要协同配合。

3.数据共享

图像识别能有今天的发展,很大程度上受益于李飞飞教授主持的ImageNet大量标注图片数据集,可以说是现在所有图像识别最根本的基础。

同样的道理,由于商品种类的繁多性,靠一个公司或者团体的能力,很难提升算法的泛化能力,也就是单一算法只能适用于非常有限的场景,很难形成规模化效应。其实我们这个行业也是类似,在数据层面其实可以合作共赢的方式来推进整个行业的良性发展,数据共享和算法开放将会成为人工智能发展的一个重要趋势。

讲师介绍

戴剑彬博士,海深科技创始人、CEO,深度学习资深专家,曾在Oracle,Yahoo!等硅谷著名互联网公司长期从事机器学习算法的研发。在百度美国研究所期间与深度学习世界顶级专家吴恩达教授合作共事两年,在超大规模深度模型的架构和优化领域有世界前沿性成果。2016年6月回国创建海深科技。

智东西公开课介绍

智东西公开课,专注讲解新兴技术创新与应用。智东西公开课隶属于智能产业媒体与创新服务平台“智一科技”,旗下有主题系列课、企业专场、专栏以及技术社群,目前重点关注的新兴技术包括人工智能、AI芯片、RISC-V、自动驾驶、AIoT,涉及行业覆盖互联网、汽车、半导体、智能家居、新零售、机器人、安防等等。

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关标签
ai技术
ai智能

相关文章

  • 汇聚中国AI顶尖力量 云天励飞参与华为AI大模型联合创新

    2023年7月6日,第六届世界人工智能大会(WAIC2023)在上海开幕,“人工智能大模型”是本届大会的备受瞩目的话题,据悉,在昇腾AI大模型的创新研发中,华为联手26家行业领军企业,组建了一支协同创新的“AI明星队”,云天励飞作为中国人工智能企业的杰出代表,和互联网大厂、运营商、科研院所等优秀团队

    标签:
    ai技术
  • 用友大易:迈入AI招聘2.0时代,让人力资源回归本质

    这几个月来,以ChatGPT为代表的生成式AI展现出的能力令世界惊叹。自从2016年AlphaGo战胜李世石掀起了一波AI浪潮后,AI仿佛已经沉寂了很久,ChatGPT的横空出世就如同一束耀眼的光芒,让AI这个名词重回C位。过去在AI1.0时代,主要通过训练模型来实现图像识别、声音识别、语言处理等特

    标签:
    ai技术
  • 新发布的PaaS2.0,能否助力涂鸦智能再起飞?

    文:互联网江湖作者:志刚2023年的IoT需要一个新故事。6月29日,涂鸦智能在开发者大会上,发布了企业级战略PaaS2.0,希望通过一个平台+四大开发服务,建立起IoT生态。对于这场发布会,市场的态度是积极的。美东时间6月29日收盘,涂鸦智能美股股价上涨5.6%,来到1.87美元/股。近日股价稳定

    标签:
    ai技术
  • 大模型难掩AI制药的悲伤:越过山丘,无人等候

    美团曾经的二号人物王慧文对标OpenAI的创业项目光年之外,以20亿卖给美团,再度引发市场对大模型的热议。

    标签:
    ai技术
  • 拾起王慧文的AI梦,美团冲向“光年之外”?

    2020年底,王慧文在朋友圈写下这句话时,外界本以为这位伴随中国互联网发展而持续创业20年的人物即将告别创业舞台。但是,一个曾经多次创业,正值壮年的互联网老将心中的创业热情是难以熄灭的。

    标签:
    ai技术
  • 为何海尔智家能够做到“换新不厌旧”?

    在繁忙的城市角落,张先生的小公寓里藏着一个宝贝——一台20年前的海尔老式彩电。这台电视见证了他的拼搏、快乐和岁月的流转。虽然他对新科技并不感冒,但他的儿子小张对此却充满了好奇和热情。小张在线上看到以旧换新活动的同时,说服了张先生,并在手机上下单预约上门服务。没多久,服务人员便上门拆走旧家电,安装调试

    标签:
    海尔智家
  • 也谈谈AI洗稿

    前几天腾讯发了个公告称:平台巡查发现有些MCN和作者发布大量“AI洗稿”内容。并宣称要对“AI洗稿”行为进行打击,同时鼓励合理运用AI技术。其实我是想借此机会,给大家说说“AI洗稿”这件事,隐秘在黑暗角落里的赚钱行为。“洗稿”就是把别人的文章用AI工具修改润色一下或调整段落,然后再发到自媒体平台上,

    标签:
    ai智能
  • 竞逐智能家居大模型:美的“蓄力”,海尔“疾行”

    随着ChatGPT火热出圈,AI大模型便成为了各行各业必争的高地。

    标签:
    智能家居
  • 李彦宏新目标,押注AI原生应用

    文/道哥“未来,自然语言将成为新的通用编程语言。你只要会说话,就可以成为一名开发者,用自己的创造力改变世界。”4月16日,百度创始人、董事长兼首席执行官李彦宏在Create2024百度AI开发者大会上表述了对未来AI人工智能发展的新一轮展望。自OpenAI发布ChatGPT大模型后,这股AI人工智能

    标签:
    李彦宏
  • AI算力竞赛加速散热技术变革,液冷方案获行业青睐

    进入AIGC时代,智算中心规模日渐庞大,服务器能耗与日俱增。如何降低智算中心能耗已成为国家和地方政府关注的焦点。工信部数据显示,2022年全国数据中心总耗电量约2700亿千瓦时。当前,大部分数据中心仍主要采用风冷散热技术,在单柜密度、PUE值方面已愈发难以满足行业发展及绿色节能方面的要求,而冷板式液

  • 中国AIGC最值得关注企业&产品榜单揭晓!首份应用全景图谱发布

    “你好,新应用!”站在大模型落地元年,是时候喊出这句话了。从软件APP、智能终端乃至具身智能等等,AIGC开始席卷一切。大模型玩家、互联网巨头、终端厂商、垂直场景玩家纷纷入场,办公、创作、营销、教育、医疗领域相继被渗透……一个万亿市场,正在酝酿。站在浪潮起点,当下发展究竟如何了?机遇在哪?挑战如何?

  • 标准引领促转型 提升新质生产力——2024数字教育标准创新应用研讨会召开

    4月14日,以“标准引领促转型,提升新质生产力”为主题,由全国信息技术标准化技术委员会教育技术分技术委员会主办,锐捷网络承办的2024数字教育标准创新应用研讨会暨《高等学校数字校园建设规范(试行)》(以下简称《规范》)优秀及典型应用案例的颁奖活动在福州举办。本次会议聚焦赋能新质生产力和高校教育数字化

  • 两座超大城市对“视”联手 杭深奏响智能物联产业合鸣!

    春至岭南花似锦,出门俱是看花人。4月16日,2024“中国视谷”城市(深圳)推介会暨智能物联产业合作发展论坛在深圳举行。一场广聚全球英才的产业思想盛宴就像早春的花潮,召示着智能物联产业合作发展的丰硕成果正在孕育、成长。站在时代的风口和机遇中瞭望,智能物联产业是人工智能和物联网融合与应用的战略性新兴产

  • AI提高效率:用智谱清言打造爆款视频号

    关注卢松松,会经常给你分享一些我的经验和观点。(1)想做副业、短视频的同学,看完本文一定对你有所帮助!(2)很多人说2024是视频号红利的一年,有分成收益,广告主也多,流量大。(3)松松一共做了10多个视频号,在视频号布局3年了,几乎啥都做过,有的收益千八百、有的收益1-2k,有的收益3-5k。(4

    标签:
    ai技术
  • CPU上跑AI?从推荐系统的演进看CPU的崛起

    在信息和数据极度繁荣的当下,人工智能正在通过各种方式影响着人类生活。其中,AI推荐系统作为互联网时代最关键的伴生技术之一,正在帮助人类梳理着各种纷繁杂乱的信息,让资源实现更精准的调配,让一切变得井然有序。推荐系统:数字营销的重要引擎当你到一座旅游城市,不知道当地有什么美食时,AI推荐系统在手机上的本

编辑推荐