当前位置:首页 >  科技 >  IT业界 >  正文

刷新世界纪录!腾讯光影研究室在CVPR单目深度估计竞赛中以绝对优势夺冠

 2021-05-25 15:38  来源: 互联网   我来投稿 撤稿纠错

  【推荐】海外独服/站群服务器/高防

近日,腾讯光影研究室(Tencent GY-Lab)凭借自研GYDepth算法,在CVPR 2021 Workshop的Mobile AI单目深度估计竞赛中以领先第二名9倍的绝对优势夺冠,击败三星、OPPO等手机厂商和国内外著名高校。

关于Mobile AI 2021

CVPR是世界计算机视觉三大顶级会议之一,Mobile AI是CVPR 2021其中一项Workshop比赛,除了单目深度估计竞赛之外,还包括图像超分、视频超分等任务。这项比赛以“Mobile”为名,主打移动端芯片上的AI能力,在AI相关技术领域受到广泛关注和高度认可,吸引着众多手机厂商如三星,OPPO和国内外著名高校参与。

光影实验室自研GYDepth算法,斩获单目深度估计竞赛第一名

单目深度估计是计算机视觉领域的一项基础任务,其目的在于让普通的RGB摄像头能够识别出视野内的物体距离摄像头的远近。单目深度估计技术的完善能够让主流AR玩法摆脱深度摄像头的限制,走向更普遍的机型。

比赛的最终指标由模型精度与模型速度两部分组成,而此次比赛中,单目深度估计的数据大多来自室外场景,并由ZED双目摄像头采集。相比传统AR玩法常用的室内场景的多样性会更多,难度更大。

针对Mobile AI室外场景,腾讯光影研究室在常规单目深度估计模型训练框架的基础上,对网络结构、训练方式、模型部署上做了针对性调整。

在网络结构设计上,团队在模型小型化上投入了大量精力。整体网络是一个标准的Encoder-Decoder模型,模型自原图输入后经过了4次共16倍的下采样,然后经过特征融合模块再逐层上采样回初始的分辨率。在模型上采样的过程中,由于模型部署条件的限制,腾讯光影研究室摒弃了Depthwise Deconvolution的方案,转而选择了实现更加高效的Resize + Depthwise Convolution组合。不过,小模型自然也会带来精度指标的降低。为了弥补这一差距,团队在训练流程中引入了在线蒸馏。由于单目深度估计本身就是对输出的单通道Feature Map进行回归,这里继续对Soft Label进行蒸馏会和GT产生歧义,因此他们选择在Hint Feature进行蒸馏,并且使用了网络结构类似的服务器端开源大模型Bts作为Teacher。

除此之外,在训练过程中,团队除了使用常规的Flip、Color Transform外,还针对固定分辨率下绝对深度的特性,对RGBD图片对采用了Random Crop的策略。和常规Crop不同,团队在Crop后利用相似三角形的特性对Depth的值进行了补偿,其背后的原理类似于使用相机拍摄时,把画面放大和拍摄者向前走能达到一样的效果。

另外,在模型部署上,Mobile AI Depth竞赛要求提交的模型以Float32 TFLite形式在树莓派Raspberry Pi 4上以CPU运行。这意味着传统上针对Conv等基础算子在CPU上的计算优化是不可用的,模型的速度实打实的和模型计算量正相关。为了满足比赛提交的要求,腾讯光影研究室打通了PyTorch -> Onnx -> Keras -> TFLite的转换路径,并确保了转换前后模型端到端精度误差小于1e-6。

持续深耕AI前沿技术研发,赋能更多应用场景

实际上,光影研究室的AR玩法中,或多或少都有单目深度估计技术的身影,通过压缩、剪枝、蒸馏获得的小模型,可以在手机移动端实时运行,并覆盖ios和android双端90%以上的机型。目前单目深度估计技术已作为基础能力在多个AR玩法中发挥作用。比如,在手机QQ的AR蛋糕等贴纸类玩法中,单目深度估计技术提供了贴纸目标在空间中的方向与位置,使得AR算法能够快速初始化;在水淹食堂特效中,单目深度估计模型提供了视野中每个点距离相机的远近,结合相机内外参可以计算其在世界坐标系下的位置,从而实现AR特效。

未来,光影研究室也将持续深耕AI前沿技术的研发和积累,探索并开放更多场景的创意玩法及能力,为用户提供充满趣味惊喜的社交和视觉新体验。

关于腾讯光影研究室

腾讯光影研究室是腾讯旗下专注于研究前沿影像处理技术的团队,在单目深度估计技术、语义分割、目标检测、分类识别、GAN生成对抗等方面均有深厚的技术积累。团队一直致力于探索泛娱乐综合解决方案,将前沿的AI能力、先进的玩法引擎和3D渲染技术赋能产品,让视觉创意更多样,音视频编辑更智能,社交沟通更趣味。目前,QQ、微视等超20款业务产品中,均有光影研究室技术的身影。

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关标签
腾讯
ai技术

相关文章

  • 盘古大模型,不一样的「烟火气」

    文/八真出品/节点商业组2023年已过半,但AI大模型依旧热的发烫。科技部新一代人工智能发展研究中心的《中国人工智能大模型地图研究报告》显示,迄今为止,中国已发布79个10亿参数规模以上的大模型。与此同时,伴随着越来越多的选手谋局落子和下场夺舍,把这场摧枯拉朽的科技盛典推向高潮,更多人开始思考,AI

    标签:
    ai技术
  • PRINS.AI荣获2023SAIL之星

    PRINS平台被世界人工智能大会授予2023年人工智能行业著名的SAIL之星。这证明了公司在AI人工智能方面所做的努力。PRINS(PRINSAITechnologyLtd)是一家专注于虚拟体验技术解决方案的技术公司,由人工智能研究人员和技术专家组成的核心团队创立。目前已获得多家知名投资机构的投资,

    标签:
    ai技术
  • AI+软件,为什么可以看多用友?

    文/七公出品/节点商业组2023年,“ChatGPT”的问世让人工智能(AI)空前兴奋和繁盛。有人高呼这是“iPhone时刻”,有人振臂这是第四次工业革命,也有人惊叹这是新一代的“火”和“电”。总而言之,这场史无前例的大变革,正在复刻2015年前后的“互联网+”行情,推动“AI+”成为未来十几年的发

    标签:
    ai技术
  • 汇聚中国AI顶尖力量 云天励飞参与华为AI大模型联合创新

    2023年7月6日,第六届世界人工智能大会(WAIC2023)在上海开幕,“人工智能大模型”是本届大会的备受瞩目的话题,据悉,在昇腾AI大模型的创新研发中,华为联手26家行业领军企业,组建了一支协同创新的“AI明星队”,云天励飞作为中国人工智能企业的杰出代表,和互联网大厂、运营商、科研院所等优秀团队

    标签:
    ai技术
  • 用友大易:迈入AI招聘2.0时代,让人力资源回归本质

    这几个月来,以ChatGPT为代表的生成式AI展现出的能力令世界惊叹。自从2016年AlphaGo战胜李世石掀起了一波AI浪潮后,AI仿佛已经沉寂了很久,ChatGPT的横空出世就如同一束耀眼的光芒,让AI这个名词重回C位。过去在AI1.0时代,主要通过训练模型来实现图像识别、声音识别、语言处理等特

    标签:
    ai技术

热门排行

信息推荐