当前位置:首页 >  科技 >  IT业界 >  正文

刷新世界纪录!腾讯光影研究室在CVPR单目深度估计竞赛中以绝对优势夺冠

 2021-05-25 15:38  来源: 互联网   我来投稿 撤稿纠错

  阿里云优惠券 先领券再下单

近日,腾讯光影研究室(Tencent GY-Lab)凭借自研GYDepth算法,在CVPR 2021 Workshop的Mobile AI单目深度估计竞赛中以领先第二名9倍的绝对优势夺冠,击败三星、OPPO等手机厂商和国内外著名高校。

关于Mobile AI 2021

CVPR是世界计算机视觉三大顶级会议之一,Mobile AI是CVPR 2021其中一项Workshop比赛,除了单目深度估计竞赛之外,还包括图像超分、视频超分等任务。这项比赛以“Mobile”为名,主打移动端芯片上的AI能力,在AI相关技术领域受到广泛关注和高度认可,吸引着众多手机厂商如三星,OPPO和国内外著名高校参与。

光影实验室自研GYDepth算法,斩获单目深度估计竞赛第一名

单目深度估计是计算机视觉领域的一项基础任务,其目的在于让普通的RGB摄像头能够识别出视野内的物体距离摄像头的远近。单目深度估计技术的完善能够让主流AR玩法摆脱深度摄像头的限制,走向更普遍的机型。

比赛的最终指标由模型精度与模型速度两部分组成,而此次比赛中,单目深度估计的数据大多来自室外场景,并由ZED双目摄像头采集。相比传统AR玩法常用的室内场景的多样性会更多,难度更大。

针对Mobile AI室外场景,腾讯光影研究室在常规单目深度估计模型训练框架的基础上,对网络结构、训练方式、模型部署上做了针对性调整。

在网络结构设计上,团队在模型小型化上投入了大量精力。整体网络是一个标准的Encoder-Decoder模型,模型自原图输入后经过了4次共16倍的下采样,然后经过特征融合模块再逐层上采样回初始的分辨率。在模型上采样的过程中,由于模型部署条件的限制,腾讯光影研究室摒弃了Depthwise Deconvolution的方案,转而选择了实现更加高效的Resize + Depthwise Convolution组合。不过,小模型自然也会带来精度指标的降低。为了弥补这一差距,团队在训练流程中引入了在线蒸馏。由于单目深度估计本身就是对输出的单通道Feature Map进行回归,这里继续对Soft Label进行蒸馏会和GT产生歧义,因此他们选择在Hint Feature进行蒸馏,并且使用了网络结构类似的服务器端开源大模型Bts作为Teacher。

除此之外,在训练过程中,团队除了使用常规的Flip、Color Transform外,还针对固定分辨率下绝对深度的特性,对RGBD图片对采用了Random Crop的策略。和常规Crop不同,团队在Crop后利用相似三角形的特性对Depth的值进行了补偿,其背后的原理类似于使用相机拍摄时,把画面放大和拍摄者向前走能达到一样的效果。

另外,在模型部署上,Mobile AI Depth竞赛要求提交的模型以Float32 TFLite形式在树莓派Raspberry Pi 4上以CPU运行。这意味着传统上针对Conv等基础算子在CPU上的计算优化是不可用的,模型的速度实打实的和模型计算量正相关。为了满足比赛提交的要求,腾讯光影研究室打通了PyTorch -> Onnx -> Keras -> TFLite的转换路径,并确保了转换前后模型端到端精度误差小于1e-6。

持续深耕AI前沿技术研发,赋能更多应用场景

实际上,光影研究室的AR玩法中,或多或少都有单目深度估计技术的身影,通过压缩、剪枝、蒸馏获得的小模型,可以在手机移动端实时运行,并覆盖ios和android双端90%以上的机型。目前单目深度估计技术已作为基础能力在多个AR玩法中发挥作用。比如,在手机QQ的AR蛋糕等贴纸类玩法中,单目深度估计技术提供了贴纸目标在空间中的方向与位置,使得AR算法能够快速初始化;在水淹食堂特效中,单目深度估计模型提供了视野中每个点距离相机的远近,结合相机内外参可以计算其在世界坐标系下的位置,从而实现AR特效。

未来,光影研究室也将持续深耕AI前沿技术的研发和积累,探索并开放更多场景的创意玩法及能力,为用户提供充满趣味惊喜的社交和视觉新体验。

关于腾讯光影研究室

腾讯光影研究室是腾讯旗下专注于研究前沿影像处理技术的团队,在单目深度估计技术、语义分割、目标检测、分类识别、GAN生成对抗等方面均有深厚的技术积累。团队一直致力于探索泛娱乐综合解决方案,将前沿的AI能力、先进的玩法引擎和3D渲染技术赋能产品,让视觉创意更多样,音视频编辑更智能,社交沟通更趣味。目前,QQ、微视等超20款业务产品中,均有光影研究室技术的身影。

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关标签
腾讯
ai技术

相关文章

  • 瓯江论道:AI赋能绿色发展

    2025年10月25日,2025世界青年科学家峰会之人工智能(AI)融合创新发展论坛在浙江温州成功举办。本次论坛由国际院士科创中心主办,中国投资协会能源投资专业委员会、温港院士科创中心承办,中国电工技术学会、中科先进技术温州研究院与温州市电力工程学会提供支持,以“瓯江论道-AI赋能绿色发展”为主题,

    标签:
    ai技术
  • 腾讯CodeBuddy:AI编程、AI IDE的革命性突破,开发者工作方式的彻底重塑

    通过自然语言指令,AI自动完成从需求分析到代码部署的全流程,这就是腾讯CodeBuddy带来的编程范式革命。2025年9月,腾讯发布了AI命令行工具CodeBuddyCode,并宣布CodeBuddyIDE开放公测。至此,腾讯成为国内首家同时支持插件、IDE和CLI三种形态的AI编程工具厂商。这套工

    标签:
    腾讯
  • 王通:未来个人创业的十个机会

    个人创业需要启动成本低、无需庞大团队、可快速验证、能利用个人技能或资源。这里分享适合个人创业的十个机会一.AI内容优化与本地化服务·做什么:帮助企业或个人利用AI工具(如GPT-4,Midjourney)优化内容生产流程。例如,为跨境电商撰写多语言产品描述,为小红书博主生成爆款文案,为小公司制作营销

  • AI视频生成赛道“分野”:小厂重产品,大厂重生态

    AI视频生成赛道“分野”:小厂重产品,大厂重生态

  • 腾讯音乐启明星AI作歌获“数字音乐创新技术应用优秀案例”,助力多领域生态价值释放

    近日,由中国音像与数字出版协会、厦门市文发办、厦门市新闻出版广电局、厦门市湖里区人民政府联合主办的“2025中国数字音乐产业大会”在厦门举行。国内数字音乐代表企业腾讯音乐娱乐集团(以下简称“腾讯音乐”)受邀亮相,展现了其在音乐创作、音乐技术、文化创新传承等领域的积极举措与实践成果。在同期举办的首届数

    标签:
    腾讯

热门排行

信息推荐