5月11日,由中国计算机学会计算机视觉专委(CCF-CV)主办,清华大学自动化系与旷视承办的“智见AI”SpringCamp顺利召开。本次训练营邀请了人工智能领域学术界和产业界的专家、学者们就“物体检测”与“深度神经网络模型设计”两个主题发表了8篇学术分享报告,吸引了300余名相关从业者与研究人员。
人工智能作为最具颠覆性和变革性的技术之一,正以不可阻挡之势席卷全球,不断渗透进社会生产生活的各个方面,推动着时代滚滚向前。但需知,从底层框架的更新迭代到整套解决方案的商业化落地都有赖于基础学术研究的进展与突破,无论新理论的提出抑或旧问题的攻克,都令这股力量更强大——它是AI浪潮涌动的原动力,是预知未来的风向标。
“智见AI”SpringCamp学术训练营由CCF-CV发起,旷视与清华大学承办,旨在打造一个交流分享最前沿人工智能领域思想和技术的平台,通过邀请顶尖大咖分享最新的研究成果,联合产业界与学术界,为各大高校的青年学术人才以及行业相关研究人员提供前沿技术交流与学习的机会,促进AI人才的培养、推动技术的进步及产学研的落地。
图: 学术训练营活动现场会聚前沿年青骨干 呈现关键研究新进展
出席本次训练营的主要嘉宾有:
微软亚洲研究院、计算机视觉组资深研究员 代季峰博士
中科院自动化所 张士峰博士
旷视研究院Base Model组负责人 张祥雨博士
华中科技大学电信学院教授、副院长 白翔
Momenta高级研发工程师 胡杰
旷视研究院Detection组负责人 俞刚博士
清华大学自动化系助理教授 黄高
南开大学教授 程明明
活动吸引到了300余名来自人工智能领域学术界与产业界的研究人员与相关从业者参与,内容涵盖8场权威主题报告,1个开放式圆桌讨论。
旷视首席科学家、研究院院长孙剑首先在开幕致辞中对所有与会嘉宾表示欢迎,并简要阐述了当前计算机视觉技术发展现状与举办本次学术交流会的目的。随着深度学习的引入与应用,业内出现了新的机遇与挑战,如何取得新突破一方面有赖于学术界的努力,另一方面,面对理论困难与应用需求的双重夹击,产业研究中AI技术与行业的深度融合同样能够提供新视角。因此,在这样的背景下,人们需要“分享各种新的方法和新的思想,深入理解问题、深刻弄清每个细节,向前一步步推动计算机视觉理论与应用的发展”。
图: 旷视首席科学家、研究院院长孙剑致开幕辞
随后8位专家先后做出分享,内容涵盖当前在“物体检测”与“深度神经网络模型设计”领域最火热的深度神经网络中的几何形变建模技术、物体检测算法的对比探索及展望、高效轻量级深度模型的研究与实践、面向快速推理的卷积神经网络、不规则文字检测与识别、视觉注意力机制在模式设计中的发展与应用、目标检测领域的新问题及方向、开放环境下的自适应视觉感知等方向。
活动现场精彩报告
代季峰 | 报告题目:卷积神经网络中的几何形变建模
内容大纲:
在视觉识别任务中,一个重要的挑战是如何恰当处理和建模几何形变,包括尺度、姿态、视角以及物体部件的移动等。从特征工程的时代开始,一系列著名的算法就被开发出来以尝试解决这个问题,包括SIFT,DPM等。但受限于它们的特征表达能力和局限的变性建模能力,其性能受到了很多的限制。在深度学习的时代,网络特征的表达能力大大的超出了之前手工设计的特征。但是,现有的网络模块依然难以对几何形变进行有效的处理和建模。本次talk中将会介绍在深度神经网络中的几何形变建模技术,它们能够大幅度的增强深度神经网络的几何建模能力,在各种识别任务中取得巨大的性能提升。
张士峰 | 报告题目:物体检测算法的对比探索以及展望
内容大纲:
目前基于深度学习的物体检测算法大致可以分为两类:一步法检测器和二步法检测器。一步法检测器有较高的检测速度,但检测精度不如二步法检测器。而二步法检测有较高的检测精度,但检测效率不如一步法检测器。为了使得一步法检测器获得二步法检测器的检测精度,同时保持较高的检测效率,我们对一步法和二步法检测器进行了一系列探索,提出了RefineDet、SRN、ISRN、RetinaFace等系列算法。此次分享将先概括地介绍物体检测算法,接着分享我们自己一系列相关的工作,最后对物体检测的发展进行讨论展望。
张祥雨 | 报告题目:高效轻量级深度模型的研究与实践
内容大纲:
深度基础模型在现代深度视觉系统中居于核心地位。在实际应用中,受应用场景、目标任务、硬件平台等的不同,经常会对模型的执行速度、存储大小、运算功耗等进行限制。因此,如何针对各种不同的情景设计“又好又快”的模型,成为深度学习系统实用化的重要课题。
本次讲座主要围绕实用模型设计的两个常用技术:轻量级模型设计和模型裁剪,重点介绍本团队在高效深度模型领域的科研成果和实践经验。分享内容包括ShuffleNet v1/v2系列,以及自动化模型设计、模型搜索等最新研究成果。
白翔 | 报告题目:不规则文字检测与识别
内容大纲:
场景OCR技术是一种通用的文字识别技术,已经在工业界产生了广泛的落地。近年来,学术界开始将注意力转向不规则文本的检测与识别技术研究。本次报告介绍了针对不规则文本检测与识别一些代表性方法,例如ASTER,Mask Textspotter,TextField等机近期成果,这些方法在不规则文字检测与识别任务中取得了显著的性能提升。
胡杰 | 报告题目:视觉注意力机制在模式设计中的发展与应用
内容大纲:
机器学习中的注意力模型通过模拟人类视觉的注意力机制,从而在大量信息中筛选和聚焦对任务重要的信息,减少来自不重要信息和噪声的干扰。近年来,注意力机制被引入计算机视觉、自然语言处理等诸多领域,并在不同任务上取得显著的性能提升。本次报告将围绕注意力机制在计算机视觉的应用,概括总结如何在神经网络(尤其是卷积神经网络)中结合注意力机制增强网络表达能力,从而实现有效提升系统性能的目标。
俞刚 | 报告题目:Beyond RetinaNet and Mask R-CNN
内容大纲:
物体检测是计算机视觉中一个非常重要但同时也是很基础的技术环节。在RetinaNet以及Mask RCNN出现之后,物体检测领域在框架上面已经比较成熟,但是从技术落地角度来考虑,还有很多细节问题需要攻克。本报告将从六个维度分别来展开目标检测领域的一些新的问题以及方向。具体来讲,这六个方向是Backbone, Head, Scale variation, Batch size, Crowd,pretraining。这些技术点的攻破以及成果,会对物体检测领域的实际落地会有很大推动作用。
黄高 | 报告题目:面向快速推理的卷积神经网络结构设计
内容大纲:
近几年,随着深度学习从实验室走向越来越多的实际应用,人们对模型的关注不仅仅在其精度方面,同时也对计算和存储效率提出了更高的要求。在提升模型效率的诸多手段中,神经网络结构创新始终是最为有效的方式之一。本报告将简单回顾卷积神经网络的几种典型结构,分析有助于提升模型效率的设计技巧与原则。与结构设计密切相关的,还有神经网络的推理方法。报告将从自适应推理的角度,介绍如何通过合理的结构设计,使模型能够针对不同的样本分配相应的计算量,达到降低平均计算开销的目的。
程明明 | 报告题目:开放环境下的自适应视觉感知
内容大纲:
现有视觉学习技术通常依赖于大规模精确标注的训练数据。在典型实验室环境下设计和训练的人工智能模型,在行业应用场景变换时,容易导致系统性能急剧下降。本报告将从弱监督视觉理解的角度,介绍在降低模型对特定应用场景数据依赖方面所开展的一些研究工作,主要包括如何学习一些通用属性,并利用这些通用属性构建弱监督检测与分割模型。
图: 清华大学自动化系副教授、博士生导师鲁继文(左一)主持Panel环节
结语
作为一个理论与应用实践高度结合的科学研究领域,人工智能的形象从其诞生时代小说家笔下的神秘形象逐渐具象化,渗透进社会生活、生产的方方面面。它早已不囿于实验室的理想环境、拘泥于竞赛的排行榜,而是在为各行各业的先行者们创造实际的商业价值和社会价值,成为创新与变革的助推引擎。本次SpringCamp的顺利举办是旷视对自身产学研体系建设新模式的有益探索,也是作为产业界代表反哺学术界的又一次成功尝试,对推动学术界与产业界的良性交流具有重要意义。
欢迎大家关注旷视研究院官方微信号(ID:megviir),获取本次活动完整回放链接。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
虽然我国汽车芯片行业还处在发展初期,但已经迸发出无限潜力。一方面,智能汽车的发展不断带动需求增长;另一方面,政策引导下,汽车芯片企业持续抢占高地。对此,在7月5日-7日举办的2023年中国汽车论坛上,中国汽车工业协会副秘书长李邵华就做出表示,“中国将成为未来汽车芯片发展的集聚地”。车规芯片行业近日的
2023年7月6日,第六届世界人工智能大会(WAIC2023)在上海开幕,“人工智能大模型”是本届大会的备受瞩目的话题,据悉,在昇腾AI大模型的创新研发中,华为联手26家行业领军企业,组建了一支协同创新的“AI明星队”,云天励飞作为中国人工智能企业的杰出代表,和互联网大厂、运营商、科研院所等优秀团队
这几个月来,以ChatGPT为代表的生成式AI展现出的能力令世界惊叹。自从2016年AlphaGo战胜李世石掀起了一波AI浪潮后,AI仿佛已经沉寂了很久,ChatGPT的横空出世就如同一束耀眼的光芒,让AI这个名词重回C位。过去在AI1.0时代,主要通过训练模型来实现图像识别、声音识别、语言处理等特
文:互联网江湖作者:志刚2023年的IoT需要一个新故事。6月29日,涂鸦智能在开发者大会上,发布了企业级战略PaaS2.0,希望通过一个平台+四大开发服务,建立起IoT生态。对于这场发布会,市场的态度是积极的。美东时间6月29日收盘,涂鸦智能美股股价上涨5.6%,来到1.87美元/股。近日股价稳定
四个月前邀请码炒至10万元,如今官网变灰、社交账号清空,这家AI新贵的闪电迁移折射中国科技企业出海潮涌。7月11日,打开Manus官网的用户发现一则突兀提示:“Manus在你所在的地区不可用”。而就在不久前,这个位置还显示着“Manus中文版本正在开发中”的乐观声明。同时,Manus官方微博和小红书
文/十界来源/节点财经一场围绕算力自主的竞赛,正在科创板上演。近日,国产全功能GPU厂商摩尔线程递交科创板招股书,拟募资约80亿人民币,成为今年上半年科创板拟募资规模最大的冲刺者,也打响了“国产英伟达”上市的第一枪。据招股书显示,摩尔线程自2020年成立以来,主营全功能GPU芯片的研发与销售,以自主
“AI大模型六小虎”百川智能危机重重。这是前搜狗CEO王小川创办的AI公司。昨天就爆出新闻,百川智能的联合创始人离职,这是王小川入局AI的第一道大坎。接下的成败非常关键:(1)拿下河北(2)学习科大讯飞百川智能离职高端概览:(1)2025年7月10日,百川智能技术联合创始人谢剑将离职。他是百川只能的
百度AI团队今日正式推出PaddleOCR3.1版本,以突破性的多语言组合识别(MultilingualCompositionPerception,MCP)技术为核心,彻底重构复杂文档处理边界。此次升级标志着OCR领域首次实现对同一文档内任意混合语言文本的精准识别,为全球化企业、跨境业务及多元文化场
“宇树已形成硬件、算法、场景联动的业务飞轮,自研率超95%的技术壁垒让其成为全球机器人赛道不可忽视的中国力量。”首程资本管理合伙人朱方文在追加投资时如是评价。7月7日,据每日经济新闻从宇树科技投资方处获悉,国内人形机器人领军企业宇树科技(UnitreeRobotics)已明确计划于科创板IPO,预计
推理与多模态的终极融合,将彻底终结用户在不同模型间切换的烦恼。7月7日,OpenAI正式确认将在今年夏季推出新一代人工智能模型GPT-5。这一突破性产品将整合现有的多个强大模型,特别是融合专注推理能力的“O系列”与具备多模态功能的“GPT系列”,为用户提供前所未有的统一体验。OpenAI开发者体验负
高考一结束,忙坏了海内外一众大模型。豆包、DeepSeek、ChatGPT、元宝、文心一言、通义千问……掀起了一波“AI赶考”大战。据悉,去年高考期间,大模型的成绩才勉强过一本线,今年集体晋升985。据悉,豆包甚至过了清北的录取线。头部大模型在高考“考场”上玩得不亦乐乎,中小AI创企的处境却日益尴尬
文/二风来源/节点财经每年高考成绩放榜后,数千万考生和家长将迎来另一场硬仗——填报志愿。今年,这一领域迎来了AI的全面介入,多家互联网大厂和教育公司纷纷推出智能志愿填报产品,为考生提供院校和专业选择建议。据艾媒咨询数据,2023年中国高考志愿填报市场付费规模约9.5亿元,近九成考生愿意借助志愿填报服
苹果还没从WWDC25的“群嘲”中走出,又迎来了一次新的痛击。据路透社报道,21日,苹果公司遭到股东集体起诉,被指在信息披露中低估了将先进生成式AI整合进语音助手Siri所需的时间,导致iPhone销量受影响、股价下滑,构成证券欺诈。在这份诉讼中,库克、首席财务官凯文·帕雷克及前首席财务官卢卡·马埃