1. 创业头条
  2. 前沿领域
  3. 人工智能
  4. 正文

悉见刘洋:三维理解与重建是智能交互时代的基石

 2018-10-26 11:36  来源:互联网  我来投稿 撤稿纠错

  【推荐】海外独服/站群服务器/高防

没有实体办公室,依靠AR技术实现全息会议

不必再做低头族,超轻量AR眼镜呈现所有虚拟界面

无需再想象历史,雅典卫城破损的神庙便可恢复如初

……

这些科幻电影频频出现的画面,正在描绘一幅完整的AR时代生活画卷。

随着人工智能领域第三次浪潮推进,前沿科技不断落地,以往许多难以攻克的难题如今迎刃而解,科幻电影中的种种场景,正在逐渐成为现实。

图片1.png

悉见科技就是这样一家聚焦于混合现实的AI公司。就在8月,悉见科技刚刚公布了其混合现实大脑xarc.ai,完成了其“云、软件、硬件”的产品架构。基于此架构,悉见科技将通过空间智能引擎及室内外高精地图,实现物理世界的数字拷贝及混合现实交互。

最近,悉见科技创始人兼CEO刘洋在由中国计算机学会、中国图象图形学学会、IEEE Computer Society等举办的「第8届国际虚拟现实与可视化会议」及「中国虚拟现实大会」上,受邀出席并演讲。在演讲中,刘洋对人工智能领域的未来作出了判断和预测,并首度完整阐述了悉见科技混合现实大脑xarc.ai的系统架构及商业价值。

以下为核心观点提炼。

图片2.png

【人工智能的三次浪潮】

人工智能是人类终极愿望和本质诉求的阶段性产物,一共经历了三次浪潮。

第一次浪潮:从二十世纪五十到七十年代以逻辑主义(符号主义、逻辑推理、定理证明)为核心;

第二次浪潮:八十年代到二十世纪末以连接主义(知识工程、专家系统、神经系统)为核心;

第三次浪潮:以2006年Hinton提出的深度学习技术、以及2012年ImageNet竞赛在图像识别领域带来的突破为标志性起点的第三次浪潮,不仅在技术上取得重大突破,在商业界也因其可以解决具体问题,而呈现出欣欣向荣的发展态势。

【第三次浪潮中的三次发展】

如果继续深入了解第三次人工智能浪潮,会发现随着算法与算力的快速发展与数据的指数级累积,从2005年左右开始:

首先出现了以文本与语音为数据的一维智能公司,如Google、百度、科大讯飞等;

随后以图片和视频为数据的二维智能公司,如旷视、商汤、云从等也崭露头角;

生活在三维空间中的我们,自然期待更多优秀的三维智能企业出现。在自动驾驶和机器人行业已经出现不少佼佼者,如Waymo、drive.ai、蔚来汽车等,用三维视觉与高精度图服务赋能给汽车和机器人,解放人在通勤和工程作业中的劳动力。

但我们所工作和生活中的绝大场景,如办公室、商场、景区、展馆等,无法用昂贵笨重的毫米波雷达等设备解决空间计算问题,这就需要消费级的三维智能技术,也是悉见的创立初衷。目前,我们正向三维智能时代迈进。

【三维智能时代的技术基础】

图片3.png

上文提到的三维智能时代的技术核心不是凭空产生的,而是多学科交叉融合产生的化学反应,包括计算机视觉Computer Vision领域的几何算法、计算机图形学Computer Graphics、和人工智能Artificial Intelligence中Deep Learning、神经网络的发展,其他还包含芯片技术的发展、云计算的发展、异构计算的发展等等。

如果用一个词来总结发展趋势,就是“融合”,包括传统几何算法与深度学习方法的融合、多传感器的融合、软件云服务与硬件的融合(包括算法的硬件化/芯片化)、以及与具体应用的结合,比如AR/VR/MR、AGV、自动驾驶、机器人等等。

【三维智能时代的三大特征】

在三维视觉与空间计算驱动的三维智能时代,有三大特征,一是物理世界的数字化,二是数字世界的物理化,三是混合现实的智能化。

图片4.png

· 物理世界数字化

物理世界数字化很容易理解。有一种说法,互联网和移动互联网的下一代是物联网,万物互联。我们通过各种各样的传感器,将工作和生活的场景进行量化和数字化。

智能家居就是一个非常典型的场景,智能台灯、智能开关、智能音箱、智能监控、智能电视、智能路由器、智能空调、智能窗帘,人们通过各种各样的传感器,把物理的场景进行采集和数字化,同步到云端。

不仅如此,我们也在对自身进行量化和数字化,智能手环、智能手表、智能眼镜、智能指环、智能衣服,我们跑步、走路、心跳、睡眠、体重等等,都在产生大量的数据,我们通过这些数字,来炫耀或优化自己的物理身体。

还有一种逐渐从工业界渗透到生活中的非常重要的物理世界数字化手段,统称三维建模:包括用专业设备进行的超大规模三维重建、中小规模的三维重建、以及游戏动画影视行业的CG建模,已经能达到以假乱真的地步,有人称这位CR,Cinema Reality,影视级真实。

· 数字世界物理化

通过物理世界的数字化,我们获得了非常庞大的数字世界。从网页,Google、百度的索引数据库,到每个企业的业务数据。

我们在用什么样的方式跟数字世界打交道、我们如何感知和反馈数字世界?这就是数字世界的物理化的意义。

人有视觉、听觉、触觉、嗅觉、味觉,人类感知世界的方式都是通过感官获取到生物信号经由大脑的主观诠释,当物理刺激同时对不同感官进行刺激时人就会信以为真,所以要让人类感知数字世界,传感器的协同反馈非常重要。

例如电影《头号玩家》,电影中的角色在玩游戏时都有很强的代入感,因为电影所描绘的未来游戏体验,综合反馈了三种以上甚至四种五种感知的协同反馈。未来游戏不仅可以得到视觉听觉的反馈,通过特制服装,还可以体会到触感,当玩家被攻击时会有痛感刺激。但这些还停留在科幻电影中的想象。

在现实世界,我们和数字世界交互、建立物理和数字链接的方式还很简单,以PC和手机为主。扫福字、扫红包就是很典型的体验,通过图片和平面的扫描,把数字世界的相关信息激活,通过手机屏幕显示出来。

因为技术的限制,我们从微信、微博、头条、美团、滴滴,到抖音、快手、爱奇艺,跟数字世界打交道都是通过五寸的小屏幕。得到数字世界反馈的我们,却也变成了“低头族”,反倒大大减少了与物理世界的联系,冷落了身边的人和事。

从行业发展看,智能手机行业经过十年的发展到达了平台期、存量期。在微创新、同质化的环境下,基于触屏的手机交互已经没有太大创新空间,千篇一律“齐刘海”的设计之下,实际上是物理世界与数字之间难以打破的壁垒。

· 混合现实智能化

打破物理世界与数字世界之间的壁垒,能够同时对视觉和听觉沉浸式反馈,就是混合现实智能化,也就是三维视觉和空间计算要解决的问题。

图片5.png

具体到技术层面,需要解决以下四个问题。

第一个是三维感知。当一个人到达一个全新地方,第一件事做的就是三维感知,机器学习同样需要如此,对三维场景中物体表面纹理和形状的数字采样以及深度估计。这里涉及到了多传感器的快速标定、多目视觉和惯导融合、多传感器融合比如雷达、全景相机等、还有基于事件相机的SLAM。

第二件事,当我们对周围空间进行感知后,要确定与环境之间的实时动态关系,这就是位姿感知。对相机或物体在三维空间中的位置和朝向的计算和实时追踪,也就是我们常说的六自由度重定位、VIO、SLAM、Sematic SLAM等等。

第三件事,是上文提到的三维重建,对三维场景或物体的形状和表观模拟以及运动估计和动态重建,这里的课题包括地图构建和持久化、地图优化、多地图对齐和融合、通过SLAM进行稀疏3D重建、SFM(Structure From Motion,从运动恢复结构)、结合深度数据的稠密3D重建、深度学习优化的3D重建等等。

第四件事,进一步的目标,就是三维理解,你要知道这个场景中哪里是桌子、哪里是椅子、哪里又是人,所以要做平面语义分割、3D语义分割、动态的目标分割与追踪、实时的语义内容检索以及对位姿感知的反馈优化。

【悉见混合现实大脑xarc.ai】

悉见在探索三维智能的过程中,也发布了相应的混合现实大脑平台xarc.ai。

在这个过程中我们总结出了一套系统架构,可以高效的解决各行业对三维视觉和空间计算的需求,总共分为五层,从下到上分别是物理层(Physical Layer)、数字层(Digital Layer)、引擎层(Engine Layer)、终端层(Device Layer)、应用层(Application Layer)。

物理层就是我们的真实世界,

数字层是对真实世界的数字化采集和重建,

引擎层是三维混合现实数据存储、检索、渲染和交互的驱动平台,

终端层是用户与数字层交互的入口设备和计算平台,

应用层是跑在混合现实系统上的所有应用,就像手机里安装的各种各样的APP。

在数字层,我们提供高精地图采集专业设备,可以做到厘米级到毫米级的精度、十万平米每天的高效率,而且支持端到端的定位网络生成和上千种物体的智能识别。

在引擎层我们提供了整套的自动化建图工具、混合现实场景编辑工具以及适配多种设备的终端SDK。

在终端层我们已经研发和量产了多款AR和AI眼镜,包括去年量产的首款45°视场角、166g最轻亮双目AR眼镜一体机X1系列、今年量产的第二代强性能AI眼镜XMAN系列用NPU进行人脸识别、车牌识别、空间定位、以及即将发布的代号M消费级AI眼镜。同时悉见自主研发视觉加速芯片XVPU也对我们各代硬件设备的智能化和小型化起到了关键的作用。

【结语】

随着摩尔定律、库兹威尔定律下算力与数据的指数级增长,传统计算机视觉算法与深度学习相结合加速了奇点临近。

目前悉见接收到了多个行业的、万亿级三维视觉需求的快速增长。我们认为,如同PC时代和智能手机时代,各行业及消费级应用生态会随着基础技术平台和工具的完善快速丰富起来,悉见将与更多合作伙伴,一起迎接三维智能时代的到来。

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关文章

  • 竞逐智能家居大模型:美的“蓄力”,海尔“疾行”

    随着ChatGPT火热出圈,AI大模型便成为了各行各业必争的高地。

    标签:
    智能家居
  • 李彦宏新目标,押注AI原生应用

    文/道哥“未来,自然语言将成为新的通用编程语言。你只要会说话,就可以成为一名开发者,用自己的创造力改变世界。”4月16日,百度创始人、董事长兼首席执行官李彦宏在Create2024百度AI开发者大会上表述了对未来AI人工智能发展的新一轮展望。自OpenAI发布ChatGPT大模型后,这股AI人工智能

    标签:
    李彦宏
  • AI算力竞赛加速散热技术变革,液冷方案获行业青睐

    进入AIGC时代,智算中心规模日渐庞大,服务器能耗与日俱增。如何降低智算中心能耗已成为国家和地方政府关注的焦点。工信部数据显示,2022年全国数据中心总耗电量约2700亿千瓦时。当前,大部分数据中心仍主要采用风冷散热技术,在单柜密度、PUE值方面已愈发难以满足行业发展及绿色节能方面的要求,而冷板式液

  • 中国AIGC最值得关注企业&产品榜单揭晓!首份应用全景图谱发布

    “你好,新应用!”站在大模型落地元年,是时候喊出这句话了。从软件APP、智能终端乃至具身智能等等,AIGC开始席卷一切。大模型玩家、互联网巨头、终端厂商、垂直场景玩家纷纷入场,办公、创作、营销、教育、医疗领域相继被渗透……一个万亿市场,正在酝酿。站在浪潮起点,当下发展究竟如何了?机遇在哪?挑战如何?

  • 标准引领促转型 提升新质生产力——2024数字教育标准创新应用研讨会召开

    4月14日,以“标准引领促转型,提升新质生产力”为主题,由全国信息技术标准化技术委员会教育技术分技术委员会主办,锐捷网络承办的2024数字教育标准创新应用研讨会暨《高等学校数字校园建设规范(试行)》(以下简称《规范》)优秀及典型应用案例的颁奖活动在福州举办。本次会议聚焦赋能新质生产力和高校教育数字化

  • 两座超大城市对“视”联手 杭深奏响智能物联产业合鸣!

    春至岭南花似锦,出门俱是看花人。4月16日,2024“中国视谷”城市(深圳)推介会暨智能物联产业合作发展论坛在深圳举行。一场广聚全球英才的产业思想盛宴就像早春的花潮,召示着智能物联产业合作发展的丰硕成果正在孕育、成长。站在时代的风口和机遇中瞭望,智能物联产业是人工智能和物联网融合与应用的战略性新兴产

  • AI提高效率:用智谱清言打造爆款视频号

    关注卢松松,会经常给你分享一些我的经验和观点。(1)想做副业、短视频的同学,看完本文一定对你有所帮助!(2)很多人说2024是视频号红利的一年,有分成收益,广告主也多,流量大。(3)松松一共做了10多个视频号,在视频号布局3年了,几乎啥都做过,有的收益千八百、有的收益1-2k,有的收益3-5k。(4

    标签:
    ai技术
  • CPU上跑AI?从推荐系统的演进看CPU的崛起

    在信息和数据极度繁荣的当下,人工智能正在通过各种方式影响着人类生活。其中,AI推荐系统作为互联网时代最关键的伴生技术之一,正在帮助人类梳理着各种纷繁杂乱的信息,让资源实现更精准的调配,让一切变得井然有序。推荐系统:数字营销的重要引擎当你到一座旅游城市,不知道当地有什么美食时,AI推荐系统在手机上的本

  • 李彦宏放话:百度AI大模型绝不抢开发者饭碗

    关注卢松松,会经常给你分享一些我的经验和观点。昨晚,李彦宏内部讲话称:AI大模型开源意义不大,百度绝不抢开发者饭碗。但你一定要说话算话哦,可千万别说:“我永远不做手机,谁再敢提做手机就给我走人”,结果5年后自己的手机销量排名第一。如果百度也这么干的话估计AI也没人用了。李彦宏认为:从商业模式的角度来

    标签:
    大模型
  • 具身智能潮起、巨头环伺之下,优必选如何撑起资本期待?

    AI大模型风口之下,作为“具身智能”最佳载体,人形机器人似乎即将迎来“觉醒元年”。前有马斯克巨大影响力加持之下的人形机器人Optimus亮相,后有OpenAI联合人形机器人初创公司Figure推出令人惊艳的Figure01。可以看出,AI软件和机器人硬件的结合,已经是当下科技界一大风口。乘着这样的东

编辑推荐