机器人已经学会看见世界,也开始学会摸到世界。但对于真实接触操作而言,仅仅感知当前状态远远不够,机器人还需要预测物理世界接下来会如何变化。擦拭、插接、拧紧,这些人类几乎凭感觉就能完成的动作,对机器人来说却并非易事:接触力度会变化,物体位置会偏移,反馈慢一步,就可能打滑、卡住或丢失。
近日,它石智航联合新加坡国立大学、上海交通大学、中科院自动化所、复旦大学发布论文“TacForeSight: Force-Guided Tactile World Model for Contact-Rich Manipulation”。该研究提出一种力条件触觉世界模型,首次将腕部力觉作为未来触觉状态的先导信号,用于预测短时接触演化,并将预测结果引入机器人动作生成过程。
这意味着机器人不再只是依赖触觉反馈进行事后修正,而是能够提前理解接触变化、预测接触变化,并在物理世界发生变化之前主动调整动作。从 Reactive Feedback 到 Proactive Foresight,从“摸到世界”到“预感世界”,TacForeSight 为接触智能提供了一种更接近人类操作逻辑的新范式。

这是它石智航在机器人精细操作领域的又一项关键进展。今年3月,它石智航发布OmniVTA视触觉操作框架和OmniViTac大规模视触觉数据集,帮助机器人通过视觉与触觉理解真实接触;此次TacForeSight则进一步补上“提前预判”的能力,让机器人不只是“看见”和“摸到”,还能提前判断接触变化。
为什么机器人需要“预判接触”?
当前,行业多数接触操作方法虽然融合了视觉、触觉和力觉等传感器,但本质上仍偏向“看到问题后再反应”。然而,接触并不是一个静态状态,而是随时间连续演化的动态过程。这点在执行精细操作时的弊端尤其明显,一旦反馈滞后,就容易出现卡顿、错位甚至任务失败。
例如,擦拭时,接触压力会随着物体表面高度变化而改变;刷卡时,卡片姿态和轨道约束会持续影响滑动状态;插接与锁紧任务中,微小的位置偏差就可能导致卡滞、滑脱或接触丢失。机器人如果只依赖当前时刻的触觉反馈,往往已经慢了一步。
TacForeSight的核心洞察正在于此:力觉与触觉并不是重复信息,而是具有“时间先后关系”的信息。以人类操作为例,在擦拭、刷卡、插接等过程中,手腕往往会先感知整体受力趋势,指尖随后感知局部接触细节,人也正是依靠这种连续反馈与提前判断,完成动态调整。

腕部力觉与双指触觉在接触转变中的互补关系
从“反应式反馈”到“主动式预判”基于这一核心观点,团队并未停留在力觉与触觉信息的简单融合,而是进一步利用力觉信号预测未来可能发生的触觉变化,打造了TacForeSight 的核心模块Force-Guided Tactile World Model,即 TacForceWM。
不同于直接重建高维触觉图像的传统思路,TacForceWM 将双指触觉场编码为紧凑的触觉潜变量,并利用高频腕部力/力矩信号预测短时未来的触觉演化。介绍显示,该框架由两个耦合阶段组成:第一阶段通过力条件触觉世界模型预测触觉动态,第二阶段将预测到的触觉动态作为接触先验,用于轻量级动作策略生成。
这种设计避免了高维触觉生成带来的计算开销,同时保留了关键接触动态信息,使触觉世界模型能够真正进入实时控制闭环。它本质上是在学习“当前接触如何演化为未来接触”。因此,机器人不再只是知道自己此刻摸到了什么,而是开始预测接下来将会摸到什么。

TacForeSight网络架构图
在获得未来触觉预测之后,TacForeSight 进一步提出 Predictive Tactile-Conditioned Policy,将未来触觉作为动作生成的前瞻性接触先验。通过 Cross-Attention 机制,策略显式建模当前接触状态与未来接触趋势之间的关系,使机器人在生成动作时不仅考虑“现在的接触”,也考虑“即将发生的接触变化”。
同时,触觉驱动的自适应门控机制会根据任务阶段动态调整视觉与触觉的权重:在接触密集阶段,策略更依赖触觉进行精细控制;在远离接触阶段,则更多依赖视觉提供全局信息。论文摘要也明确提到,该方法通过紧凑潜空间预测实现高效实时推理,适用于高频机器人操作控制。
真机验证各项性能优异,实时推理逼近人类速度
为进一步验证TacForeSight的性能,论文在真实机器人平台上开展实验。实验系统包括机械臂、夹爪、相机、六维力/力矩传感器以及双指触觉传感器,覆盖花瓶擦拭、卡片滑动、管件插入、灯泡锁紧、柔性线束插入五类典型接触密集型任务,并进一步设计了高度、角度、姿态、光照等高扰动场景,以验证模型的任务完成率与鲁棒性。

五类真机任务操作过程与三类动态扰动任务的操作过程
实验结果显示,TacForeSight在五个标准接触任务上的平均完成率高达近80%,明显优于纯视觉模型、简单视觉-触觉-力觉融合、KineDex、FoAR和RDP等基线方法。在动态扰动场景下,TacForeSight 分别在高度扰动、角度扰动和姿态扰动任务中取得 90%、85%、85% 的成绩,平均达到 86.7%,展现出强大的扰动恢复能力。
尤其值得注意的是,TacForeSight支持20Hz的实时推理,这意味它不只是离线展示的预测模型,而是能够真正嵌入机器人高频闭环控制、以接近人类操作的速度完成基于力和触觉的世界模型。

为了进一步解释模型有效性,论文对学习到的触觉潜变量进行了可视化分析。结果显示,在灯泡锁紧和花瓶擦拭任务中,预测触觉潜变量会比当前触觉潜变量提前约200ms出现接触相关变化。这说明模型并不是简单记忆动作轨迹,而是学到了接触状态随时间演化的趋势。
此外,在按压、扭转、滑动等未见过的力-触觉交互片段上,触觉编码器提取出的潜变量在t-SNE可视化中形成了清晰可分的簇,表明模型具备一定的接触模式判别能力,能够捕捉不同物理交互下的局部形变和受力变化。

触觉潜变量时序预测与接触模式聚类结果
这也说明,机器人要真正实现灵巧操作,关键不在于传感器的多少,而是要真正理解不同感知信号之间的关系:力觉提供全局先导信号,触觉提供局部精细反馈,而世界模型则将二者连接成可预测的接触动态。
从 OmniVTA 到TacForeSight,它石智航展示了一种全新的机器人智能范式:从看见世界、摸到世界,到预感世界;从 Reactive Feedback,到 Proactive Foresight;从感知当前状态,到预测未来状态;从离线重型预测模型,到能够进入实时控制闭环的轻量级触觉世界模型。
未来,随着视觉、触觉与力觉等多模态感知进一步融合,机器人将逐渐学会像人一样预判世界、适应世界,并在复杂物理环境中完成更稳定、更精细的操作。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!





