添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

Meta的视频版 分割一切 ——Segment Anything Model 2(SAM 2),又火了一把。

因为这一次,一个 全华人 团队,仅仅是用了个 经典方法 ,就把它的能力拔到了一个新高度——

任你移动再快,AI跟丢不了一点点!

例如在电影《1917》这段画面里,主角穿梭在众多士兵之中,原先的SAM 2表现是这样的:

更有意思的是,这项改进工作所用到的核心关键方法,是非常经典的 卡尔曼滤波器 (Kalman Filter,KF)。

并且还是无需重新训练、可以实时运行的那种!

前谷歌产品经理、国外知名博主Bilawal Sidhu在看完论文后直呼 “优雅”

有时候你不需要复杂的全新架构——只需要聪明地利用模型已知的信息,再加上一些经过验证的经典方法。

我们的“老朋友”卡尔曼滤波器,这么多年过去了,它的表现依然如此出色。有时候老派的方法就是管用。

SAM 2的组成部分包括图像编码器、掩码解码器、提示编码器、记忆注意力层和记忆编码器。

在视觉目标跟踪中,SAM 2使用提示编码器来处理输入的提示信息,如点、框或文本,这些提示信息用于指导模型分割图像中的特定对象。

掩码解码器则负责生成预测的掩码,而记忆注意力层和记忆编码器则用于处理跨帧的上下文信息,以维持长期跟踪。

然而,SAM 2在处理快速移动的对象或在拥挤场景中,往往忽视了运动线索,导致在预测后续帧的掩码时出现不准确。

特别是在遮挡发生时,SAM 2倾向于优先考虑外观相似性而非空间和时间的一致性,这可能导致跟踪错误。

而SAMURATI,作为SAM 2的增强版,可以说是很好地解决了此前的痛点。

整体来看,SAMURAI主要包含两个技术关键点:

  • 运动建模 (Motion Modeling)
  • 运动感知记忆选择 (Motion-Aware Memory Selection)
  • 让目标“动”起来

    运动建模部分 的目的是有效地预测目标的运动,从而在复杂场景中,如拥挤场景或目标快速移动和自遮挡的情况下,提高跟踪的准确性和鲁棒性。

    而这里用到的具体方法,就是那个经典的 卡尔曼滤波器 ,以此来增强边界框位置和尺寸的预测,从而帮助从多个候选掩码中选择最有信心的一个。

    在SAMURAI中,状态向量包括目标的位置、尺寸及其变化速度;通过预测-校正循环,卡尔曼滤波器能够提供关于目标未来状态的准确估计。

    目标的状态向量被定义为:

    挑出最关键的记忆

    SAMURAI第二个关键技术,则是 运动感知记忆选择 (Motion-Aware Memory Selection)。

    主要是为了解决SAM 2的固定窗口记忆机制容易引入错误的低质量特征,导致后续跟踪的误差传播的情况。

    这部分首先涉及一个 混合评分系统 ,包括掩膜分数、目标出现分数和运动分数三种评分,用于动态选择记忆库中最相关的帧。

  • 掩膜分数smask:衡量掩膜的准确性。
  • 目标出现分数 sobj:判断目标是否存在于该帧中。
  • 运动分数 skf:预测目标位置的准确性。
  • 其次是一个 记忆选择机制 ——

    如果某帧满足以下条件,则其特征会被保留到记忆库中:

    值得一提的是,SAMURAI是在无需重新训练或微调的情况下,在所有基准上都超过了SAM 2,并与部分有监督方法(如 LoRAT 和 ODTrack)表现相当。

    全华人团队出品

    SAMURAI这项工作背后的研究团队,有一个亮点便是全华人阵容。

    例如Cheng-Yen Yang,目前是 华盛顿大学 电气与计算机工程系的一名四年级博士生。

    研究方向主要包括在复杂场景(水下,无人机,多相机系统)中的多目标跟踪(单视图,多视图,交叉视图)。

    Hsiang-Wei Huang和Zhongyu Jiang也是华盛顿大学电气与计算机工程系的博士生,而Wenhao Chai目前则是攻读研究生。

    他们的导师是华盛顿大学教授 Jenq-Neng Hwang

    他是IEEE信号处理协会多媒体信号处理技术委员会的创始人之一,自2001年以来,黄教授一直是IEEE院士。

    关于SAMURAI更多内容,可戳下方链接。

    项目地址:
    https://yangchris11.github.io/samurai/

    论文地址:
    https://arxiv.org/abs/2411.11922

    参考链接:
    [1]https://x.com/EHuanglu/status/1860090091269685282

    [2]https://x.com/bilawalsidhu/status/1860348056916369881

  • OpenAI和Anthropic罕见互评模型:Claude幻觉明显要低 2025-08-28
  • 北大南开数学家解决著名“十杯马天尼”问题:更统一、更优雅的证明 2025-08-27
  • DeepSeek“极你太美”bug,官方回应了 2025-08-27
  • 商汤元萝卜联动疯狂动物城发布朱迪系列新品 2025-08-26
  •