Video Grounding: Pointing & Tracking

Video Grounding とは

Video Grounding（ビデオグラウンディング） は、モデルがビデオ内の特定のオブジェクトやイベントを 時空間的に正確に指し示す（grounding） 能力である。従来の Vision-Language Model (VLM) は、「このビデオには何がありますか？」という質問に回答できても、「赤いブロックが何回掴まれましたか？それぞれどこですか？」という質問に対して正確な時刻と位置を返すことはできなかった。

Molmo2 は、この gap を埋めるために、Video Pointing と Video Tracking という2つの grounding 機能を実装している。

動機

画像におけるグラウンディング（pointing）は既に標準的な機能となっており、Molmo2 の前身である Molmo1 や GPT-4V、Gemini などでサポートされている。しかし、ビデオにおけるグラウンディングは一部のプロプライエタリシステムでのみ限定的にサポートされており、オープンソースでは未開拓の領域であった。

ビデオグラウンディングは、以下のような実用的なユースケースで重要である。

ロボティクス: 「ロボットが赤いブロックを何回掴んだか？」といった質問に対して、各掴みイベントの時空間座標を返す
ビデオ検索: 「カップがいつテーブルから落ちたか？」という質問に対してカップの軌跡（track）を返す
生成動画の品質評価: 生成されたビデオに視覚的な異常（artifacts/anomalies）がある箇所を自動検出する

Video Pointing vs Video Tracking

Molmo2 は、2種類のビデオグラウンディング機能を提供する。

Video Pointing

Video Pointing は、ビデオ内の特定のフレームにおける特定のオブジェクトやイベントの 位置を点（points）で示す タスクである。複数フレームにわたる場合もあるが、各フレームは独立して扱われる。

例:

質問: 「滝をポイントして」
回答: <points coords="t^1 count_1 x_1 y_1 t^2 count_2 x_2 y_2 ...">waterfall</points>

特徴:

オブジェクトのカウンティング（counting）と組み合わせて使用されることが多い
「何個ありますか？」という質問に加えて、「それぞれどこですか？」という空間的な情報を提供
フレーム間でオブジェクトが移動しても、各フレームでの位置を個別に記録

Video Tracking

Video Tracking は、ビデオ内の特定のオブジェクトを 時間を通して追跡（track） するタスクである。同一のオブジェクトが複数フレームにわたって移動する場合、そのオブジェクトの軌跡を一貫して記録する。

例:

質問: 「赤い車を追跡して」
回答: オブジェクトごとに一意の ID を付与し、各フレームでの位置を記録

特徴:

オブジェクトの 一貫性 が重要（同一オブジェクトには同一 ID）
複雑な自然言語クエリに対応（「左から2番目の選手」「緑のシャツを着た人」など）
複数オブジェクトの同時追跡をサポート（平均2.28オブジェクト/クエリ）

Pointing vs Tracking の違い

Pointing: フレームごとに独立した位置情報（カウンティング重視）
Tracking: オブジェクトの時間的な一貫性（軌跡重視）

実用上、Pointing は「いつどこにあるか」を知りたい場合に、Tracking は「どう動いたか」を知りたい場合に適している。

Molmo2-VideoPoint データセット

Molmo2-VideoPoint は、ビデオ内のオブジェクトやイベントをポイントするための人手アノテーションデータセットである。

基本統計

動画数: 280k 動画
クエリ数: 650k 以上
平均ポイント数: 6 ポイント/動画
フレームレート: 2 fps でサンプリング

8つのカテゴリ

Molmo2-VideoPoint は、以下の8つの多様なカテゴリをカバーしている。

Objects（オブジェクト）: 一般的な物体（「車」「コップ」など）
Animals（動物）: 動物の検出とカウンティング
Actions/Events（行動・イベント）: 時間的なイベント（「ジャンプ」「投げる」など）
Referring expressions（参照表現）: 複雑な記述（「左から2番目の人」など）
Indirect references（間接参照）: 間接的な指示（「彼が持っている物」など）
Spatial references（空間参照）: 空間的な関係（「テーブルの上にあるもの」など）
Comparative references（比較参照）: 比較的な記述（「一番大きい犬」など）
Visual artifacts/anomalies（視覚的な異常）: 生成動画における異常検出

生成動画の異常検出

カテゴリ8の Visual artifacts/anomalies は、AI生成動画における品質評価のために設計されている。約25種類の text-to-video (T2V) モデルで生成された10k動画を使用し、消失する被写体（Vanishing Subject）、物理的な不整合（Physical Incongruity）、時間的な歪み（Temporal Dysmorphia）などの異常を検出する能力を学習する。

データ収集パイプライン

クエリ生成: LLM が Molmo2-Cap で生成されたビデオキャプションからポインティングクエリを生成
フレーム選択: アノテーターがオブジェクトが出現するフレームを特定（2 fps でサンプリング）
位置アノテーション: アノテーターがオブジェクトの正確な位置をクリック
フォーマット: 時刻（フレームインデックス）、カウント、正規化された (x, y) 座標を記録

分布の特徴

カウント数: 0-5個のオブジェクトが多数を占める（低カウント重視）
- 中・高カウント例はトレーニング時にアップサンプリング
フレーム数: アノテーション付きフレーム数は左側に偏った分布（多くの例は少数のフレームのみ）
カテゴリ: Action/Event、Object、Referring expression が最も多い（これらが学習困難なため）

Molmo2-VideoTrack データセット

Molmo2-VideoTrack は、複雑な自然言語クエリに対応したオブジェクトトラッキングデータセットである。

基本統計

ビデオクリップ数: 3.6k（トレーニング用）+ 1.3k（評価用）= 合計約5k
クエリ数: 15k の複雑な自然言語クエリ（トレーニング用）
平均オブジェクト数: 2.28 オブジェクト/クエリ（多くは複数オブジェクトを追跡）
平均クエリ長: 8.21 単語/クエリ
動画長: 最長2分、多くは10-30秒
平均アノテーション数: 6.08 オブジェクト/動画

データソース

Molmo2-VideoTrack は、既存のセグメンテーションおよびバウンディングボックストラッキングデータセットを基に、人手で複雑なテキストクエリを追加したものである。

セグメンテーションベース（一般的なオブジェクトトラッキング）:

SAM-V, VIPSeg, MOSE, MOSEv2

バウンディングボックスベース（ドメイン特化型）:

スポーツ: TeamTrack, SoccerNet, SportsMOT
自動運転: BDD100K
動物: APTv2, AnimalTrack, BFT
UAV（ドローン）: UAV-MOTD, SeaDrones
人物: MOT20, PersonPath, DanceTrack

バウンディングボックスからセグメンテーションへの変換

バウンディングボックスベースのデータセットでは、中心点がオブジェクト上にない可能性があるため、SAM 2 を使用して各バウンディングボックスをセグメンテーションマスクに変換した。

変換プロセス:

最初のバウンディングボックスを SAM 2 にプロンプトとして入力
セグメンテーションマスクを生成し、ビデオ全体に伝播
IoU が 0.5 未満のトラックは除外
生成されたマスクから中心付近の点をサンプリング

これにより、信頼性の高い点ベースのトラッキングアノテーションを得られる。

データ収集パイプライン

Molmo2-VideoTrack の収集は、Ref-VOS（Referring Video Object Segmentation）のアプローチに従っている。

既存トラックの表示: アノテーターにセグメンテーションまたはバウンディングボックスのトラックを表示
クエリ作成: アノテーターがオブジェクトのサブセットに適用される 非自明な テキストクエリを作成
- 例: 「緑のシャツを着た左から2番目の選手」「テーブルの上の赤いカップ」
検証: 別のアノテーターが検証ラウンドでクエリの品質をチェック
- 検証後、約70%のクエリが保持される

カテゴリ分布

Molmo2-VideoTrack は、多様なドメインをカバーしている。

一般的なオブジェクト: 日常的な物体（セグメンテーションデータセットから）
スポーツ: サッカー選手、チームメンバー、競技者
交通: 車、歩行者、自転車
動物: 野生動物、ペット
UAV: ドローン映像における追跡
人物: 歩行者、ダンサー

複数オブジェクトの追跡が主な焦点であり、クエリの多くは複数のオブジェクトを同時に記述する（平均3.31オブジェクト/クエリ）。

Academic データセット

Molmo2 は、既存のオープンソースデータセットを Pointing と Tracking の形式に変換した Academic データセット も使用している。

AcademicVideoPoint

既存のオブジェクトトラッキングアノテーションを 49k のポインティング・カウンティング QA に変換した。

ソースデータセット（6つ）:

MeViS, ReVOS, LV-VIS, OVIS, BURST, Ref-DAVIS17

変換プロセス:

オブジェクトが最初に出現するフレームのタイムスタンプを取得
オブジェクトのマスク内からランダムに点をサンプリング（ガウス分布、マスク中心付近）
ポインティング QA 形式に変換

AcademicVideoTrack

既存のビデオオブジェクトセグメンテーション（VOS）およびトラッキングデータセットを変換した。

セグメンテーションベース（7つの Ref-VOS データセット）:

MeViS, ReVOS, LV-VIS, OVIS, BURST, Ref-Youtube-VOS, Ref-DAVIS17

バウンディングボックスベース（11のトラッキングデータセット）:

TrackingNet, VastTrack, GOT-10k, LaSOT, TNL2K, WebUAV, WebUOT, LVOS V1/V2, UW-COT220, TNLLT, YouTube-VIS, MoCA-Video

SAM 2 を使用してバウンディングボックスをセグメンテーションマスクに変換し、点ベースのトラッキングタスクを生成した。

AcademicVideoTrack の規模

AcademicVideoTrack は、トレーニングデータの大部分を占めており、130k のクエリと 800k の例（トークン数ベース）を提供している。これに対して、Molmo2-VideoTrack は 8k のクエリであるが、より複雑で多様なテキストクエリを含んでいる。

評価結果: プロプライエタリモデルを上回る性能

Molmo2 は、ビデオグラウンディングにおいて プロプライエタリモデルを含めて最高水準 の性能を達成している。

Video Counting & Pointing

以下の表は、BURST-VideoCount（VC）、Molmo2-VideoCount（Molmo2-VC）、Molmo2-VideoPoint（Molmo2-VP）における性能を示している。

モデル	BURST-VC Acc.	BURST-VC Close Acc.	Molmo2-VC Acc.	Molmo2-VC Close Acc.	Molmo2-VP F1	Molmo2-VP Recall	Molmo2-VP Precision
API Only
GPT-5	43.1	73.7	35.8	50.3	4.1	4.4	4.2
GPT-5 mini	46.0	73.0	29.8	49.3	2.2	2.2	2.2
Gemini 3 Pro	44.0	71.7	37.1	53.1	20.0	27.4	19.8
Gemini 2.5 Pro	41.6	70.0	35.8	56.5	13.0	14.5	13.6
Gemini 2.5 Flash	38.7	70.0	31.9	48.2	11.1	11.2	12.2
Claude Sonnet 4.5	42.4	72.6	27.2	45.1	3.5	3.7	4.3
Open Weights Only
Qwen3-VL-4B	38.9	74.7	25.3	44.3	0.0	0.0	0.0
Qwen3-VL-8B	42.0	74.4	29.6	47.7	1.5	1.5	1.5
Molmo2 Family
Molmo2-4B	61.5	76.1	34.3	56.1	39.9	42.7	39.4
Molmo2-8B	60.8	75.0	35.5	53.3	38.4	39.3	38.7
Molmo2-O-7B	61.6	76.0	33.2	50.5	35.8	35.8	37.9

主要な結果

BURST-VC: Molmo2 は全モデル中で最高精度（61.5% accuracy）を達成
Molmo2-VP: Molmo2-4B は F1 Score 39.9 で、Gemini 3 Pro（20.0）の 約2倍 の性能
Qwen3-VL との比較: Qwen3-VL はビデオポインティングをほぼサポートしていない（F1 Score 0.0-1.5）

Molmo2 は、オープンウェイトモデルとしてだけでなく、プロプライエタリモデルを含めても最高水準 のビデオポインティング性能を達成している。

評価指標の説明:

Accuracy: 完全一致
Close Accuracy: 誤差が Δ = 1 + ⌊0.05 × gt⌋ 以内であれば正解（カウント数が多いほど許容誤差が大きい）
F1, Recall, Precision: 生成された点が ground-truth マスク内にあるかを評価

Video Tracking

以下の表は、主要なビデオトラッキングベンチマークにおける性能を示している。

モデル	MeViS valid J&F	MeViS valid-u J&F	Ref-YT-VOS valid J&F	Ref-Davis test J&F	ReasonVOS J&F
API Only
GPT-5	23.4	26.5	30.9	25.2	24.7
GPT-5 mini	15.7	15.4	16.2	8.4	14.6
Gemini 3 Pro	42.5	51.1	55.0	66.6	52.6
Gemini 2.5 Pro	40.7	52.8	45.1	45.6	44.0
Gemini 2.5 Flash	27.6	31.8	36.0	31.6	26.5
Open Weights Only
Qwen3-VL-4B	29.7	30.6	32.1	44.4	26.5
Qwen3-VL-8B	35.1	34.4	48.3	41.0	24.9
Specialized Open Models
VideoLISA	44.4	53.2	63.7	68.8	47.5
Molmo2 Family
Molmo2-4B	56.2	62.1	67.2	65.4	56.5
Molmo2-8B	56.1	60.4	67.8	64.5	55.6
Molmo2-O-7B	54.5	59.8	64.8	62.1	51.9

特化型モデルとの比較

VideoLISA は Ref-VOS に特化したモデルであり、一部のベンチマーク（MeViS valid-u, Ref-YT-VOS, Ref-Davis）で Molmo2 と同等またはそれ以上の性能を示している。しかし、Molmo2 は 汎用的なビデオ理解モデル として、ビデオ QA、キャプション、カウンティングなど幅広いタスクをサポートしている点が異なる。

評価指標の説明:

J&F: セグメンテーションマスクの品質を測る指標（Jaccard Index と Contour Accuracy の平均）
F1, HOTA: オブジェクトトラッキングの精度を測る指標

主要な結果:

MeViS: Molmo2-4B は J&F 56.2 で、Gemini 3 Pro（42.5）を 13.7ポイント上回る
Ref-YT-VOS: Molmo2-8B は J&F 67.8 で、オープンモデル中で最高（VideoLISA 63.7 を上回る）
Qwen3-VL との比較: Molmo2 は Qwen3-VL-8B（35.1 J&F）の 約1.6倍 の性能

Pointing フォーマット: Plain-Text Coordinates

Molmo2 は、ビデオグラウンディングの出力に プレーンテキスト座標 を使用している。これは、特別なトークンや外部ツールを使わずに、LLM のテキスト生成能力だけでグラウンディングを実現するアプローチである。

フォーマット例

<points coords="t^1 count_1 x_1 y_1 t^2 count_2 x_2 y_2 t^3 count_3 x_3 y_3">
object_label
</points>

要素の説明:

t^i: フレームインデックス（またはタイムスタンプ）
count_i: そのフレームでのオブジェクトのカウント（何個目か）
x_i, y_i: 正規化された座標（0.0-1.0）
object_label: オブジェクトの名前やラベル

トラッキングの場合

トラッキングでは、オブジェクトごとに一意の ID（count_i）を割り当て、複数フレームにわたって同じ ID を維持する。

<points coords="t^1 1 0.45 0.32 t^2 1 0.48 0.35 t^3 1 0.51 0.38">
red car
</points>
<points coords="t^1 2 0.62 0.55 t^2 2 0.65 0.57 t^3 2 0.68 0.59">
blue car
</points>

この例では、1 が赤い車、2 が青い車を示しており、各フレーム（t^1, t^2, t^3）での位置が記録されている。

Plain-Text Coordinates の利点

シンプル: 特別なトークンや外部ツールが不要
柔軟性: LLM の生成能力をそのまま活用できる
スケーラビリティ: 複数オブジェクト、複数フレームに自然に拡張可能
人間可読性: デバッグや分析が容易

一方で、座標の精度は LLM のテキスト生成精度に依存するため、非常に高精度な座標が必要な場合には専用のヘッドを追加するアプローチ（例: Grounding-DINO）の方が有利な場合もある。

まとめ

Molmo2 は、Video Grounding という新しい capability を完全オープンなモデルとして実現した。

主要な成果:

2つのグラウンディング機能:
- Video Pointing: フレームごとの位置情報とカウンティング
- Video Tracking: オブジェクトの時間的な軌跡追跡
大規模な人手アノテーションデータセット:
- Molmo2-VideoPoint: 650k クエリ、8つの多様なカテゴリ
- Molmo2-VideoTrack: 15k クエリ、平均2.28オブジェクト/クエリ
Academic データセットの活用:
- 既存のオープンソースデータセットを Pointing/Tracking 形式に変換
- 49k の Pointing QA、130k の Tracking クエリ
プロプライエタリモデルを上回る性能:
- Video Pointing で F1 Score 39.9（Gemini 3 Pro の約2倍）
- Video Tracking で J&F 56.2（Gemini 3 Pro より13.7ポイント高い）
Plain-Text Coordinates フォーマット:
- シンプルで拡張性の高い出力形式
- LLM の生成能力を直接活用

Molmo2 のビデオグラウンディング機能は、ロボティクス、ビデオ検索、生成動画の品質評価など、幅広い実用的なアプリケーションへの道を開く。