OmniVTLA

力センシング: 触覚画像（<a href="../entities/gelsight" class="internal internal-link alias" data-slug="entities/gelsight">GelSight ）+ トルクセンサ（Paxini）の併用。
入力方法: ① VLM 側（Encoder 有）。触覚を意味的に整合（semantic-aligned）させてトークン化し VLM に入力。
出力 / 制御: 位置出力 → 位置制御。
カメラ: RGB×2。
評価: ピック&amp;プレース（グリッパー: 缶・ボトル等 / 多指ハンド: ボトル・牛乳パック）。

“OmniVTLA: Vision-Tactile-Language-Action Model with Semantic-Aligned Tactile Sensing”（Z. Cheng ら, 2025）。π₀ ベースの VTLA モデル。