cs.RO cs.AI

ロボットの動作速度を制御できるAI方策 ― 速度可変の視覚・言語・行動モデル「TempoVLA」

cs.RO ・Dong Jing, Jingchen Nie, Tianqi Zhang ほか（計7名）・2026年6月

ロボット操作は、低リスクの移動（速く）と高リスクの接触（遅く正確に）を切り替えるが、既存の視覚・言語・行動モデル(VLA)は学習デモの単一速度に固定されていた。TempoVLAは「予測する行動の大きさが速度を決める」点に着目し、速度を明示的な条件で制御。データ側の可変速度軌道拡張(VSTA)とモデル側の速度条件付けを組み合わせ、加速・減速の両方向の速度制御を実現した。

論文の概要（独自要約）

分野（arXiv分類）cs.RO（+1）
著者Dong Jing, Jingchen Nie, Tianqi Zhang ほか（計7名）
投稿日2026-06-04
arXiv ID2606.06491v1

要点

既存VLAは学習デモの単一速度に固定（特に減速が未開拓）という課題に対処
「予測行動の大きさが速度を決める」点に着目し、速度を明示条件で制御(TempoVLA)
データ側：動作の意味を保って任意速度へ再タイミングする可変速度軌道拡張(VSTA)
モデル側：速度を方策に入力する条件付け機構
加速・減速の両方向制御＋大規模マルチモーダルモデル連携で低リスク加速・高リスク減速

本研究(TempoVLA)は、ロボットの動作速度をAIが状況に応じて変えられるようにする。

ロボット操作は、低リスクの移動相（速い実行が望ましい）と、高リスクの接触相（遅く精密な動作が要る）を交互に行う。ところが既存の視覚・言語・行動モデル(Vision-Language-Action models, VLA)は、学習デモから単一の固定速度しか引き継げない。モデル圧縮・KVキャッシュ再利用・強化学習による高速化の先行研究も、方策をある固定速度から別の固定速度へ移すだけで、「減速」はほとんど扱われてこなかった。

著者らは、予測される各行動(action)の大きさが、ロボットの移動の速さをすでに左右していることに着目し、これを制御可能な実行速度への直接的な道筋とする。TempoVLAは、実行速度を明示的な条件で制御する単一のVLAで、結合した2つの要素から成る。(1)データ側の可変速度軌道拡張(Variable-Speed Trajectory Augmentation, VSTA)：行動を統合(merge)または分割(split)することで、動作の意味(motion semantics)を保ったままデモを任意の目標速度へ再タイミングする。(2)モデル側の条件付け機構：速度を方策に入力する。統計的に、VSTAはわずかな動作誤差で要求速度を達成する。

シミュレーションと実機タスクの実験から、TempoVLAは両方向（加速・減速）の柔軟な速度制御を達成し、VSTAはデータ利用の改善によって標準（1倍速）の性能も底上げすることが示された。さらに、大規模マルチモーダルモデルと連携することで、低リスク相を加速し高リスク相で減速する動的な速度制御を実現する。

なぜ重要か

ロボット操作・VLA・身体性AI(embodied AI)・産業自動化の研究動向を示す。局面に応じた速度制御という実用的課題への取り組みは、ロボット操作AIの安全性・効率の方向性を読む手がかりになる。

よくある質問（FAQ）

なぜ速度制御が重要なのですか？

移動は速く、接触（はめ込み等）は遅く正確に、と局面で最適な速度が違うためです。単一速度のVLAより、安全性と効率を両立しやすくなります。

VLAとは？

Vision-Language-Action モデル。画像と言語指示から、ロボットの行動を直接出力するAIモデルです。

出典（一次情報）

出典：arXiv（記述メタデータは CC0 パブリックドメイン）。要約は当サイト独自。原文・PDFは arXiv をご確認ください。

#AI#arXiv#研究論文#ロボット#VLA#身体性AI

← AI研究論文ウォッチへ