LLMは言葉の天才だが「暗闇の中の達人」にすぎない。World Modelは「AIに目と手足を与え、夢の中で世界を学ばせる」まったく新しいパラダイムだ。LLMの限界、VLMとの関係、主要プレイヤーの戦略の違い、エージェントとの結合——すべてを裸で解剖する。

主要参照ソース:


構成(45-60分想定)

OPENING(3-4分)—「手を5回叩いてみて」

導入: 手を5回叩いてください。次に、その動作を言葉だけで完璧に描写してみてください。手が空間のどこにあるか、接触点、音、袖の布の動き、背景の人の反応——ピコ秒単位で。できない。言語は現実の極めて不完全な圧縮だ。コードも同じ。ClaudeにClapping simulationを作らせたらとても痛そうな何かが出てきた。

問い:


PART 1: LLMの限界 — なぜ言葉だけでは足りないのか(8-10分)

核心メッセージ: LLMはヘルマン・ヘッセ『ガラス玉遊戯』のカステリアの住人と同じだ。記号を操る天才だが、現実に触れていない。主人公クネヒトはカステリアを去り、混沌とした現実世界を選んだ。LLMも「カステリアから降りてくる」必要がある。

LLMができること:

LLMにできないこと:

なぜ「スケーリングで解決」しないのか:

LLMとWorld Modelの関係:

話すポイント:


PART 2: World Modelとは何か — 夢の中で学ぶAI(10-12分)

核心メッセージ: World Modelは「アクション付きの夢」。映画を見るのではなく、明晰夢の中で自分が物語を動かす。LLMが言語の構造を学ぶなら、World Modelは因果関係の構造を学ぶ。

Video ModelとWorld Modelの決定的な違い

介入できずにただ傍観している夢を見たことがありますか? それがVideo Model
明晰夢の中で物語を自由に形作れたことは? それがWorld Model

なぜ「アクション」が究極の圧縮なのか

「夢の中で学習する」— 出発点

World Modelの3つの価値

  1. 代替訓練場: 危険すぎる/高コストな現実の代わりに夢で訓練
  2. 長期計画: チェスの数手先を読むように、行動の結果を「想像」してから決める
  3. 豊かな表現: 生ピクセルではなく「行動に関係する特徴」で世界を理解

話すポイント:


PART 3: 主要プレイヤーの戦略マップ — 同じ目標、異なる道(10-12分)★メインパート

核心メッセージ: 全員の目標は「物理世界で動くエージェント」。だがアプローチは大きく3つに分かれる: Generative World Model vs Latent World Model vs VLA(Vision-Language-Action)。さらにその下に「踏み台」としてのLLM/Video Model/3D Reconstructionがある。

3つの違いを一言で: World Model(GenerativeもLatentも)は「まず世界のシミュレーターを作り、その中でエージェントを訓練する」。VLAは「世界のシミュレーターを作らず、LLMに目と手を付けて直接行動させる」。料理に例えると、World Modelは「まず自分のキッチン(仮想環境)を建てて、そこで何万回も練習してから本番に出る」アプローチ。VLAは「レシピ本(LLMの知識)を読み込んだシェフに、いきなり包丁(アクションヘッド)を持たせて現場に立たせる」アプローチ。World Modelは訓練に時間がかかるが汎化に強い。VLAは即戦力だが、レシピ本に載っていない状況に弱い。

まず整理: 「踏み台」になる既存モデルたち

カテゴリ 代表例 World Modelとの距離
LLM GPT-5, Gemini, Claude ガラスは押せば落ちると「知っている」が、体験していない。エージェントの推論backbone
Video Model Sora 2, Veo 3, Runway Gen-4.5 美しい映像を生む。だが操作できない。映画を見るのと車を運転するのは根本的に違う
3D Reconstruction World Labs / Marble 没入的な3D世界を生む。だがまだアクション条件付きではない

→ Fei-Fei LiのWorld Labsは「World Model企業」と思われがちだが、Not Boringの分析では現時点では3D Reconstruction寄り(Marbleは没入的だが行動条件付きではない)。ただし2025年10月に発表したRTFM(Real-Time Frame Model)で明確にフレーム直接生成へ転換。RTFMは明示的な3D表現(メッシュ/Gaussian Splat)を一切使わず、Autoregressive Diffusion Transformerが大規模動画データからend-to-endで「学習されたレンダラー」として反射・影まで再現する。H100 1枚でインタラクティブなフレームレートを維持し、posed frameを空間メモリとして使うことで世界が永続する(振り返っても消えない)。3D Reconstructionから出発しつつ、Generative World Modelへの移行を急速に進めている

Generative World Model — 「夢を映像として見る」

プレイヤー アプローチ 実績
General Intuition ゲームクリップ+アクションラベルで学習。Diffusion/Flow-matching。IRIS/DIAMOND/GAIA-2の開発者が創業 $133.7Mシード。Medal(ゲーム動画プラットフォーム)のデータ資産
Wayve 自動運転特化。GAIA-1/2。500+都市の走行データ $1.2B調達@$8.6B。日本の道路でゼロショット走行成功
Decart リアルタイム生成シミュレーション(Oasis) $100M@$3.1B
Runway Video Model → World Modelへ進化中(GWM-1) $315M@$5.3B
Google DeepMind / Genie 3 Veo上に構築。インタラクティブ3D世界 研究デモ
Comma.ai World Model内で訓練したポリシーを実車に展開。世界初のWorld Model訓練消費者プロダクト openpilotで実稼働

Latent World Model — 「ピクセルを捨て、本質だけ学ぶ」

プレイヤー アプローチ 実績
AMI Labs (LeCun) JEPA。ピクセル予測を完全に拒否 $1.03B調達@$3.5B。Meta退社して設立
Moonlake (Manning, Goodfellow) ハイブリッド: ゲームで人間データを集め、ピクセルを捨てて潜在空間で訓練 新設
Meta / V-JEPA 2 100万時間の動画で自己教師学習 → 62時間のロボットデータでfine-tune → ゼロショットでロボット制御成功 研究実証
Embo (Hafner) DreamerV4。純粋に想像の中で訓練するエージェント $100M調達中(報道)

VLA (Vision-Language-Action) — 「LLMのインフラに乗る」

プレイヤー 実績
Physical Intelligence (π) $600M@$5.6B。π₀.6で経験から学習。記憶付きでキッチン全体を片付け
Skild $1.4B@$14B(SoftBank主導、NVIDIA/Bezos/Samsung/LG/Sequoia等)。7ヶ月で評価額3倍。2025年ゼロから$30M ARRへ急成長。セキュリティ巡回・ラストマイル配送・倉庫・製造・データセンターで展開中
Google DeepMind / SIMA 2 Gemini backbone + World Model。ゲーム内で自律行動・推論・改善
Arda (元OpenAI Bob McGrew) $70M@$700M。工場全体の自動化

3つのアプローチは収束するのか?

「VLAとWorld Modelは本当には競争していない。異なる方向から物理世界に到達しようとしている。VLAは言語ファースト、World Modelは映像+アクションファースト。おそらく収束し、両方が解の一部になる」— Packy McCormick

話すポイント:

Ground Truthアクションデータの供給元 — World Modelの「石油」

全てのWorld Modelアプローチが同じ壁にぶつかる: アクションラベル付きデータが圧倒的に不足している。インターネット上の動画は膨大だが「その中で何が行われたか」のground truthがない。アクション推論(Inverse Dynamics Model等)で補えるが、エッジケースで破綻する。

データソース 供給者 規模 特徴
ゲームクリップ General Intuition / Medal.tv 年10億+クリップ キーボード/コントローラ入力がground truthとして記録される。情報完全(カメラ=プレイヤー視点)。Not Boringは「GitHubがコーディングAIにとってのデータだったように、Medalがembodied AIにとってのデータになる」と評価
自動運転走行データ Wayve (500+都市), Waymo, Tesla, Comma.ai PB級 ステアリング/ブレーキ/加速のground truth。最も商業的に成熟。ただしプロプライエタリで閉じている
ロボット遠隔操作 Open X-Embodiment (21機関), DROID (76K軌跡/350時間) 100万+軌跡 オープンだが規模が桁違いに小さい。ロボットデータは人間の労働に線形スケールするため収集コストが高い(今後2年で$3B+と推計)
シミュレーション生成 NVIDIA Omniverse, Ai2 MolmoBot 理論上無制限 合成データ。Ground truthだが「現実理解」の保証がない。sim-to-realギャップが課題
自己対話(self-play) DeepMind (AlphaGo→MuZero), 各社RL 理論上無制限 環境が定義されていれば自動生成可能。ゲーム/シミュレーション向き

Medalの誕生はセレンディピティ: 創業者Pim De Witteは13歳でRuneScapeの私設サーバーを作り、そこから対戦ゲーム「Get Wrecked」を開発。プレイヤー不足を補うためにゲームクリップ共有機能を付けたら、ゲーム本体よりクリップ機能が先にバズった。Medalはもともと「ゲーマーが最高の瞬間を見せびらかす」SNSであり、World Model用のデータ基盤として設計されたわけではない。その後ユーザーの最大要望だった「キーボード/コントローラのオーバーレイ表示」を実装した結果、全クリップにアクションラベルが付く構造が副産物として完成した。NVIDIAがゲーム用GPUを作ったら深層学習のインフラになったのと同じパターン——World Modelの「石油」は、意図せず掘り当てられた

最大のボトルネック: 現実世界のアクションラベル付きデータは「収集コストが人間労働に比例する」ため、LLMのテキストデータのようにインターネットからクロールできない。ゲーム(Medal)と自動運転(Wayve等)が現時点で最も豊富なground truthソース。ロボット領域はDROIDの350時間 vs LLMの数兆トークンで、データ量に数桁の差がある


PART 4: エージェントとの結合 — 夢で訓練し、現実で動く(8-10分)

核心メッセージ: World Modelの真の価値はエージェントとの結合にある。World Modelは「夢」、Agentは「夢見る者」。夢見る者が行動し、夢が応答し、夢見る者がまた行動する。

World Model + Agent = AGIへの道?

「Sim-to-Real」は本当に機能するのか?

データの壁: アクションラベルが全てを決める

話すポイント:


PART 5: 起業家・投資家が今問うべきこと(5-8分)

問い1: 「これはVideo Generationか、True World Modelか?」

問い2: 「Generative / Latent / VLA、どのアプローチに賭けるか?」

問い3: 「日本のどの資産が活用できるか?」

問い4: 「Thin Client vs Smart Edge」


CLOSING(3-5分)

まとめ:

Fei-Fei Liの言葉で締める:

「LLMは暗闇の中の言葉の達人。AIに光を与えるのが、私たちの仕事」

宿題: Marble / Genie 3 / Oasis、どれか一つ触ってみてください


バックアップ素材

4つのWave(World Model研究史)

Wave 時期 問い 代表
Wave 0 1990-91 World Modelとは何をするものか? Schmidhuber, Sutton (Dyna)
Wave 1 2018-19 そもそも機能するのか? Ha & Schmidhuber, SimPLe (Atari 100k)
Wave 2 2020-22 人間レベルに到達できるか? DreamerV2, MuZero, IRIS, LeCun JEPA
Wave 3 2023-24 本当にインタラクティブにできるか? GAIA-1, DIAMOND, Genie
Wave 4 2025-26 現実世界で動けるか? Comma.ai, V-JEPA 2, SIMA 2, GAIA-2, π*0.6

Generative vs Latent の技術的な違い

推論コスト比較

指標 LLMテキスト生成 World Model 3D生成 倍率差
1回の生成コスト $0.001-0.01 $0.12-1.20(Marble) 100-1000x
GPU時間 ミリ秒 秒〜分 1000x+
必要メモリ 数十GB 数百GB+(3D表現) 10x+

エッジ要件

ユースケース 許容レイテンシ なぜエッジ必須か
自動運転 <10ms 120km/hで1ms=3cm。Cloud往復20-100msでは死ぬ
ロボット制御 <50ms 工場の奥や鉱山ではネットワーク不安定
VR/AR <20ms 超えるとmotion sickness