WorldModels

LLMは言葉の天才だが「暗闇の中の達人」にすぎない。World Modelは「AIに目と手足を与え、夢の中で世界を学ばせる」まったく新しいパラダイムだ。LLMの限界、VLMとの関係、主要プレイヤーの戦略の違い、エージェントとの結合——すべてを裸で解剖する。

主要参照ソース:

clipping_World_Models_Computing_Uncomputable.md — Packy McCormick × General Intuition (Not Boring, 2026/03)
clipping_a16z_FeiFei_Li_Rebuilding_AI.md
clipping_NVIDIA_Cosmos_World_Model_Platform.md
clipping_Jim_Fan_Second_Pretraining_Paradigm.md
FeiFei_Li_World_Labs_Research.md
World_Model_Foundations_Papers.md
World_Model_Market_Landscape.md

構成（45-60分想定）

OPENING（3-4分）—「手を5回叩いてみて」

導入: 手を5回叩いてください。次に、その動作を言葉だけで完璧に描写してみてください。手が空間のどこにあるか、接触点、音、袖の布の動き、背景の人の反応——ピコ秒単位で。できない。言語は現実の極めて不完全な圧縮だ。コードも同じ。ClaudeにClapping simulationを作らせたらとても痛そうな何かが出てきた。

問い:

もし言語とコード、人類最強の2つの発明が世界を表現しきれないなら、何が残るのか？
答えはWorld Model。世界を言葉で記述するのではなく、世界を夢として丸ごとシミュレートするモデル

PART 1: LLMの限界 — なぜ言葉だけでは足りないのか（8-10分）

核心メッセージ: LLMはヘルマン・ヘッセ『ガラス玉遊戯』のカステリアの住人と同じだ。記号を操る天才だが、現実に触れていない。主人公クネヒトはカステリアを去り、混沌とした現実世界を選んだ。LLMも「カステリアから降りてくる」必要がある。

LLMができること:

シェイクスピアを引用し、エルデシュ問題を解き、コードを書き、野球のルールを説明する
人類史上最大の知的成果の一つ

LLMにできないこと:

拍手を描写できるが、拍手はできない
重力について語れるが、幼児のように何千回も転んで「下」を知ることはできない
言語トークンはプラトンの洞窟の壁に映る「影」。影は現実そのものではない

なぜ「スケーリングで解決」しないのか:

NeurIPS 2025論文: スケーリングだけでは根本的物理法則の発見に至らない
2 +- ICML 2025論文 ["How Fa
+r is Video Generation fr
+om World Model"](https:/
+/arxiv.org/abs/2411.0238
+5): 慣性の法則・運動量保
+存・ニュートン第二法則を
+2Dシミュレーションで検証
+した結果、Video生成モ
+デルは物理法則を抽出でき
+なかった。訓練分布内の
+速度誤差0.012に対し、分
+布外では0.427と桁違い
+に悪化。モデルは法則を
+抽象化するのではなく「最
+も近い訓練例を模倣する」
+ケースベース学習にとどま
+り、低速ボールに対して逆
+方向の速度を生成するなど
+、暗記と法則発見の差が露
+呈した。さらに汎化時の属
+性優先順は色 > サイズ
+> 速度 > 形状で、物理
+的に重要な属性ほど後回し
+にされる（ピクセル変化量
+が大きい属性を優先するた
+め）
言語は「人間が発明した信号」。自然界に言語は存在しない（Fei-Fei Liの指摘）
コードベースのシミュレーションは「夢の劣化版」。ルールに縛られ、現実のランダム性を扱えない

LLMとWorld Modelの関係:

World ModelはLLMの代替ではなく補完
テキストはWorld Modelを「条件づけ」するために使える（「このシナリオを想像しろ」「この目標を追え」）
考えることと行動することは一緒に働く。だが行動はテキスト以外から来なければならない

話すポイント:

LLMを毎日使い込んでいるからこそ感じる限界。
Fei-Fei Li: 「LLMは暗闇の中の言葉の達人（wordsmiths in the dark）」

PART 2: World Modelとは何か — 夢の中で学ぶAI（10-12分）

核心メッセージ: World Modelは「アクション付きの夢」。映画を見るのではなく、明晰夢の中で自分が物語を動かす。LLMが言語の構造を学ぶなら、World Modelは因果関係の構造を学ぶ。

Video ModelとWorld Modelの決定的な違い

介入できずにただ傍観している夢を見たことがありますか？ それがVideo Model。
明晰夢の中で物語を自由に形作れたことは？ それがWorld Model。

Video Model: P(x_{t+1} | x_t) — 「次のフレーム」を確率で予測
World Model: P(s_{t+1} | s_t, a_t) — 「行動」に応じて「次の状態」を予測
この**a_t（アクション）**が魔法。Sora/Veo 3は美しいが、中で行動して環境が応答することはない

なぜ「アクション」が究極の圧縮なのか

水たまりを避ける場面。脳は歩道・水たまり・バス・後ろの人を処理し、未来を予測し、選択肢を評価して「左に一歩」を選ぶ
外からは内部の思考は見えない。だが行動という出力だけで、その人の全計算が圧縮されている
何十億もの観察+行動データから、World Modelは個人より賢い集合的な判断を学ぶ
コンピュータにとって、アクションはシミュレーションコストを回避する裏技。人間の脳がLLMより遥かに効率的なら、人間がどう反応するかを観察するだけで、その計算をタダで手に入れられる

「夢の中で学習する」— 出発点

Ha & Schmidhuber (2018) "World Models": 現代World Model研究の出発点
- V（視覚: VAE）+ M（記憶: MDN-RNN）+ C（制御: 線形コントローラ）
- カーレースゲームで訓練 → 夢の中だけでエージェントを訓練 → 実環境に転移 → 成功
- 「夢は十分に現実的だった」
これは人間と同じ。野球の100mphの速球を打てるのは、脳の内部World Modelがボールの軌道を予測しているから

World Modelの3つの価値

代替訓練場: 危険すぎる/高コストな現実の代わりに夢で訓練
長期計画: チェスの数手先を読むように、行動の結果を「想像」してから決める
豊かな表現: 生ピクセルではなく「行動に関係する特徴」で世界を理解

話すポイント:

「夢の中で学習する」はSF的で面白い。マトリックスのネオがカンフーを学ぶのと同じ構造
2026年の最大の問い: 夢（シミュレーション）は現実に十分忠実か？ → Ai2 MolmoBotが「sim-to-real zero shot transfer is possible」と実証

PART 3: 主要プレイヤーの戦略マップ — 同じ目標、異なる道（10-12分）★メインパート

核心メッセージ: 全員の目標は「物理世界で動くエージェント」。だがアプローチは大きく3つに分かれる: Generative World Model vs Latent World Model vs VLA（Vision-Language-Action）。さらにその下に「踏み台」としてのLLM/Video Model/3D Reconstructionがある。

3つの違いを一言で: World Model（GenerativeもLatentも）は「まず世界のシミュレーターを作り、その中でエージェントを訓練する」。VLAは「世界のシミュレーターを作らず、LLMに目と手を付けて直接行動させる」。料理に例えると、World Modelは「まず自分のキッチン（仮想環境）を建てて、そこで何万回も練習してから本番に出る」アプローチ。VLAは「レシピ本（LLMの知識）を読み込んだシェフに、いきなり包丁（アクションヘッド）を持たせて現場に立たせる」アプローチ。World Modelは訓練に時間がかかるが汎化に強い。VLAは即戦力だが、レシピ本に載っていない状況に弱い。

まず整理: 「踏み台」になる既存モデルたち

カテゴリ	代表例	World Modelとの距離
LLM	GPT-5, Gemini, Claude	ガラスは押せば落ちると「知っている」が、体験していない。エージェントの推論backbone
Video Model	Sora 2, Veo 3, Runway Gen-4.5	美しい映像を生む。だが操作できない。映画を見るのと車を運転するのは根本的に違う
3D Reconstruction	World Labs / Marble	没入的な3D世界を生む。だがまだアクション条件付きではない

→ Fei-Fei LiのWorld Labsは「World Model企業」と思われがちだが、Not Boringの分析では現時点では3D Reconstruction寄り（Marbleは没入的だが行動条件付きではない）。ただし2025年10月に発表したRTFM（Real-Time Frame Model）で明確にフレーム直接生成へ転換。RTFMは明示的な3D表現（メッシュ/Gaussian Splat）を一切使わず、Autoregressive Diffusion Transformerが大規模動画データからend-to-endで「学習されたレンダラー」として反射・影まで再現する。H100 1枚でインタラクティブなフレームレートを維持し、posed frameを空間メモリとして使うことで世界が永続する（振り返っても消えない）。3D Reconstructionから出発しつつ、Generative World Modelへの移行を急速に進めている

Generative World Model — 「夢を映像として見る」

核心: 人間が観察できるインタラクティブな未来を映像/3Dで生成。行動すると環境が応答する
長所: 人間が見て「壁はこう曲がらない」と判断できる。イテレーション速度が速い。DIAMOND実証: 映像の詳細が増えるとエージェントが賢くなる
課題: ピクセル生成は計算コストが高い

プレイヤー	アプローチ	実績
General Intuition	ゲームクリップ+アクションラベルで学習。Diffusion/Flow-matching。IRIS/DIAMOND/GAIA-2の開発者が創業	$133.7Mシード。Medal（ゲーム動画プラットフォーム）のデータ資産
Wayve	自動運転特化。GAIA-1/2。500+都市の走行データ	$1.2B調達@$8.6B。日本の道路でゼロショット走行成功
Decart	リアルタイム生成シミュレーション（Oasis）	$100M@$3.1B
Runway	Video Model → World Modelへ進化中（GWM-1）	$315M@$5.3B
Google DeepMind / Genie 3	Veo上に構築。インタラクティブ3D世界	研究デモ
Comma.ai	World Model内で訓練したポリシーを実車に展開。世界初のWorld Model訓練消費者プロダクト	openpilotで実稼働

Latent World Model — 「ピクセルを捨て、本質だけ学ぶ」

核心: 映像を生成しない。抽象的な潜在空間で「意味」を予測する。MuZeroの延長線
LeCunの哲学: 「世界は予測不可能。ピクセルの全詳細を予測しようとするモデルは失敗する。JEPAは生成AIではない」
長所: 計算効率が高い。V-JEPA 2: 行動計画を数秒で実行（ピクセル生成は数分かかる）
課題: 人間が出力を見て直感的に判断できない。イテレーション速度が落ちる。学習時のcollapse問題

プレイヤー	アプローチ	実績
AMI Labs (LeCun)	JEPA。ピクセル予測を完全に拒否	$1.03B調達@$3.5B。Meta退社して設立
Moonlake (Manning, Goodfellow)	ハイブリッド: ゲームで人間データを集め、ピクセルを捨てて潜在空間で訓練	新設
Meta / V-JEPA 2	100万時間の動画で自己教師学習 → 62時間のロボットデータでfine-tune → ゼロショットでロボット制御成功	研究実証
Embo (Hafner)	DreamerV4。純粋に想像の中で訓練するエージェント	$100M調達中（報道）

VLA (Vision-Language-Action) — 「LLMのインフラに乗る」

核心: VLM（視覚言語モデル）に「アクションヘッド」を付ける。LLMの兆ドル規模のインフラをそのまま再利用
Physical Intelligenceの名言: 「完璧なアーキテクチャだから使っているのではない。人類がLLMインフラに何兆ドルも注ぎ込んだから使っている」
歴史的前例: Sara Hooker "The Hardware Lottery" (2020) — 技術的に優れたアイデアが勝つのではなく、既存のHW/SWに適合したものが勝つ。VHS vs Betamax（Betaの方が高画質だがVHSの長時間録画+レンタル店のネットワーク効果が勝利）、QWERTY配列（タイプライター時代の機械的制約で設計されたが、Dvorakの方が効率的でもインストールベースが覆せない）、x86 vs ARM（ARM の方が電力効率で優れていたが、x86の巨大なソフトウェア資産が数十年間参入障壁に。Apple Siliconでようやく崩れ始めた）。VLAはまさにこの賭け: World Modelの方がアーキテクチャ的に正しくても、LLMインフラの巨大な慣性に乗る方が実用的に勝つかもしれない
長所: 実用的。π₀ → π₀.5 → π*0.6と急速に進化。洗濯畳み、皿洗い、エスプレッソ作りまで
課題: 言語ファースト設計。物理動作はトークンにきれいにマッピングできない。分布外への汎化が弱い

プレイヤー	実績
Physical Intelligence (π)	$600M@$5.6B。π₀.6で経験から学習。記憶付きでキッチン全体を片付け
Skild	$1.4B@$14B（SoftBank主導、NVIDIA/Bezos/Samsung/LG/Sequoia等）。7ヶ月で評価額3倍。2025年ゼロから$30M ARRへ急成長。セキュリティ巡回・ラストマイル配送・倉庫・製造・データセンターで展開中
Google DeepMind / SIMA 2	Gemini backbone + World Model。ゲーム内で自律行動・推論・改善
Arda (元OpenAI Bob McGrew)	$70M@$700M。工場全体の自動化

3つのアプローチは収束するのか？

「VLAとWorld Modelは本当には競争していない。異なる方向から物理世界に到達しようとしている。VLAは言語ファースト、World Modelは映像+アクションファースト。おそらく収束し、両方が解の一部になる」— Packy McCormick

話すポイント:

Fei-Fei LiのWorld Labsは「World Model」と名乗っているが、厳密には3D Reconstruction寄り。ただし進化中
NVIDIAは全方位投資: Cosmos（オープンモデル）でGPU顧客を育成しつつ、World Labs/Wayve/Skildに出資
日本の起業家にとって: World Modelの「LangChain」はまだ存在しない → 標準API/ツールチェーンを作る企業が最大の空白地帯
- 具体的に不足しているもの: (1) World Model間の統一推論API（LLMのOpenAI API相当が存在しない）、(2) アクションラベル付きデータの標準フォーマット/変換パイプライン、(3) World Modelの評価ベンチマーク（WorldScore@ICCV 2025が初の試みだが普及していない）、(4) sim-to-real転移の検証フレームワーク

Ground Truthアクションデータの供給元 — World Modelの「石油」

全てのWorld Modelアプローチが同じ壁にぶつかる: アクションラベル付きデータが圧倒的に不足している。インターネット上の動画は膨大だが「その中で何が行われたか」のground truthがない。アクション推論（Inverse Dynamics Model等）で補えるが、エッジケースで破綻する。

データソース	供給者	規模	特徴
ゲームクリップ	General Intuition / Medal.tv	年10億+クリップ	キーボード/コントローラ入力がground truthとして記録される。情報完全（カメラ=プレイヤー視点）。Not Boringは「GitHubがコーディングAIにとってのデータだったように、Medalがembodied AIにとってのデータになる」と評価
自動運転走行データ	Wayve (500+都市), Waymo, Tesla, Comma.ai	PB級	ステアリング/ブレーキ/加速のground truth。最も商業的に成熟。ただしプロプライエタリで閉じている
ロボット遠隔操作	Open X-Embodiment (21機関), DROID (76K軌跡/350時間)	100万+軌跡	オープンだが規模が桁違いに小さい。ロボットデータは人間の労働に線形スケールするため収集コストが高い（今後2年で$3B+と推計）
シミュレーション生成	NVIDIA Omniverse, Ai2 MolmoBot	理論上無制限	合成データ。Ground truthだが「現実理解」の保証がない。sim-to-realギャップが課題
自己対話（self-play）	DeepMind (AlphaGo→MuZero), 各社RL	理論上無制限	環境が定義されていれば自動生成可能。ゲーム/シミュレーション向き

Medalの誕生はセレンディピティ: 創業者Pim De Witteは13歳でRuneScapeの私設サーバーを作り、そこから対戦ゲーム「Get Wrecked」を開発。プレイヤー不足を補うためにゲームクリップ共有機能を付けたら、ゲーム本体よりクリップ機能が先にバズった。Medalはもともと「ゲーマーが最高の瞬間を見せびらかす」SNSであり、World Model用のデータ基盤として設計されたわけではない。その後ユーザーの最大要望だった「キーボード/コントローラのオーバーレイ表示」を実装した結果、全クリップにアクションラベルが付く構造が副産物として完成した。NVIDIAがゲーム用GPUを作ったら深層学習のインフラになったのと同じパターン——World Modelの「石油」は、意図せず掘り当てられた

→ 最大のボトルネック: 現実世界のアクションラベル付きデータは「収集コストが人間労働に比例する」ため、LLMのテキストデータのようにインターネットからクロールできない。ゲーム（Medal）と自動運転（Wayve等）が現時点で最も豊富なground truthソース。ロボット領域はDROIDの350時間 vs LLMの数兆トークンで、データ量に数桁の差がある

PART 4: エージェントとの結合 — 夢で訓練し、現実で動く（8-10分）

核心メッセージ: World Modelの真の価値はエージェントとの結合にある。World Modelは「夢」、Agentは「夢見る者」。夢見る者が行動し、夢が応答し、夢見る者がまた行動する。

World Model + Agent = AGIへの道？

世界を予測できるシステムは、行動も速く学べる。理解と行動は別のスキルではなく、角度が違う同じスキル
NVIDIA Jim Fan: 「2026年はLarge World Modelsがロボティクスの真の基盤を築く最初の年になる」
Comma.ai: World Model内で訓練したドライビングポリシーをopenpilotに展開 → 世界初のWorld Model訓練消費者プロダクト

「Sim-to-Real」は本当に機能するのか？

Ai2 MolmoBot: 「シミュレーションのみで学習させたポリシーが、数千時間の実データで学習した最先端VLAを凌駕」
Wayve GAIA-3: 合成テスト棄却率を5分の1に削減
V-JEPA 2: 62時間のロボットデータだけでゼロショットのロボット制御
夢は十分に現実的になった。問いは「どこまで複雑なタスクに対応できるか」に移っている

データの壁: アクションラベルが全てを決める

全てのアプローチが同じ壁にぶつかる: より良いデータが必要
映像はインターネットに大量にあるが、「その映像の中で何が行われたか」のアクションラベルがない
アクション推論は可能だが、推定はエッジケースで破綻する（飛行機のラダー操作はコクピット映像から見えない。やらなければ墜落する）
地上真実（ground truth）のアクションデータが最も価値がある → ゲーム、自動運転、ロボット遠隔操作のデータが希少資産に

話すポイント:

マトリックスの比喩: ネオがカンフーを学ぶとき、仮想道場で訓練した。World Modelが仮想道場、Agentがネオ
「夢の中で学習できるか？」 — Ha & Schmidhuberが8年前に問い、2026年の答えは「Yes」

PART 5: 起業家・投資家が今問うべきこと（5-8分）

問い1: 「これはVideo Generationか、True World Modelか？」

Video Generation（Sora等）: 物理を「模倣」するが「理解」しない
True World Model: アクション条件付き。行動→結果のシミュレーション
投資判断: Video generation企業を「World Model企業」として評価するのは過大評価リスク

問い2: 「Generative / Latent / VLA、どのアプローチに賭けるか？」

収束する可能性が高い。だが今の段階ではポートフォリオの位置づけが重要
Hardware Lottery（Sara Hooker, 2020）: 技術的に優れたアイデアが勝つとは限らない。既存インフラに適合したものが勝つこともある
VLAはLLMインフラの恩恵。Latentは理論的に優れるが実用化が遠い。Generativeはバランス型

問い3: 「日本のどの資産が活用できるか？」

政府: 5年間1兆円AI支援。Physical AIが焦点
ロボティクス: 世界のロボット生産の約45%。製造業の3Dデータは希少性が高い
参入戦略: World Modelの「LangChain」を作る。ドメイン特化fine-tuning。データパイプライン

問い4: 「Thin Client vs Smart Edge」

LLMの3D生成は100-1000x重い → クラウドをさらに厚くする
だが自動運転（<10ms）、ロボット制御（<50ms）、VR/AR（<20ms）はエッジ必須
LLMのChatGPTの500ms遅延で誰も死なない。World Modelでは人が死ぬ
→ 「クラウド厚く + エッジにも知性」の二層構造。NVIDIAがデータセンター+Jetsonの両方に賭ける理由

CLOSING（3-5分）

まとめ:

World Modelの歴史: プラトンの洞窟（BC380）→ 荘子の蝶の夢 → マトリックス → Schmidhuber (1990) → Ha & Schmidhuber (2018) → 2026年、$5B+の資本投下
LLMは「ガラス玉遊戯」の住人。知識を操る天才だが、現実に触れていない
World Modelは「カステリアを去ったクネヒト」。混沌とした現実世界で、行動を通じて学ぶ
LLMの次は「言語 vs World Model」ではない。言語と行動が統合されたとき、何が起きるかが問い

Fei-Fei Liの言葉で締める:

「LLMは暗闇の中の言葉の達人。AIに光を与えるのが、私たちの仕事」

宿題: Marble / Genie 3 / Oasis、どれか一つ触ってみてください

バックアップ素材

4つのWave（World Model研究史）

Wave	時期	問い	代表
Wave 0	1990-91	World Modelとは何をするものか？	Schmidhuber, Sutton (Dyna)
Wave 1	2018-19	そもそも機能するのか？	Ha & Schmidhuber, SimPLe (Atari 100k)
Wave 2	2020-22	人間レベルに到達できるか？	DreamerV2, MuZero, IRIS, LeCun JEPA
Wave 3	2023-24	本当にインタラクティブにできるか？	GAIA-1, DIAMOND, Genie
Wave 4	2025-26	現実世界で動けるか？	Comma.ai, V-JEPA 2, SIMA 2, GAIA-2, π*0.6

Generative vs Latent の技術的な違い

Diffusion Model: 結果に向かって徐々に拡散。「ぼやけ」を避け、明確でもっともらしい未来をサンプリング
Autoregressive Model: トークンを順番に生成。前の予測と一貫した未来を保証
JEPA: ピクセル空間へのデコードを一切行わない。「ぼやけ」問題を根本的に回避。だが人間が出力を視認できず、collapse問題もある

推論コスト比較

指標	LLMテキスト生成	World Model 3D生成	倍率差
1回の生成コスト	$0.001-0.01	$0.12-1.20（Marble）	100-1000x
GPU時間	ミリ秒	秒〜分	1000x+
必要メモリ	数十GB	数百GB+（3D表現）	10x+

エッジ要件

ユースケース	許容レイテンシ	なぜエッジ必須か
自動運転	<10ms	120km/hで1ms=3cm。Cloud往復20-100msでは死ぬ
ロボット制御	<50ms	工場の奥や鉱山ではネットワーク不安定
VR/AR	<20ms	超えるとmotion sickness