VRAM 8GBの限界に挑む:20人のAIエージェントがひしめくボクセル世界
「ローカルLLMで、一体何人までエージェントを同時に動かせるのか?」
今回の実験テーマはシンプル。私の愛機(RTX 3060 Ti / 8GB VRAM)をどこまで追い込めるか、その限界に挑戦しました。結果は、驚くべきことに **「20人体制」** でも安定した稼働を見せました。
1. 実験の舞台:Voxel AI Lab
ボクセルで構成された 30x30 の浮島。ここに、自律的に考え、歩き、他者と対話する AI エージェントを投入しました。頭脳には Llama 3 (8B) を採用。Ollama を通じて、毎ステップごとにエージェント一人一人が「次の行動」を JSON で生成します。
- GPU: NVIDIA GeForce RTX 3060 Ti (8GB VRAM)
- Model: Llama 3 (8B) - 4-bit Quantized
- Logic: FastAPI + Three.js
2. 衝突から生まれる「社会性」
ただ歩くだけではありません。エージェント同士が 1.0 ボクセル以内に接近すると 「衝突(Collision)」 が発生します。この時、AI
の知覚情報(Perception)には collision_detected: true という信号が送られます。
ルールは一つ:「ぶつかったら、相手に挨拶せよ」。
10人、20人と密度が上がるにつれ、あちこちで「Hello!」「Oops, sorry!」といった吹き出しが飛び交う様子は、まさにデジタルな生態系のようでした。
3. パフォーマンス・ベンチマーク
最も懸念していたのは、人数の増加に伴う推論速度の低下(VRAM 溢れによるスワップ)です。しかし、計測データは驚くべき結果を示しました。
| エージェント数 | 1人あたりの推論時間 | 1ターンの周期 | 安定性 |
|---|---|---|---|
| 5人 | 約 4.6秒 | 約 23秒 | 完璧 |
| 10人 | 約 4.7秒 | 约 47秒 | 安定 |
| 20人 | 約 4.8秒 | 約 96秒 | 驚異の安定 |
推論を並列(同時)ではなく逐次(順番)に行っているため、一度にロードされるモデルは一つで済み、人数を増やしても 1 人あたりの思考時間はほとんど変化しませんでした。8GB VRAM でも、1分40秒待てるなら 20 人の AI 社会を維持できるのです。
4. 結論:ローカルLLMの可能性
今回の実験で、コンシューマ向け GPU であっても、十分に複雑なマルチエージェント・シミュレーションが可能であることが実証されました。
「待ち時間」という課題はありますが、それは非同期処理や軽量モデルの導入で解決可能な範囲です。次は、この 20 人の AI たちに「家を建てさせる」テストでもしてみようかと思います。
