コーディングエージェントの推論速度: TTFT 対スループット

AIコーディングの速度は簡単に単純化されがちです。チームはモデルやバックエンドについて、単に速いか遅いかのように話すことがよくありますが、実際のコーディングワークフローでは、速度を少なくとも2つの異なる質問に分けます:最初の有用なトークンがどれだけ早く到着するか、そして生成が進行中のときにシステムがどれだけの作業を維持できるか。.
最近のClineベンチマークでは、その分割が非常に明確に示されました。短い淘汰型タスクでは、クラウドバックエンドのセットアップが最速で開始したため勝利しました。より長い生の推論テストでは、ローカルのDGX Sparkセットアップが、同じモデルを重いメモリオフロードで実行しているコンシューマーGPUよりもはるかに強力な持続スループットを提供しました。コーディングエージェントをどこで実行するかを選ぶチームにとって、この違いは非常に重要です。.
簡単な比較:テスト結果
- クラウドバックエンドのMacセットアップは、短い「サンダードーム」タスクで1.04秒で勝利しました。.
- 同じベンチマークで、DGX Sparkは直接推論レースで42.9トークン/秒を記録しました。.
- RTX 4090セットアップは、重いRAMオフロードで8.7トークン/秒に達しました。.
- 直接推論レースのウォールタイムは、クラウドバックエンドのMacが5.11秒、DGX Sparkが21.83秒、4090ワークステーションが93.89秒でした。.
ハードウェアの詳細がその差を説明する助けになります。NVIDIAの DGX Sparkシステム概要 は、128 GBの統合メモリ設計を強調していますが、テストの4090マシンは24 GBのVRAMを持ち、120Bモデルの多くをシステムRAMにオフロードする必要がありました。それがワークロード全体の形状を変えます。.
短いレースでTTFTが勝利した理由
小さな逐次タスクでは、最初のトークンまでの時間(TTFT)が勝者を決定します。プロンプトを理解し、有効なコマンドを生成し、それを実行する最初のシステムが、他のシステムが追いつけないリードを得ます。短いClineテストでまさにそれが起こりました。.
クラウドインフラストラクチャはここで輝くことができます。バックエンドがすでに高速応答パスに最適化されているからです。ワークロードが主に短い分類、短いプロンプト、または最初の回答が長期的な結果よりも重要な小さなエージェントループである場合、低TTFTはより強力なローカルマシンを打ち負かすことができます。.
実際のコーディングセッションでスループットがより重要な理由
ほとんどのコーディングセッションは1秒のナイフファイトではありません。それらは、ファイル編集、ツール呼び出し、再試行、テスト実行、そして数百または数千の生成されたトークンを伴う長く混沌としたループです。そこで、持続的なスループットが、最初の爆発的な速度よりも重要になり始めます。.
1. 1秒あたり42.9トークンのDGX Sparkの結果は、大規模モデルが高速メモリに留まる場合に何が起こるかを示しています。対照的に、4090の結果は、モデルがローカルVRAMに収まりきらない場合にオフロードがどれほど高価になるかを示しています。同じモデルファミリーでも、メモリレイアウトによって、単なるGPUブランドや価格以上に大きく異なる感触を与えることがあります。.
2. ローカルスタックを使用する場合、 3. Ollamaのドキュメント 4. は、チームがローカルおよびクラウド対応のモデルエンドポイントを互換性のある方法で公開する方法についての良い参考資料です。重要な教訓は、どのツールを選ぶかではありません。モデルサイズ、メモリ適合性、ネットワークトポロジーが、単一のベンチマーク見出しが示唆する以上にユーザー体験を大きく変えるということです。.
5. モデルサイズが経済性を変える
6. Clineの比較は120Bモデルを中心に行われ、これは消費者向けハードウェアを非常に異なる領域に押し込みます。一度モデルが高速メモリから溢れると、コストは単なるトークンだけではなくなります。遅延、キューイング、開発者の忍耐力にもコストがかかります。.
7. それが、ローカル対クラウドの選択が純粋にイデオロギー的なものになることが稀である理由です。クラウドは利便性と迅速な起動で勝ることができます。大規模なローカルシステムは、プライバシー、予測可能な限界コスト、持続的なスループットで勝ることができます。消費者向けハードウェアも依然として適切な選択肢となり得ますが、それはしばしば小規模なモデルがきれいに収まる場合です。.
ShareAIの位置付け
8. ShareAIは、最適な答えが永遠に1つのバックエンドではない場合に役立ちます。 9. 1つのAPIで150以上のモデルを通じて, 10. 、ジョブに基づいてモデルやプロバイダーを変更しながら、コーディングワークフローを安定させることができます。これは、あるタスクが低TTFTを好み、別のタスクがより強力な持続的出力や異なる価格設定を好む場合に役立ちます。.
11. ShareAIのドキュメント 12. を使用して、そのルーティングレイヤーをシンプルに保つことができます。プロバイダーやモデルを比較するたびに統合を再構築する代わりに、エージェントを1つのAPIに向けたままにして、その下でより賢明なバックエンドの決定を行うことができます。 と APIクイックスタート 13. 適切なスタックを選ぶ方法.
14. 最初の答えが最も重要で、セットアップ速度がローカル制御よりも重要な場合は、クラウドファーストを選択してください。
- 最初の答えが最も重要で、セットアップの速度がローカル制御よりも重要な場合は、クラウドファーストを選択してください。.
- プライバシー、予測可能なコスト、大規模モデルでの強力な持続的スループットが必要な場合は、高メモリのローカルハードウェアを選択してください。.
- コンシューマー向けGPUを慎重に選び、モデルサイズに適したものを選択してください。.
- ワークフローを再構築せずにプロバイダーを比較、ルーティング、変更したい場合は、ShareAIのような抽象化レイヤーを選択してください。.
次のステップ
コーディングエージェントの推論速度を評価する場合、単一のヘッドライン数値で評価を終わらせないでください。初期応答、持続的生成速度、チームにとって重要な運用上のトレードオフを測定してください。その後、優先順位の変化に応じて適応できるルーティングレイヤーを選択してください。.