编码代理的推理速度：TTFT 与吞吐量

此页面中的简体中文是使用 TranslateGemma 从英文自动翻译的。翻译可能不完全准确。.

在人工智能编码中，速度很容易被过于简化。团队通常谈论一个模型或后端时，会将其简单地归类为快或慢，但实际的编码工作流程将速度分为至少两个不同的问题：第一个有用的标记到达的速度，以及系统在生成开始后能够持续处理的工作量。.

最近的Cline基准测试使这种区分非常明显。在一个短暂的淘汰式任务中，云支持的设置获胜，因为它启动最快。在一个较长的原始推理测试中，本地的DGX Spark设置提供了比运行相同模型并进行大量内存卸载的消费者GPU更强的持续吞吐量。对于选择在哪里运行编码代理的团队来说，这种区别非常重要。.

快速比较：测试结果显示

云支持的Mac设置在短暂的“Thunderdome”任务中以1.04秒获胜。.
同一基准测试测得DGX Spark在直接推理竞赛中达到42.9个标记每秒。.
RTX 4090设置在进行大量RAM卸载时达到8.7个标记每秒。.
在直接推理竞赛中的墙时间为云支持的Mac 5.11秒，DGX Spark 21.83秒，以及4090工作站93.89秒。.

硬件细节帮助解释了差距。NVIDIA的 DGX Spark系统概述突出了其128 GB统一内存设计，而测试中的4090机器只有24 GB的显存，并且必须将一个120B模型的大部分卸载到系统RAM中。这改变了整个工作负载的形态。.

为什么TTFT赢得了短暂的比赛

在一个微小的顺序任务中，首次标记时间决定了胜者。第一个理解提示、生成有效命令并执行的系统获得了一个领先优势，其他系统可能永远无法追赶。这正是短暂的Cline测试中发生的情况。.

云基础设施在这里可以表现出色，因为后端已经针对快速响应路径进行了优化。如果您的工作负载主要是快速分类、短提示或首次答案比长期运行更重要的小型代理循环，低TTFT可以击败更强大的本地机器。.

为什么在实际编码会话中吞吐量更重要

大多数编码会话不是一秒钟的刀战。它们是长时间的、混乱的循环，包括文件编辑、工具调用、重试、测试运行以及生成数百或数千个标记。在这种情况下，持续吞吐量开始比初始爆发更重要。.

每秒42.9个token，DGX Spark的结果展示了当大型模型能够保持在快速内存中时会发生什么。相比之下，4090的结果显示，当模型过大无法适应本地VRAM时，卸载的成本会变得多么昂贵。同一模型家族在内存布局不同的情况下可能会有截然不同的表现，而不仅仅是GPU品牌或价格的差异。.

如果您使用本地堆栈， Ollama文档是一个很好的参考，展示了团队如何以兼容的方式公开本地和云支持的模型端点。重要的教训不是选择哪个工具，而是模型大小、内存适配和网络拓扑对用户体验的影响远远超过单一基准测试标题所暗示的。.

模型大小改变了经济学

Cline的比较集中在一个120B的模型上，这将消费者硬件推向了一个截然不同的领域。一旦模型溢出快速内存，您的成本不仅仅是token。您还需要为延迟、排队和开发者耐心付出代价。.

这就是为什么本地与云之间的选择很少是纯粹的意识形态问题。云可以在便利性和快速启动方面获胜。大型本地系统可以在隐私、可预测的边际成本和持续吞吐量方面获胜。消费者硬件仍然可能是正确的选择，但通常适用于能够干净适配的小型模型。.

ShareAI 的定位

当最佳答案不是一个永久的后端时，ShareAI可以提供帮助。通过一个API支持150+模型, ，您可以在更改模型或提供商以适应任务的同时保持编码工作流程的稳定性。这在一个任务偏向低TTFT而另一个任务偏向更强的持续输出或不同定价时非常有用。.

您可以使用 ShareAI文档和 API快速入门来保持路由层的简单性。与其每次想比较提供商或模型时重写集成，不如将代理指向一个API，并在其下做出更智能的后端决策。.

如何选择正确的堆栈

当第一个答案最重要且设置速度比本地控制更重要时，请选择云优先。.
当您需要隐私、可预测的成本以及对大型模型的强持续吞吐量时，请选择高内存的本地硬件。.
仔细选择消费级GPU，并将其与适合的模型大小匹配。.
当您希望在不重建工作流程的情况下比较、路由和更换供应商时，请选择像ShareAI这样的抽象层。.

下一步

如果您正在评估编码代理的推理速度，不要仅仅停留在一个头条数字上。测量初始响应、持续生成速率以及对您的团队重要的操作权衡。然后选择一个路由层，使您能够随着这些优先事项的变化进行调整。.

本文属于以下类别：洞察, 开发者

探索 AI 模型

比较不同提供商的价格、延迟和可用性。.

浏览模型

集成多个AI API：团队耗时和预算的6个错误

多供应商AI集成中导致脆弱、昂贵且困难的六大错误实用指南 …

什么是AI网关？它如何工作以及ShareAI的作用

AI网关帮助团队路由模型流量、减少供应商锁定并提高可见性。以下是具体方法……

发表回复取消回复

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理。

探索 AI 模型

比较不同提供商的价格、延迟和可用性。.

浏览模型

编码代理的推理速度：TTFT 与吞吐量

快速比较：测试结果显示

为什么TTFT赢得了短暂的比赛

为什么在实际编码会话中吞吐量更重要

模型大小改变了经济学

ShareAI 的定位

如何选择正确的堆栈

下一步

探索 AI 模型

相关文章

集成多个AI API：团队耗时和预算的6个错误

什么是AI网关？它如何工作以及ShareAI的作用

发表回复取消回复

探索 AI 模型

目录

编码代理的推理速度：TTFT 与吞吐量

快速比较：测试结果显示

为什么TTFT赢得了短暂的比赛

为什么在实际编码会话中吞吐量更重要

模型大小改变了经济学

ShareAI 的定位

如何选择正确的堆栈

下一步

探索 AI 模型

相关文章

集成多个AI API：团队耗时和预算的6个错误

什么是AI网关？它如何工作以及ShareAI的作用

发表回复 取消回复

探索 AI 模型

目录

开始您的AI之旅

发表回复取消回复