KV Önbellek Yönlendirme: Gereksiz LLM Ön Doldurma İşini Kes

KV önbellek yönlendirmesi, LLM trafiğinizde tekrar eden istem ön ekleri sürekli olarak ortaya çıktığında önemlidir. Doğru istek doğru replikaya ulaştığında, sunucu motoru aynı ön doldurma belirteçlerini tekrar tekrar yeniden hesaplamak yerine önbelleğe alınmış dikkat durumunu yeniden kullanabilir.
Bu bir altyapı detayı gibi görünebilir, ancak hızla bir ürün sorunu haline gelir. Uzun sistem istemleri, RAG bağlamı, az örnekli örnekler ve çok dönüşlü sohbet geçmişi ön doldurma işlemini pahalı hale getirebilir. Her replik aynı ön eki yeniden hesapladığında, ekipler gecikme, GPU süresi ve kapasite planlaması açısından bedel öder.
ShareAI, geliştiricilere 150'den fazla model, pazar yeri görünürlüğü, yönlendirme ve hata toleransı için tek bir API sunar. KV önbellek yönlendirmesi bir katman daha aşağıda, model sunma altyapısının içinde yer alır. ShareAI okuyucuları için faydalı çıkarım basittir: yönlendirme kararları, model seçiminden tekrarlanan bir istemi hangi GPU replikasının işleyeceğine kadar AI yığınının her katmanında önemlidir.
KV Önbellek Yönlendirmesi Neden Önemlidir
LLM çıkarımı sırasında, bir model ön doldurma aşamasında giriş istemini ilk olarak işler. Daha sonra üretilen belirteçlerin zaten işlenmiş bağlama geri dönebilmesi için genellikle KV önbelleği olarak adlandırılan bir anahtar-değer önbelleği oluşturur.
Ön ek önbellekleme, daha sonraki bir istek istemin aynı başlangıcını paylaştığında sunucu motorlarının bu önbelleği yeniden kullanmasına olanak tanır. vLLM otomatik ön ek önbellekleme belgeleri bunu, paylaşılan ön ekler için KV önbelleğini yeniden kullanmak ve böylece yeni isteğin paylaşılan kısmın hesaplamasını atlamasını sağlamak olarak açıklar. SGLang ön ek önbellekleme ortak belirteç dizileri için KV önbelleğini paylaşmak için benzer bir fikir kullanır.
Bu, birçok isteğin aynı şekilde başladığı iş yükleri için özellikle önemlidir: büyük bir sistem istemine sahip destek temsilcileri, tekrar eden dokümantasyon parçalarını kullanan RAG uygulamaları, depo talimatlarıyla kodlama temsilcileri veya dönüşler arasında sohbet geçmişini taşıyan sohbet ürünleri.
Döngüsel Yük Dengelemenin Çöktüğü Yer
Ön ek önbellekleme bir replikada en kolaydır. Aynı işlem tekrarlanan ön eki görür ve bellek mevcutsa önbelleğini yeniden kullanabilir. Sorun, hizmet yatay olarak ölçeklendiğinde ortaya çıkar.
Standart bir döngüsel yük dengeleyici ile birinci istek replikada A üzerinde önbelleği ısıtabilirken, aynı ön eke sahip ikinci istek replikada B'ye ulaşır. Replika B, bu önbelleğe alınmış duruma sahip değildir, bu nedenle aynı ön doldurma işlemini yeniden hesaplar. Üçüncü istek replikada C'ye gidebilir ve yine kaçırabilir.
Replika sayısı arttıkça, basit yük dengeleme ilgili istekleri daha fazla makineye yayabilir. Model sunma filosu dengeli görünebilir, ancak ön ek önbellek isabet oranı düşer. KV önbellek yönlendirmesinin kapatmaya çalıştığı boşluk budur.
Üç Pratik Yönlendirme Seviyesi
1. Oturum Bağımlılığı
Oturum bağımlılığı, aynı kullanıcı, çalışma alanı, kiracı veya konuşmadan gelen trafiği aynı kopyaya yönlendirir. Çok aşamalı sohbet için başlamak için en basit yerdir çünkü takip istemleri genellikle önceki bağlamı paylaşır.
Dezavantajı, kullanıcı kimliğinin her zaman istem benzerliği ile aynı olmamasıdır. İki kullanıcı aynı uzun sistem istemini paylaşabilir ve yine de farklı kopyalara yönlendirilebilir. Oturum bağımlılığı, kopyalar eklenip çıkarıldığında da bozulabilir.
2. Ön Ek-Hash Yönlendirme
Ön ek-hash yönlendirme, istemin kendisini yönlendirme anahtarı olarak kullanır. Yönlendirici, istemin sabit başlangıcını hashler ve eşleşen ön ekleri aynı kopyaya gönderir.
Bu, tekrarlanan sistem istemleri, az örnekli örnekler veya paylaşılan alınan bağlamın kullanıcı kimliğinden daha önemli olduğu durumlarda daha iyi çalışır. Zor olan, ön ek sınırını seçmektir. Eğer hash bir zaman damgası, istek kimliği veya kullanıcıya özgü bir alan içeriyorsa, yönlendirme anahtarı parçalanır ve önbellek yeniden kullanımı bozulur.
3. Önbellek-Olay-Duyarlı Yönlendirme
En gelişmiş yaklaşım, hangi önbellek bloklarının hangi kopyada bulunduğunu izler, ardından her isteği yükü dikkate alarak en iyi önbellek örtüşmesine sahip kopyaya yönlendirir. llm-d yönlendirici projesi KV-önbellek yerelliğini, mevcut yükü ve önceliği dikkate alarak bir isteğin nereye gitmesi gerektiğini seçen bir uç nokta seçici tanımlar.
Bu daha karmaşıktır, ancak önbellek hatalarının ölçüldüğü, pahalı ve sık olduğu yüksek verimli filolar için doğru yöndür.
Ne Zaman Atlanmalı
KV önbellek yönlendirme otomatik olarak karmaşıklığa değmez. İstemler kısa, çoğunlukla benzersiz veya az tekrarlanan yapıya sahip gruplar halinde işlendiğinde zayıf bir uyum sağlar.
Belge özetleme, yaratıcı üretim, tek seferlik çıkarım ve birçok eşzamansız grup işi, önbellek-duyarlı yönlendirmeyi haklı çıkaracak kadar paylaşılan ön ek örtüşmesine sahip olmayabilir. Bu durumlarda, basit yük dengeleme daha temiz olabilir.
Pratik test ölçümdür: önbellek isabet oranı, ilk token süresi, verim, kuyruk derinliği, GPU bellek baskısı ve tamamlanan görev başına maliyet. Eğer önbellek farkındalıklı yönlendirme bu rakamları değiştirmiyorsa, önce istem yapısını düzeltin.
Bu, ShareAI ile Nasıl Uyum Sağlar
ShareAI, GPU kümenizin içindeki model sunma yük dengeleyicisi değil, bir yapay zeka pazarı ve API'dir. Geliştiriciler, ShareAI'yi kullanarak tek bir API üzerinden birçok modele erişir, pazar sinyallerini karşılaştırır, istekleri yönlendirir, kullanımı yönetir ve bir rota bozulduğunda yedekleme yapar.
Bu yine de KV önbellek yönlendirmesini alakalı kılar. Kendi çıkarım yığınınızı işletiyorsanız, daha iyi altyapı soruları sormanıza yardımcı olur. Barındırılan modelleri tüketiyorsanız, benzer model adlarına sahip iki rotanın gerçek iş yükleri altında neden farklı davranabileceğini değerlendirmenize yardımcı olur.
Yapıcılar için bu aynı zamanda fiyatlandırma ile bağlantılıdır. Uzun istemlere, tekrarlanan RAG bağlamına veya ajan döngülerine sahip bir uygulama çok dengesiz yapay zeka kullanımı yaratabilir. ShareAI Builder, uygulama sahiplerinin yapay zeka çıkarım trafiğini ShareAI üzerinden yönlendirmesine, bir marj veya ek ücret belirlemesine, müşterilerin yönlendirilmiş kullanım için ShareAI'ye ödeme yapmasına ve oluşturulan kullanım temelinde aylık ödemeler almasına olanak tanır. Uygulamanın kendisi ShareAI dışında inşa edilmiş olarak kalır.
Model seçimi ve rota değerlendirmesi için, şununla başlayın ShareAI model pazarından. Uygulama temelleri için, şunu kullanın ShareAI API referansı.
KV Önbellek Yönlendirme Kontrol Listesi
- Sabit istem içeriğini önce koyun: sistem istemi, araç kuralları, örnekler ve tekrarlanan bağlam.
- Dinamik alanları daha sonra taşıyın: zaman damgaları, istek kimlikleri, kullanıcıya özel bilgiler ve tek seferlik talimatlar.
- Yönlendirme değişikliklerinden önce ve sonra önbellek isabet oranını ölçün.
- İlk token süresini, verimi, kuyruk derinliğini ve VRAM baskısını birlikte izleyin.
- Önbellek olay farkındalıklı yönlendirme oluşturmadan önce önek-hash yönlendirme ile başlayın.
- Tek bir küresel politika zorlamak yerine yönlendirme kurallarını iş yüküne göre ayırın.
- Maliyeti ve gecikmeyi yalnızca çıkarım kümesi içinde değil, uygulama düzeyinde görünür tutun.
SSS
KV önbellek yönlendirme nedir?
KV önbellek yönlendirme, tekrarlayan istem ön ekleri içeren istekleri, eşleşen KV önbelleğini zaten tutma olasılığı yüksek olan replikalara gönderen bir yönlendirme stratejisidir. Amaç, gereksiz doldurma hesaplamasını azaltmaktır.
KV önbellek yönlendirme, ön ek önbelleklemeden nasıl farklıdır?
Ön ek önbellekleme, model sunma motorunun paylaşılan istem ön ekleri için önbelleğe alınmış durumu yeniden kullanma yeteneğidir. KV önbellek yönlendirme, eşleşen isteklerin önbelleğe alınmış durumun zaten mevcut olduğu yere ulaşmasına yardımcı olan trafik yerleştirme stratejisidir.
Neden döngüsel yönlendirme ön ek önbelleklemesine zarar verir?
Döngüsel yönlendirme, hangi replikada hangi önbelleğe alınmış ön ekin olduğunu bilmeden istekleri replikalar arasında yayar. Tekrarlanan bir istem, yalnızca farklı bir replikaya ulaştığı için önbelleği kaçırabilir.
Hangi iş yükleri KV önbellek yönlendirmeden en çok fayda sağlar?
Çok dönüşlü sohbet, RAG, kodlama ajanları, destek ajanları, az örnekli istemler ve uzun paylaşılan sistem istemleri içeren uygulamalar en güçlü adaylardır çünkü önemli miktarda istem ön ekini yeniden kullanırlar.
Bir ekip ne zaman KV önbellek yönlendirmeyi atlamalıdır?
İstemler kısa, çoğunlukla benzersiz veya az tekrarlanan yapıya sahip toplu odaklı olduğunda atlayın. Bu durumlarda, yönlendirme karmaşıklığı çok az değer katabilir.
vLLM ve SGLang ön ek önbelleklemesini destekliyor mu?
Evet. vLLM, otomatik ön ek önbelleklemesini belgeler ve SGLang, ortak belirteç dizileri arasında paylaşılan KV önbelleği için ön ek önbelleklemesini belgeler. Birden fazla replika söz konusu olduğunda sunma motorunun hala yönlendirme desteğine ihtiyacı vardır.
KV önbellek yönlendirme, anlamsal önbellekleme ile aynı mı?
Hayır. KV önbellek yönlendirme, çıkarım sunma içinde tam veya yapısal olarak benzer ön ek yeniden kullanım ile çalışır. Anlamsal önbellekleme, genellikle gömme veya benzerlik eşikleriyle anlam temelinde yanıtları veya ara sonuçları depolar ve yeniden kullanır.
ShareAI, KV önbellek farkındalığı olan bir yük dengeleyicinin yerini alıyor mu?
Hayır. ShareAI, model erişimi, yönlendirme, yedekleme, kullanım ve faturalandırma için AI pazarı ve API katmanıdır. KV-cache-aware yönlendirme, çıkarım replikalarını işleten ekipler için daha düşük seviyeli model sunma altyapısıdır.
Yapıcılar KV önbellek yönlendirmesini nasıl düşünmelidir?
Yapıcılar, önbellek davranışını AI ağırlıklı uygulamalardaki bir maliyet faktörü olarak ele almalıdır. Uygulamaları düzensiz bir kullanıma sahipse, ShareAI bu AI trafiğini yönlendirmeye ve gelir elde etmeye yardımcı olabilirken uygulama ShareAI dışında oluşturulmuş ve sahiplenilmiş olarak kalır.
Yönlendirmeyi değiştirmeden önce ekipler neyi ölçmelidir?
Önbellek isabet oranını, ilk token süresini, verimliliği, kuyruk derinliğini, VRAM baskısını, görev başına maliyeti ve çıktı kalitesini ölçün. Yönlendirme değişiklikleri sadece gösterge panelini değil, iş yükünü iyileştirmelidir.
KV önbellek yönlendirme AI API maliyetlerini azaltabilir mi?
Modelleri kendileri sunan ekipler için altyapı maliyetini azaltabilir çünkü daha az gereksiz doldurma işi GPU verimliliğini artırabilir. Barındırılan API'ler için, etki sağlayıcının bu tasarrufları fiyat veya performans olarak sunup sunmadığına bağlıdır.