KV கேஷ் வழிமாற்றல்: மீளுமையான LLM முன்னோட்ட வேலைகளை குறைக்கவும்

உங்கள் LLM டிராஃபிக் முழுவதும் மீண்டும் மீண்டும் ப்ராம்ப்ட் முன்னோடிகள் தோன்றும் போது KV கேஷ் ரவுடிங் முக்கியமானது. சரியான கோரிக்கை சரியான பிரதியில் வந்தால், சேவை இயந்திரம் மீண்டும் மீண்டும் அதே ப்ரீபில் டோக்கன்களை மீண்டும் கணக்கிடுவதற்குப் பதிலாக கேஷ் செய்யப்பட்ட கவன நிலையை மீண்டும் பயன்படுத்த முடியும்.
அது ஒரு உள்கட்டமைப்பு விவரமாகத் தோன்றுகிறது, ஆனால் அது விரைவில் ஒரு தயாரிப்பு பிரச்சினையாக மாறுகிறது. நீண்ட சிஸ்டம் ப்ராம்ப்ட்கள், RAG சூழல், சில-ஷாட் எடுத்துக்காட்டுகள் மற்றும் பல முறை உரையாடல் வரலாறு ப்ரீபில் வேலை செலவாகும். ஒவ்வொரு பிரதியும் அதே முன்னோடியை மீண்டும் கணக்கிடும் போது, குழுக்கள் தாமதம், GPU நேரம் மற்றும் திறன் திட்டமிடலில் செலவிடுகின்றன.
ShareAI டெவலப்பர்களுக்கு 150+ மாடல்களுக்கு ஒரு API, சந்தை காட்சி, ரவுடிங் மற்றும் பிழைதிருத்தத்தை வழங்குகிறது. KV கேஷ் ரவுடிங் ஒரு அடுக்கு கீழே, மாடல்-சேவை உள்கட்டமைப்புக்குள் அமர்ந்துள்ளது. ShareAI வாசகர்களுக்கு பயனுள்ள எடுத்துக்காட்டாக எளிமையாக உள்ளது: AI ஸ்டாக்கின் ஒவ்வொரு அடுக்கிலும், மாடல் தேர்விலிருந்து மீண்டும் ப்ராம்ப்ட் நடத்தும் GPU பிரதிக்கு வரை, ரவுடிங் முடிவுகள் முக்கியமானவை.
ஏன் KV கேஷ் ரவுடிங் முக்கியமானது
LLM முன்னறிவிப்பு போது, ஒரு மாடல் முதலில் ப்ரீபில் கட்டத்தில் உள்ளீட்டு ப்ராம்ப்டை செயலாக்குகிறது. இது ஒரு கீ-வால்யூ கேஷ் உருவாக்குகிறது, பொதுவாக KV கேஷ் என்று அழைக்கப்படுகிறது, எனவே பின்னர் உருவாக்கப்பட்ட டோக்கன்கள் ஏற்கனவே செயலாக்கப்பட்ட சூழலுக்கு திரும்ப கவனம் செலுத்த முடியும்.
முன்னோடி கேஷிங் சேவை இயந்திரங்களுக்கு ப்ராம்ப்டின் அதே தொடக்கத்தைப் பகிரும் பின்னர் கோரிக்கையில் அந்த கேஷை மீண்டும் பயன்படுத்த அனுமதிக்கிறது. vLLM தானியங்கி முன்னோடி கேஷிங் ஆவணம் பகிரப்பட்ட முன்னோடிகளுக்கான KV கேஷை மீண்டும் பயன்படுத்துவது என விவரிக்கிறது, எனவே புதிய கோரிக்கை பகிரப்பட்ட பகுதியின் கணக்கீட்டை தவிர்க்க முடியும். SGLang முன்னோடி கேஷிங் பொதுவான டோக்கன் வரிசைகளுக்கான KV கேஷை பகிர்வதற்கான தொடர்புடைய யோசனையைப் பயன்படுத்துகிறது.
இது பல கோரிக்கைகள் ஒரே வழியில் தொடங்கும் வேலைப்பாடுகளுக்கு மிகவும் முக்கியமானது: பெரிய சிஸ்டம் ப்ராம்ப்டுடன் ஆதரவு முகவர்கள், மீண்டும் மீண்டும் ஆவண துண்டுகளைப் பயன்படுத்தும் RAG பயன்பாடுகள், ரெப்போசிடரி வழிகாட்டுதல்களுடன் குறியீட்டு முகவர்கள் அல்லது முறைமுறை உரையாடல் வரலாற்றை தாங்கும் உரையாடல் தயாரிப்புகள்.
ரவுண்ட்-ரோபின் எங்கு முறைகேடாகிறது
முன்னோடி கேஷிங் ஒரு பிரதியில் எளிதானது. அதே செயல்முறை மீண்டும் மீண்டும் முன்னோடியைப் பார்க்கிறது மற்றும் நினைவகம் கிடைத்தால் அதன் கேஷை மீண்டும் பயன்படுத்த முடியும். சேவை குவியலாகும் போது பிரச்சினை தோன்றுகிறது.
ஒரு நிலையான ரவுண்ட்-ரோபின் சுமை சமநிலையாக்கியுடன், கோரிக்கை ஒன்று பிரதியில் A-ல் கேஷை சூடாக்கலாம், அதே முன்னோடியுடன் கோரிக்கை இரண்டு பிரதியில் B-ல் வரும் போது. பிரதியில் B அந்த கேஷ் நிலையை வைத்திருக்காது, எனவே அது அதே ப்ரீபில் வேலை மீண்டும் கணக்கிடுகிறது. கோரிக்கை மூன்று பிரதியில் C-க்கு செல்லலாம் மற்றும் மீண்டும் தவறிவிடலாம்.
பிரதிகளின் எண்ணிக்கை அதிகரிக்கும்போது, சிக்கலான சுமை சமநிலையாக்கம் தொடர்புடைய கோரிக்கைகளை மேலும் பல இயந்திரங்களில் பரப்பலாம். மாடல்-சேவை கப்பல் சமநிலையாகத் தோன்றலாம், ஆனால் முன்னோடி கேஷ் ஹிட் வீதம் குறைகிறது. KV கேஷ் ரவுடிங் மூட முயற்சிக்கும் இடைவெளி இதுதான்.
மூன்று நடைமுறை வழிமாற்று நிலைகள்
1. அமர்வு சார்பு
அமர்வு சார்பு ஒரே பயனர், வேலைநிலையம், வாடகையாளர் அல்லது உரையாடலிலிருந்து போக்குவரத்தை ஒரே பிரதிக்கு வழிமாற்றுகிறது. இது பல முறை உரையாடலுக்கான எளிய தொடக்கமாகும், ஏனெனில் தொடர்ச்சியான உந்துதல்கள் முந்தைய சூழலைப் பகிர்ந்து கொள்ளும்.
சமரசம் என்னவென்றால், பயனர் அடையாளம் எப்போதும் உந்துதல் ஒற்றுமையுடன் ஒரே மாதிரியானதாக இருக்காது. இரண்டு பயனர்கள் ஒரே நீண்ட அமைப்பு உந்துதலைப் பகிர்ந்து கொண்டாலும், வெவ்வேறு பிரதிகளுக்கு வழிமாற்றப்படலாம். பிரதிகள் சேர்க்கப்பட்டால் அல்லது நீக்கப்பட்டால் அமர்வு சார்பு குழப்பமடையும்.
2. முன்னோட்ட-ஹாஷ் வழிமாற்று
முன்னோட்ட-ஹாஷ் வழிமாற்று உந்துதலையே வழிமாற்று விசையாகப் பயன்படுத்துகிறது. வழிமாற்றி உந்துதலின் நிலையான தொடக்கத்தை ஹாஷ் செய்து, பொருந்தும் முன்னோட்டங்களை ஒரே பிரதிக்கு அனுப்புகிறது.
இது மீண்டும் மீண்டும் வரும் அமைப்பு உந்துதல்கள், சில-காட்சி எடுத்துக்காட்டுகள் அல்லது பகிரப்பட்ட மீட்டெடுக்கப்பட்ட சூழல் பயனர் அடையாளத்தை விட முக்கியமானதாக இருக்கும் போது சிறப்பாக செயல்படும். கடினமான பகுதி முன்னோட்ட எல்லையைத் தேர்ந்தெடுப்பது. ஹாஷ் ஒரு நேரக்குறிப்பு, கோரிக்கை ஐடி அல்லது பயனர்-குறிப்பிட்ட புலத்தை உள்ளடக்கியால், வழிமாற்று விசை துண்டுகளாகி, கேஷ் மீண்டும் பயன்படுத்துதல் சிதைந்து விடும்.
3. கேஷ்-நிகழ்வு-அறிந்த வழிமாற்று
மிகவும் மேம்பட்ட அணுகுமுறை எந்த பிரதியில் எந்த கேஷ் தொகுதிகள் இருப்பதை கண்காணித்து, சுமையைப் பொருத்தும் போது கூட சிறந்த கேஷ் ஒத்திசைவை கொண்ட பிரதிக்கு ஒவ்வொரு கோரிக்கையையும் வழிமாற்றுகிறது. llm-d வழிமாற்றி திட்டம் KV-கேஷ் உள்ளூர், தற்போதைய சுமை மற்றும் முன்னுரிமையைப் பொருத்தி எந்த கோரிக்கை செல்ல வேண்டும் என்பதைத் தேர்ந்தெடுக்கும் ஒரு முடிவுநிலை தேர்வாளரை விவரிக்கிறது.
இது மிகவும் சிக்கலானது, ஆனால் கேஷ் தவறுகள் அளவிடப்பட்ட, செலவான மற்றும் அடிக்கடி நிகழும் உயர்-திறன் படைகளுக்கு சரியான திசையாகும்.
அதைத் தவிர்க்க வேண்டிய நேரம்
KV கேஷ் வழிமாற்று தானாகவே சிக்கலுக்காக மதிப்பில்லாது. உந்துதல்கள் குறுகியவை, பெரும்பாலும் தனித்துவமானவை அல்லது குறைந்த மீண்டும் மீண்டும் அமைப்புடன் தொகுதிகளில் செயலாக்கப்படும்போது இது பலவீனமாக பொருந்தும்.
ஆவண சுருக்கம், படைப்பாற்றல் உருவாக்கம், ஒரே முறை எடுக்கும் மற்றும் பல அசிங்கக்தமான தொகுதி வேலைகள் கேஷ்-அறிந்த வழிமாற்றை நியாயப்படுத்த போதுமான பகிரப்பட்ட முன்னோட்ட ஒத்திசைவை கொண்டிருக்காது. அந்த சந்தர்ப்பங்களில், சாதாரண சுமை சமநிலை சுத்தமாக இருக்கலாம்.
நடைமுறை சோதனை அளவீடு: கேஷ் ஹிட் வீதம், முதல் டோக்கனுக்கு எடுத்துக்கொள்ளும் நேரம், தளவாடம், வரிசை ஆழம், GPU நினைவக அழுத்தம், மற்றும் முடிக்கப்பட்ட பணிக்கு செலவு. கேஷ்-அறிந்த வழிமாற்றம் அந்த எண்ணிக்கைகளை மாற்றவில்லை என்றால், முதலில் ப்ராம்ப்ட் அமைப்பை சரிசெய்யவும்.
இது ShareAI உடன் எப்படி பொருந்துகிறது
ShareAI என்பது ஒரு AI சந்தை மற்றும் API ஆகும், உங்கள் GPU கிளஸ்டருக்குள் உள்ள மாடல்-சேவை சுமை சமநிலையாக்கி அல்ல. டெவலப்பர்கள் ShareAI ஐ பயன்படுத்தி பல மாடல்களை ஒரு API மூலம் அணுகுகிறார்கள், சந்தை சிக்னல்களை ஒப்பிடுகிறார்கள், கோரிக்கைகளை வழிமாற்றுகிறார்கள், பயன்பாட்டை நிர்வகிக்கிறார்கள், மற்றும் ஒரு வழி குறைவடைந்தால் மாற்று வழியைப் பயன்படுத்துகிறார்கள்.
இது இன்னும் KV கேஷ் வழிமாற்றத்தை பொருத்தமாக்குகிறது. நீங்கள் உங்கள் சொந்த முன்னறிவிப்பு குவியலை இயக்கினால், இது உங்களுக்கு சிறந்த உள்கட்டமைப்பு கேள்விகளை கேட்க உதவுகிறது. நீங்கள் ஹோஸ்டட் மாடல்களைப் பயன்படுத்தினால், இது ஒரே மாதிரியான மாடல் பெயர்களுடன் இரண்டு வழிகள் உண்மையான வேலைச்சுமைகளின் கீழ் ஏன் வேறுபடுகின்றன என்பதை மதிப்பீடு செய்ய உதவுகிறது.
கட்டுமானத்திற்கானவர்கள், இது விலைக்கான தொடர்பையும் கொண்டுள்ளது. நீண்ட ப்ராம்ப்ட்கள், மீண்டும் மீண்டும் RAG சூழல், அல்லது முகவர் மடக்கங்கள் கொண்ட ஒரு பயன்பாடு மிகவும் சமமற்ற AI பயன்பாட்டை உருவாக்கலாம். ShareAI Builder பயன்பாட்டு உரிமையாளர்களை ShareAI வழியாக AI முன்னறிவிப்பு போக்குவரத்தை வழிமாற்ற அனுமதிக்கிறது, ஒரு மாறுதல் அல்லது கூடுதல் கட்டணத்தை அமைக்கிறது, வழிமாற்றப்பட்ட பயன்பாட்டிற்காக ShareAI ஐ வாடிக்கையாளர்கள் செலுத்த அனுமதிக்கிறது, மற்றும் உருவாக்கப்பட்ட பயன்பாட்டின் அடிப்படையில் மாதாந்திர கட்டணங்களைப் பெறுகிறது. பயன்பாடு தானாகவே ShareAI க்கு வெளியே கட்டமைக்கப்படுகிறது.
மாடல் தேர்வு மற்றும் வழி மதிப்பீட்டிற்காக, இதிலிருந்து தொடங்கவும் ShareAI மாதிரி சந்தை. செயல்படுத்தல் அடிப்படைகளுக்காக, இதைப் பயன்படுத்தவும் ShareAI API குறிப்பு.
KV கேஷ் வழிமாற்ற சோதனைப்பட்டியல்
- நிலையான ப்ராம்ப்ட் உள்ளடக்கத்தை முதலில் வைக்கவும்: அமைப்பு ப்ராம்ப்ட், கருவி விதிகள், எடுத்துக்காட்டுகள், மற்றும் மீண்டும் மீண்டும் வரும் சூழல்.
- மாறும் புலங்களை பின்னர் நகர்த்தவும்: நேரக்குறிப்புகள், கோரிக்கை ஐடிகள், பயனர்-சிறப்பு உண்மைகள், மற்றும் ஒருமுறை வழங்கப்படும் வழிமுறைகள்.
- வழிமாற்ற மாற்றங்களுக்கு முன்பும் பிறகும் கேஷ் ஹிட் வீதத்தை அளவிடவும்.
- முதல் டோக்கனுக்கு எடுத்துக்கொள்ளும் நேரம், தளவாடம், வரிசை ஆழம், மற்றும் VRAM அழுத்தத்தை ஒன்றாக கவனிக்கவும்.
- கேஷ்-நிகழ்வு-அறிந்த வழிமாற்றத்தை உருவாக்குவதற்கு முன் முன்னுரையுடன் ஹாஷ் வழிமாற்றத்துடன் தொடங்கவும்.
- ஒரு உலகளாவிய கொள்கையை கட்டாயமாக்குவதற்கு பதிலாக வேலைச்சுமை மூலம் வழிமாற்ற விதிகளைப் பிரிக்கவும்.
- செலவு மற்றும் தாமதத்தை பயன்பாட்டு நிலையில் காட்சிப்படுத்தவும், முன்னறிவிப்பு குவியலுக்குள் மட்டுமல்ல.
கேள்விகள் மற்றும் பதில்கள்
KV கேஷ் ரவுடிங் என்றால் என்ன?
KV கேஷ் ரவுடிங் என்பது ஒரு ரவுடிங் உத்தி ஆகும், இது மீண்டும் மீண்டும் வரும் ப்ராம்ப்ட் முன்னொட்டுகளுடன் கூடிய கோரிக்கைகளை ஏற்கனவே பொருந்தும் KV கேஷ் வைத்திருக்கும் பிரதிகளுக்கு அனுப்புகிறது. இதன் நோக்கம் மீள்முறை நிரப்பல் கணக்கீட்டை குறைப்பதாகும்.
KV கேஷ் ரவுடிங் முன்னொட்டு கேஷிங்கிலிருந்து எப்படி மாறுபடுகிறது?
முன்னொட்டு கேஷிங் என்பது பகிரப்பட்ட ப்ராம்ப்ட் முன்னொட்டுகளுக்கான கேஷ் செய்யப்பட்ட நிலையை மீண்டும் பயன்படுத்த மாடல்-சேவை இயந்திரத்தின் திறன் ஆகும். KV கேஷ் ரவுடிங் என்பது பொருந்தும் கோரிக்கைகள் ஏற்கனவே அந்த கேஷ் செய்யப்பட்ட நிலை உள்ள இடத்தில் தரையிறங்க உதவும் ட்ராஃபிக்-பிளேஸ்மென்ட் உத்தியாகும்.
சுற்றி-சுற்றி ரவுடிங் முன்னொட்டு கேஷிங்கை எப்படி பாதிக்கிறது?
சுற்றி-சுற்றி ரவுடிங் கோரிக்கைகளை எந்த பிரதியில் எந்த கேஷ் செய்யப்பட்ட முன்னொட்டு உள்ளது என்பதை அறியாமல் பிரதிகளுக்கு பரவச் செய்கிறது. மீண்டும் வரும் ப்ராம்ப்ட் வெவ்வேறு பிரதியில் தரையிறங்குவதால் கேஷ் தவறவிடலாம்.
எந்த வேலைப்பாடுகள் KV கேஷ் ரவுடிங்கில் அதிகமாக பயனடைகின்றன?
பல முறை உரையாடல், RAG, குறியீட்டு முகவர்கள், ஆதரவு முகவர்கள், சில-ஷாட் ப்ராம்ப்டிங், மற்றும் நீண்ட பகிரப்பட்ட சிஸ்டம் ப்ராம்ப்ட்களுடன் கூடிய செயலிகள் ஆகியவை அதிக அளவில் ப்ராம்ப்ட் முன்னொட்டுகளை மீண்டும் பயன்படுத்துவதால் மிகச் சிறந்த வேட்பாளர்களாக உள்ளன.
ஒரு குழு KV கேஷ் ரவுடிங்கை எப்போது தவிர்க்க வேண்டும்?
ப்ராம்ப்ட்கள் குறுகியவை, பெரும்பாலும் தனித்துவமானவை, அல்லது மீண்டும் வரும் அமைப்புகள் குறைவாக உள்ள தொகுதி சார்ந்தவை என்றால் அதை தவிர்க்கவும். அந்த சந்தர்ப்பங்களில், ரவுடிங் சிக்கலானது மிகக் குறைவான மதிப்பை வழங்கலாம்.
vLLM மற்றும் SGLang முன்னொட்டு கேஷிங்கை ஆதரிக்கிறதா?
ஆம். vLLM ஆவணங்கள் தானியங்கி முன்னொட்டு கேஷிங்கை ஆவணமாக்குகிறது, மற்றும் SGLang பொதுவான டோக்கன் வரிசைகளுக்கு பகிரப்பட்ட KV கேஷுக்கான முன்னொட்டு கேஷிங்கை ஆவணமாக்குகிறது. பல பிரதிகள் உள்ளபோது சேவை இயந்திரத்திற்கு இன்னும் ரவுடிங் உதவி தேவைப்படுகிறது.
KV கேஷ் ரவுடிங் அர்த்த கேஷிங்குடன் ஒன்றேதானா?
இல்லை. KV கேஷ் ரவுடிங் என்பது துல்லியமான அல்லது அருகிலுள்ள கட்டமைப்பு முன்னொட்டு மீள்பயன்பாட்டுடன் தீர்மான சேவையில் வேலை செய்கிறது. அர்த்த கேஷிங் என்பது பொதுவாக எம்பெட்டிங்ஸ் அல்லது ஒத்திசைவு வரம்புகளுடன் பொருள் அடிப்படையில் பதில்கள் அல்லது இடைநிலை முடிவுகளை சேமித்து மீண்டும் பயன்படுத்துகிறது.
ShareAI ஒரு KV-கேஷ்-அறிந்த லோட் பாலன்சரை மாற்றுகிறதா?
இல்லை. ShareAI என்பது AI சந்தையும் API அடுக்கு மற்றும் மாடல் அணுகல், வழிமாற்றம், தோல்வி மீளமைப்பு, பயன்பாடு மற்றும் பில்லிங் ஆகியவற்றுக்கானது. KV-cache-aware வழிமாற்றம் என்பது inference பிரதிகள் இயக்கும் குழுக்களுக்கு குறைந்த நிலை மாடல்-சேவை உள்கட்டமைப்பு ஆகும்.
KV cache வழிமாற்றத்தை Builders எப்படி யோசிக்க வேண்டும்?
Builders cache நடத்தை AI-கண்டிப்பான பயன்பாடுகளில் ஒரு செலவுக் காரணியாக கருத வேண்டும். அவர்களின் பயன்பாட்டில் சமமான பயன்பாடு இல்லையெனில், ShareAI AI போக்குவரத்தை வழிமாற்றவும், பணமாக்கவும் உதவ முடியும், அதே நேரத்தில் பயன்பாடு ShareAI வெளியே கட்டமைக்கப்பட்டு வைத்திருக்கிறது.
வழிமாற்றத்தை மாற்றுவதற்கு முன் குழுக்கள் என்ன அளவிட வேண்டும்?
Cache hit விகிதம், முதல் டோக்கனுக்கு நேரம், தளவாட திறன், வரிசை ஆழம், VRAM அழுத்தம், பணிக்கு செலவு மற்றும் வெளியீட்டு தரம் ஆகியவற்றை அளவிடுங்கள். வழிமாற்ற மாற்றங்கள் வேலைப்பளுவை மேம்படுத்த வேண்டும், டாஷ்போர்டை மட்டும் அல்ல.
KV cache வழிமாற்றம் AI API செலவுகளை குறைக்குமா?
குழுக்கள் மாடல்களை தாங்களே சேவை செய்யும் உள்கட்டமைப்பு செலவுகளை குறைக்க முடியும், ஏனெனில் குறைவான மீண்டும் நிரப்பும் வேலை GPU திறனை மேம்படுத்த முடியும். Hosted APIs க்கான விளைவு வழங்குநர் அந்த சேமிப்புகளை விலை அல்லது செயல்திறனில் வெளிப்படுத்துகிறாரா என்பதைப் பொறுத்தது.