కోడింగ్ ఏజెంట్ల కోసం నిర్ధారణ వేగం: TTFT vs త్రూపుట్

AI కోడింగ్లో వేగం సులభంగా సరళీకృతం చేయబడుతుంది. జట్లు తరచుగా ఒక మోడల్ లేదా బ్యాక్ఎండ్ గురించి మాట్లాడుతాయి, అది సులభంగా వేగంగా లేదా నెమ్మదిగా ఉందని, కానీ నిజమైన కోడింగ్ వర్క్ఫ్లోలు వేగాన్ని కనీసం రెండు వేర్వేరు ప్రశ్నలుగా విభజిస్తాయి: మొదటి ఉపయోగకరమైన టోకెన్ ఎంత త్వరగా వస్తుంది, మరియు జనరేషన్ ప్రారంభమైన తర్వాత వ్యవస్థ ఎంత పని చేయగలదు.
ఒక తాజా క్లైన్ బెంచ్మార్క్ ఆ విభజనను చాలా స్పష్టంగా చేసింది. ఒక చిన్న ఎలిమినేషన్-శైలి పనిలో, క్లౌడ్-బ్యాక్డ్ సెటప్ గెలిచింది ఎందుకంటే అది వేగంగా ప్రారంభమైంది. ఒక పొడవైన రా ఇన్ఫరెన్స్ పరీక్షలో, ఒక లోకల్ DGX స్పార్క్ సెటప్ అదే మోడల్ను భారీ మెమరీ ఆఫ్లోడింగ్తో నడుపుతున్న కన్స్యూమర్ GPU కంటే చాలా బలమైన స్థిరమైన త్రూపుట్ను అందించింది. కోడింగ్ ఏజెంట్లను ఎక్కడ నడపాలో జట్లు ఎంచుకోవడంలో ఆ తేడా చాలా ముఖ్యం.
తక్షణ పోలిక: పరీక్ష ఏమి చూపించింది
- క్లౌడ్-బ్యాక్డ్ మాక్ సెటప్ 1.04 సెకన్లలో చిన్న “థండర్డోమ్” పనిలో గెలిచింది.
- అదే బెంచ్మార్క్ డైరెక్ట్ ఇన్ఫరెన్స్ రేస్లో DGX స్పార్క్ను 42.9 టోకెన్లను సెకనుకు కొలిచింది.
- RTX 4090 సెటప్ భారీ RAM ఆఫ్లోడింగ్తో 8.7 టోకెన్లను సెకనుకు చేరుకుంది.
- డైరెక్ట్ ఇన్ఫరెన్స్ రేస్లో వాల్ టైమ్ క్లౌడ్-బ్యాక్డ్ మాక్ కోసం 5.11 సెకన్లు, DGX స్పార్క్ కోసం 21.83 సెకన్లు, మరియు 4090 వర్క్స్టేషన్ కోసం 93.89 సెకన్లుగా వచ్చింది.
హార్డ్వేర్ వివరాలు అంతరాన్ని వివరించడంలో సహాయపడతాయి. NVIDIA యొక్క DGX స్పార్క్ సిస్టమ్ అవలోకనం 128 GB యూనిఫైడ్ మెమరీ డిజైన్ను హైలైట్ చేస్తుంది, అయితే పరీక్షలో 4090 యంత్రం 24 GB VRAM కలిగి ఉంది మరియు 120B మోడల్లో చాలా భాగాన్ని సిస్టమ్ RAMలో ఆఫ్లోడ్ చేయవలసి వచ్చింది. ఇది మొత్తం వర్క్లోడ్ ఆకారాన్ని మార్చుతుంది.
చిన్న రేసులో TTFT ఎందుకు గెలిచింది
ఒక చిన్న సీక్వెన్షియల్ పనిలో, టైమ్-టు-ఫస్ట్-టోకెన్ విజేతను నిర్ణయిస్తుంది. ప్రాంప్ట్ను అర్థం చేసుకోవడం, చెల్లుబాటు అయ్యే ఆదేశాన్ని ఉత్పత్తి చేయడం, మరియు దాన్ని అమలు చేయడం మొదటి వ్యవస్థకు ఒక ముందడుగు ఇస్తుంది, ఇది ఇతరులు ఎప్పటికీ తిరిగి పొందలేకపోవచ్చు. చిన్న క్లైన్ పరీక్షలో అదే జరిగింది.
క్లౌడ్ ఇన్ఫ్రాస్ట్రక్చర్ ఇక్కడ మెరుస్తుంది ఎందుకంటే బ్యాక్ఎండ్ ఇప్పటికే వేగవంతమైన ప్రతిస్పందన మార్గాల కోసం ఆప్టిమైజ్ చేయబడింది. మీ వర్క్లోడ్ ఎక్కువగా వేగవంతమైన వర్గీకరణలు, చిన్న ప్రాంప్ట్లు, లేదా మొదటి సమాధానం దీర్ఘకాలిక రన్ కంటే ఎక్కువగా ముఖ్యం అయ్యే చిన్న ఏజెంట్ లూప్లు ఉంటే, తక్కువ TTFT బలమైన లోకల్ మెషీన్ను ఓడించగలదు.
నిజమైన కోడింగ్ సెషన్లలో త్రూపుట్ ఎందుకు ఎక్కువగా ముఖ్యం
ఎక్కువ కోడింగ్ సెషన్లు ఒక సెకన్ల కత్తి పోరాటాలు కావు. అవి ఫైల్ ఎడిట్లు, టూల్ కాల్స్, రీట్రైలు, టెస్ట్ రన్స్, మరియు వందల లేదా వేల జనరేటెడ్ టోకెన్లతో పొడవైన, గందరగోళమైన లూప్లు. అక్కడ స్థిరమైన త్రూపుట్ ప్రారంభ బర్స్ట్ కంటే ఎక్కువగా ముఖ్యం అవుతుంది.
42.9 టోకెన్లను సెకనుకు ప్రాసెస్ చేయగల సామర్థ్యంతో, DGX Spark ఫలితం పెద్ద మోడల్ వేగవంతమైన మెమరీలో ఉండగలిగితే ఏమి జరుగుతుందో చూపిస్తుంది. దీని విరుద్ధంగా, 4090 ఫలితం స్థానిక VRAMకు మించి మోడల్ పెద్దదిగా ఉన్నప్పుడు ఆఫ్లోడింగ్ ఎంత ఖరీదైనదో చూపిస్తుంది. అదే మోడల్ కుటుంబం మెమరీ లేఅవుట్పై ఆధారపడి పూర్తిగా భిన్నంగా అనిపించవచ్చు, కేవలం GPU బ్రాండ్ లేదా ధర మాత్రమే కాదు.
మీరు స్థానిక స్టాక్స్తో పని చేస్తే, Ollama డాక్యుమెంటేషన్ స్థానిక మరియు క్లౌడ్-బ్యాక్డ్ మోడల్ ఎండ్పాయింట్లను అనుకూలమైన విధంగా ఎలా ఎక్స్పోజ్ చేయాలో టీమ్లకు మంచి సూచన. ముఖ్యమైన పాఠం మీరు ఎలాంటి టూల్ను ఎంచుకుంటారనే విషయం కాదు. మోడల్ పరిమాణం, మెమరీ సరిపోవడం, మరియు నెట్వర్క్ టోపాలజీ వినియోగదారుల అనుభవాన్ని ఒకే బెంచ్మార్క్ హెడ్లైన్ సూచించిన దానికంటే చాలా ఎక్కువగా మార్చుతాయి.
మోడల్ పరిమాణం ఆర్థిక వ్యవస్థను మార్చుతుంది
క్లైన్ పోలిక 120B మోడల్పై కేంద్రీకృతమై ఉంది, ఇది వినియోగదారుల హార్డ్వేర్ను పూర్తిగా భిన్నమైన స్థితిలోకి నెడుతుంది. ఒకసారి మోడల్ వేగవంతమైన మెమరీ నుండి బయటకు వస్తే, మీ ఖర్చు కేవలం టోకెన్లలో మాత్రమే కాదు. మీరు లేటెన్సీ, క్యూయింగ్, మరియు డెవలపర్ సహనంలో కూడా చెల్లించాలి.
అందుకే స్థానికం వర్సెస్ క్లౌడ్ అనేది చాలా అరుదుగా పూర్తిగా సిద్ధాంతపరమైన ఎంపిక. క్లౌడ్ సౌలభ్యం మరియు వేగవంతమైన స్టార్టప్లో గెలవగలదు. పెద్ద స్థానిక వ్యవస్థలు గోప్యత, అంచనా ఖర్చు, మరియు నిరంతర అవుట్పుట్లో గెలవగలవు. వినియోగదారుల హార్డ్వేర్ ఇంకా సరైన ఎంపిక కావచ్చు, కానీ తరచుగా చిన్న మోడళ్ల కోసం అవి సరిగ్గా సరిపోతాయి.
ShareAI ఎక్కడ సరిపోతుంది
ShareAI ఉత్తమ సమాధానం ఒకే బ్యాక్ఎండ్గా ఉండకపోతే సహాయపడుతుంది. ఒక API ద్వారా 150+ మోడల్స్, మీరు మోడల్ లేదా ప్రొవైడర్ను పని ఆధారంగా మార్చేటప్పుడు కోడింగ్ వర్క్ఫ్లోను స్థిరంగా ఉంచవచ్చు. ఒక పని తక్కువ TTFTను ప్రాధాన్యత ఇస్తే మరియు మరొకటి బలమైన నిరంతర అవుట్పుట్ లేదా భిన్నమైన ధరలను ప్రాధాన్యత ఇస్తే ఇది ఉపయోగకరంగా ఉంటుంది.
మీరు ఉపయోగించవచ్చు ShareAI డాక్స్ మరియు API క్విక్స్టార్ట్ ఆ రూటింగ్ లేయర్ను సులభంగా ఉంచడానికి. మీరు ప్రొవైడర్లను లేదా మోడళ్లను పోల్చాలనుకున్నప్పుడు ప్రతి సారి మీ ఇంటిగ్రేషన్ను తిరిగి రాయడం బదులుగా, మీరు ఏజెంట్ను ఒక API వద్ద ఉంచి, దాని క్రింద తెలివైన బ్యాక్ఎండ్ నిర్ణయాలను తీసుకోవచ్చు.
సరైన స్టాక్ను ఎలా ఎంచుకోవాలి
- మొదటి సమాధానం అత్యంత ముఖ్యమైనప్పుడు మరియు సెటప్ వేగం స్థానిక నియంత్రణ కంటే ఎక్కువ ప్రాధాన్యత కలిగినప్పుడు క్లౌడ్-ఫస్ట్ను ఎంచుకోండి.
- గోప్యత, అంచనా ఖర్చు, మరియు పెద్ద మోడల్స్ పై బలమైన నిరంతర throughput అవసరమైనప్పుడు అధిక మెమరీ స్థానిక హార్డ్వేర్ను ఎంచుకోండి.
- వినియోగదారుల GPUsను జాగ్రత్తగా ఎంచుకుని, మోడల్ పరిమాణాలకు సరిపడే విధంగా వాటిని సరిపోల్చండి.
- మీ వర్క్ఫ్లోను మళ్లీ నిర్మించకుండా సరిపోల్చడం, మార్గం చేయడం, మరియు ప్రొవైడర్లను మార్చడం అవసరమైనప్పుడు ShareAI వంటి ఒక అబ్స్ట్రాక్షన్ లేయర్ను ఎంచుకోండి.
తదుపరి దశ
కోడింగ్ ఏజెంట్ల కోసం inference వేగాన్ని అంచనా వేస్తున్నప్పుడు, ఒక ప్రధాన సంఖ్య వద్ద ఆగిపోకండి. ప్రారంభ ప్రతిస్పందన, నిరంతర జనరేషన్ రేటు, మరియు మీ టీమ్కు ముఖ్యమైన ఆపరేషనల్ ట్రేడ్-ఆఫ్స్ను కొలవండి. ఆ ప్రాధాన్యతలు మారినప్పుడు మీరు అనుకూలించగలిగే మార్గం లేయర్ను ఎంచుకోండి.