কোডিং এজেন্টদের জন্য অনুমান গতি: TTFT বনাম থ্রুপুট

এআই কোডিংয়ে গতি সহজেই অতিসরলীকরণ করা যায়। দলগুলি প্রায়ই একটি মডেল বা ব্যাকএন্ড সম্পর্কে কথা বলে যেন এটি শুধুমাত্র দ্রুত বা ধীর, কিন্তু বাস্তব কোডিং কর্মপ্রবাহ গতি কমপক্ষে দুটি ভিন্ন প্রশ্নে বিভক্ত করে: প্রথম কার্যকর টোকেন কত দ্রুত আসে, এবং সিস্টেমটি একবার জেনারেশন শুরু হলে কতটা কাজ বজায় রাখতে পারে।.
একটি সাম্প্রতিক ক্লাইন বেঞ্চমার্ক সেই বিভাজনটি খুব স্পষ্ট করে তুলেছে। একটি ছোট এলিমিনেশন-স্টাইল টাস্কে, একটি ক্লাউড-ব্যাকড সেটআপ জিতেছে কারণ এটি দ্রুত শুরু করেছে। একটি দীর্ঘ কাঁচা ইনফারেন্স পরীক্ষায়, একটি লোকাল DGX Spark সেটআপ একই মডেলটি ভারী মেমরি অফলোডিং সহ একটি কনজিউমার GPU এর চেয়ে অনেক বেশি শক্তিশালী স্থায়ী থ্রুপুট প্রদান করেছে। কোডিং এজেন্ট কোথায় চালানো হবে তা বেছে নেওয়ার সময় দলগুলির জন্য এই পার্থক্যটি অনেক গুরুত্বপূর্ণ।.
দ্রুত তুলনা: পরীক্ষাটি যা দেখিয়েছে
- একটি ক্লাউড-ব্যাকড ম্যাক সেটআপ ১.০৪ সেকেন্ডে ছোট “থান্ডারডোম” টাস্কটি জিতেছে।.
- একই বেঞ্চমার্ক DGX Spark-কে সরাসরি ইনফারেন্স রেসে ৪২.৯ টোকেন প্রতি সেকেন্ডে পরিমাপ করেছে।.
- RTX 4090 সেটআপ ভারী RAM অফলোডিং সহ ৮.৭ টোকেন প্রতি সেকেন্ডে পৌঁছেছে।.
- সরাসরি ইনফারেন্স রেসে ওয়াল টাইম ক্লাউড-ব্যাকড ম্যাকের জন্য ৫.১১ সেকেন্ড, DGX Spark-এর জন্য ২১.৮৩ সেকেন্ড এবং ৪০৯০ ওয়ার্কস্টেশনের জন্য ৯৩.৮৯ সেকেন্ডে এসেছে।.
হার্ডওয়্যার বিবরণগুলি ফাঁকটি ব্যাখ্যা করতে সাহায্য করে। NVIDIA-এর DGX Spark সিস্টেম ওভারভিউ এর ১২৮ GB ইউনিফাইড মেমরি ডিজাইনকে হাইলাইট করে, যেখানে পরীক্ষার ৪০৯০ মেশিনে ২৪ GB VRAM ছিল এবং একটি ১২০B মডেলের বেশিরভাগ অংশ সিস্টেম RAM-এ অফলোড করতে হয়েছিল। এটি পুরো কাজের আকার পরিবর্তন করে।.
কেন TTFT ছোট রেসটি জিতেছে
একটি ছোট ধারাবাহিক টাস্কে, প্রথম টোকেন পর্যন্ত সময় বিজয়ী নির্ধারণ করে। প্রথম সিস্টেমটি প্রম্পটটি বুঝতে, একটি বৈধ কমান্ড তৈরি করতে এবং এটি কার্যকর করতে পারে অন্যদের থেকে এগিয়ে যায় যা তারা কখনও পুনরুদ্ধার করতে পারে না। ছোট ক্লাইন পরীক্ষায় ঠিক সেটাই ঘটেছে।.
ক্লাউড অবকাঠামো এখানে উজ্জ্বল হতে পারে কারণ ব্যাকএন্ডটি ইতিমধ্যেই দ্রুত প্রতিক্রিয়া পথের জন্য অপ্টিমাইজ করা হয়েছে। যদি আপনার কাজের চাপ বেশিরভাগই দ্রুত শ্রেণীবিভাগ, ছোট প্রম্পট বা ছোট এজেন্ট লুপ হয় যেখানে প্রথম উত্তরটি দীর্ঘমেয়াদী তুলনায় বেশি গুরুত্বপূর্ণ, কম TTFT একটি শক্তিশালী লোকাল মেশিনকে হারাতে পারে।.
কেন বাস্তব কোডিং সেশনে থ্রুপুট বেশি গুরুত্বপূর্ণ
বেশিরভাগ কোডিং সেশন এক-সেকেন্ডের ছুরি যুদ্ধ নয়। এগুলি দীর্ঘ, বিশৃঙ্খল লুপ যেখানে ফাইল সম্পাদনা, টুল কল, পুনরায় চেষ্টা, পরীক্ষার রান এবং শত শত বা হাজার হাজার টোকেন তৈরি করা হয়। এখানেই স্থায়ী থ্রুপুট প্রাথমিক বিস্ফোরণের চেয়ে বেশি গুরুত্বপূর্ণ হয়ে ওঠে।.
প্রতি সেকেন্ডে ৪২.৯ টোকেনের গতিতে, DGX Spark ফলাফল দেখায় যে একটি বড় মডেল দ্রুত মেমোরিতে থাকতে পারলে কী ঘটে। এর বিপরীতে, 4090 ফলাফল দেখায় যে স্থানীয় VRAM-এর জন্য মডেলটি খুব বড় হলে অফলোডিং কতটা ব্যয়বহুল হয়ে যায়। একই মডেল পরিবার মেমোরি লেআউটের উপর নির্ভর করে সম্পূর্ণ ভিন্ন অনুভূত হতে পারে, শুধুমাত্র কাঁচা GPU ব্র্যান্ড বা দামের উপর নয়।.
যদি আপনি স্থানীয় স্ট্যাক নিয়ে কাজ করেন, Ollama ডকুমেন্টেশন দলগুলি কীভাবে স্থানীয় এবং ক্লাউড-সমর্থিত মডেল এন্ডপয়েন্টগুলি সামঞ্জস্যপূর্ণ উপায়ে উন্মোচন করে তার জন্য একটি ভাল রেফারেন্স। গুরুত্বপূর্ণ পাঠ হল আপনি কোন টুলটি বেছে নেন তা নয়। এটি হল যে মডেলের আকার, মেমোরি ফিট এবং নেটওয়ার্ক টপোলজি ব্যবহারকারীর অভিজ্ঞতাকে একটি একক বেঞ্চমার্ক শিরোনামের চেয়ে অনেক বেশি পরিবর্তন করে।.
মডেলের আকার অর্থনীতিকে পরিবর্তন করে
ক্লাইন তুলনাটি একটি ১২০বি মডেলের উপর কেন্দ্রীভূত ছিল, যা ভোক্তা হার্ডওয়্যারকে একটি সম্পূর্ণ ভিন্ন অবস্থায় ঠেলে দেয়। একবার একটি মডেল দ্রুত মেমোরি থেকে বেরিয়ে গেলে, আপনার খরচ শুধুমাত্র টোকেন নয়। আপনি বিলম্ব, সারিবদ্ধতা এবং ডেভেলপার ধৈর্যের জন্যও মূল্য পরিশোধ করেন।.
এ কারণেই স্থানীয় বনাম ক্লাউড খুব কমই একটি সম্পূর্ণ আদর্শগত পছন্দ। ক্লাউড সুবিধা এবং দ্রুত স্টার্টআপে জিততে পারে। বড় স্থানীয় সিস্টেম গোপনীয়তা, পূর্বানুমানযোগ্য প্রান্তিক খরচ এবং টেকসই থ্রুপুটে জিততে পারে। ভোক্তা হার্ডওয়্যার এখনও সঠিক পছন্দ হতে পারে, তবে প্রায়শই ছোট মডেলের জন্য যা পরিষ্কারভাবে ফিট করে।.
যেখানে ShareAI ফিট করে
ShareAI সাহায্য করে যখন সেরা উত্তরটি একটি ব্যাকএন্ড চিরতরে নয়। ১৫০+ মডেল এক API এর মাধ্যমে, আপনি একটি কোডিং ওয়ার্কফ্লো স্থিতিশীল রাখতে পারেন যখন কাজের উপর ভিত্তি করে মডেল বা প্রদানকারী পরিবর্তন করেন। এটি তখনই কার্যকর হয় যখন একটি কাজ কম TTFT পছন্দ করে এবং অন্যটি শক্তিশালী টেকসই আউটপুট বা ভিন্ন মূল্য নির্ধারণ পছন্দ করে।.
আপনি ব্যবহার করতে পারেন ShareAI ডকস এবং API দ্রুত শুরু সেই রাউটিং লেয়ারটি সহজ রাখতে। আপনি যখনই প্রদানকারী বা মডেল তুলনা করতে চান তখন আপনার ইন্টিগ্রেশন পুনরায় লেখার পরিবর্তে, আপনি এজেন্টটিকে একটি API-তে নির্দেশিত রাখতে পারেন এবং এর নিচে আরও স্মার্ট ব্যাকএন্ড সিদ্ধান্ত নিতে পারেন।.
সঠিক স্ট্যাক কীভাবে নির্বাচন করবেন
- ক্লাউড-প্রথম বেছে নিন যখন প্রথম উত্তরটি সবচেয়ে গুরুত্বপূর্ণ এবং সেটআপের গতি স্থানীয় নিয়ন্ত্রণের চেয়ে বেশি গুরুত্বপূর্ণ।.
- যখন গোপনীয়তা, পূর্বানুমানযোগ্য খরচ এবং বড় মডেলে শক্তিশালী স্থায়ী থ্রুপুট প্রয়োজন হয়, তখন উচ্চ-মেমোরি স্থানীয় হার্ডওয়্যার নির্বাচন করুন।.
- ভোক্তা GPU সাবধানে নির্বাচন করুন এবং সেগুলিকে এমন মডেলের আকারের সাথে মেলান যা ভালোভাবে মানানসই।.
- যখন আপনি তুলনা করতে চান, রুট করতে চান এবং আপনার ওয়ার্কফ্লো পুনর্নির্মাণ ছাড়াই প্রদানকারী পরিবর্তন করতে চান, তখন ShareAI-এর মতো একটি অ্যাবস্ট্রাকশন লেয়ার নির্বাচন করুন।.
পরবর্তী ধাপ
যদি আপনি কোডিং এজেন্টদের জন্য ইনফারেন্স স্পিড মূল্যায়ন করেন, তাহলে একটি শিরোনাম সংখ্যায় থামবেন না। প্রাথমিক প্রতিক্রিয়া, স্থায়ী জেনারেশন রেট এবং আপনার দলের জন্য গুরুত্বপূর্ণ অপারেশনাল ট্রেড-অফগুলি পরিমাপ করুন। তারপর একটি রাউটিং লেয়ার নির্বাচন করুন যা আপনাকে সেই অগ্রাধিকারগুলি পরিবর্তিত হওয়ার সাথে সাথে মানিয়ে নিতে দেয়।.