10 دقیقه
محاسباتِ خام بهصورت پنهانی سوختی شده است که بزرگترین جهشهای قابل مشاهده در هوش مصنوعی را تسریع میکند. این نتیجهای مستقیم از یک تحلیل تازه از مؤسسه MIT است: در حالیکه الگوریتمهای هوشمند اهمیت دارند، دسترسی به منابع گستردهٔ محاسباتی اغلب تعیین میکند کدام مدلها در رأس قرار میگیرند.
پژوهشگران MIT، به سرپرستی Matthias Mertens و همکاران، عملکرد 809 مدل زبانی بزرگ را بررسی کردند تا روشن شود چه میزان از دقت مدلها ناشی از محاسبات خالص است و چه میزان به نوآوریهای الگوریتمی و بهبودهای کلی صنعت مربوط میشود. نتیجه روشن بود: محاسبات بهعنوان عامل غالب در دقت نهایی ظاهر شد و از پیشرفتهای الگوریتمی سفارشی فاصلهٔ قابل توجهی گرفت.
این فاصله چشمگیر است. بر اساس این بررسی، مدلهایی که در صدک 95 عملکرد قرار دارند نیازمند تقریباً 1,321 برابر محاسبات بیشتر برای آموزش نسبت به نمونههای ضعیفتر بودهاند. این یک مزیت جزئی نیست؛ این یک اثر مقیاسی است: وقتی از آستانههای محاسباتی مشخصی عبور میکنید، رفتار مدل بهصورت کیفی تغییر میکند و دقت به شکلهایی افزایش مییابد که تغییرات هوشمندانهٔ الگوریتمی بهتنهایی بهسختی میتوانند با آن رقابت کنند.
هزینهٔ سختافزار تنها فاصله را عمیقتر میکند. از سال 2019 قیمت متوسط تراشهها بهطور قابل توجهی افزایش یافته و تا سال 2025 هزینهٔ پردازندهها و تجهیزات شبکه برای مقیاسدادن به بارهای کاری هوش مصنوعی حدود 70 درصد بالا رفته است. شتابدهندههای نسل بعد مانند سری Blackwell شرکت انویدیا و سایر تراشههای با عملکرد بالا بهازای هر عمل کارآمدتر هستند، اما هنوز هم برای دنبالکردن مدلهای مرزی نیاز به ناوگانی از آنها دارید. این همان چیزی است که توضیح میدهد چرا شرکتهای عظیمِ ارائهدهندهٔ خدمات ابری (hyperscalers) و شرکتهای پیشرو در هوش مصنوعی میلیاردها دلار در مراکز داده سرمایهگذاری میکنند و چرا مدیرانی مانند Sam Altman به دنبال سرمایهٔ عظیم خارجی برای پشتیبانی از نسل بعدی دورههای آموزش بودهاند.

با این حال، داستان تنها به هزینهٔ خام خلاصه نمیشود. همان پژوهش MIT یک نکتهٔ متقابل معنادار را برجسته میکند: بهبودهای الگوریتمی و مهندسی همچنان اهرمهای قدرتمندی برای کاهش هزینه هستند. برای تیمهایی که توان خرید هزاران GPU سطحبالا را ندارند، نرمافزار هوشمندتر — از برش و کوانتیزهسازی تا برنامههای آموزشی بهتر و جستجوی معماری — میتواند ارزش بسیار بیشتری از هر چرخه محاسباتی استخراج کند. در عمل، این بدان معنی است که مدلهای کوچکتر و دقیقاً تنظیمشده میتوانند گاه در وظایف خاص با سیستمهای مرزی رقابت کنند در حالیکه کسری از منابع را مصرف میکنند.
تقسیمبندی عملیاتی در منظرهٔ هوش مصنوعی
یک تقسیمبندی واقعگرایانه در سراسر منظرهٔ هوش مصنوعی در حال شکلگیری است. از یک سو غولهای مجهز به محاسبات که بهواسطهٔ مقیاس، مدلهای مرزی را نگهداری میکنند وجود دارند. از سوی دیگر نهادهای چابکتر قرار دارند که از کارایی الگوریتمی و خلاقیت مهندسی استفاده میکنند تا هوش مصنوعی کاربردی و مقرونبهصرفه ارائه دهند. هر دو رویکرد میدان را به جلو میرانند، اما از طریق اقتصادهای متفاوت: یکی مقیاس خام را میخرد و دیگری زیرکی را میخرد.
ویژگیهای کنونی بازیِ مقیاس
چند نکتهٔ کلیدی دربارهٔ بازی مبتنی بر مقیاس:
- ردیف سرمایهگذاری: ساخت و نگهداری مراکز دادهٔ بزرگ و ناوگانِ شتابدهندهها نیازمند سرمایهٔ عظیم است، از خرید سختافزار گرفته تا هزینههای انرژی و تهویهٔ مطبوع.
- داده و مهارت: دسترسی به دادههای آموزش بزرگ و تیمهای مهندسی تراز اول همزمان با توان محاسباتی اهمیت دارد؛ این امر باعث میشود رقبا برای رسیدن به رأس نیازمند سرمایهگذاری در چندین لایه باشند.
- افزایش بازده در آستانهها: طبق مشاهدات مقیاس، وقتی مدلها به نقطهای از محاسبات میرسند، بهبودهای نمایی در برخی جنبههای توانایی و انعطافپذیری مشاهده میشود.
هزینههای واقعی و فشارهای اقتصادی
علاوه بر قیمت تراشهها، عوامل زیر فشار اقتصادی را تشدید میکنند:
- هزینهٔ انرژی و خنکسازی مراکز داده که بسته به منطقهٔ جغرافیایی و قوانین برق میتواند متغیر باشد.
- زنجیرهٔ تأمین و نوسانات قیمتی قطعات سختافزاری که ریسک سرمایهگذاری بلندمدت را بالا میبرد.
- هزینهٔ توسعهٔ نرمافزار و استخدام نیروی انسانی متخصص که بخش بزرگی از بودجهٔ شرکتهای AI را تشکیل میدهد.
بهینهسازی الگوریتمی: چگونه کارایی میتواند فاصله را کم کند
در مقابلِ صرفِ هزینهٔ بیشتر برای سختافزار، حوزهٔ بهینهسازی الگوریتمی مجموعهای از ابزارها را ارائه میدهد که با سرمایهٔ کمتر میتوانند بازده را افزایش دهند. در اینجا برخی از این تکنیکها با جزئیات فنی مختصر ذکر شدهاند تا خوانندهٔ حرفهای و علاقهمند به جزئیات نیز بهره ببرد.
روشهای کلیدی بهینهسازی
- کوانتیزهسازی (Quantization): کاهش دقت نمایش اعداد (مثلاً از FP32 به FP16 یا INT8) برای کاهش حافظه و افزایش سرعت محاسبات. کوانتیزهسازی خوب طراحیشده میتواند با افت دقت ناچیزی همراه باشد و در مصرف منابع صرفهجویی قابل توجهی ایجاد کند.
- برش مدل و پراکندگی وزنها (Pruning & Sparsity): حذف اتصالات یا نورونهای کماثر در شبکهٔ عصبی که به کاهش پارامترها و هزینهٔ محاسباتی منجر میشود. مدلهای پراکنده میتوانند با روشهای سختافزاری خاص همراه شوند تا بهرهوری را افزایش دهند.
- تقطیر دانش (Knowledge Distillation): آموزش یک مدل کوچکتر (دانشآموز) با تقلید از خروجیهای یک مدل بزرگتر (معلم) تا عملکرد نزدیک به مدل بزرگ با هزینهٔ محاسباتی کمتر حاصل شود.
- جستجوی معماری و AutoML: استفاده از ابزارهای خودکار برای طراحی معماریهای بهینه که با منابع کمتر بیشترین بازده را داشته باشند.
- آموزش با دقت مخلوط (Mixed Precision Training): ترکیب قالبهای عددی مختلف در طول فرایند آموزش برای کاهش حافظه و زمان محاسباتی بدون کاهش قابل توجه دقت.
- زمانبندی آموزشی و استراتژیهای دادهای: انتخاب دقیقتر نرخهای یادگیری، بانچ سایز، و استفاده از تکنیکهایی مانند curriculum learning یا sampling پیشرفته برای افزایش کارایی آموزش.
مثالهای واقعی کارایی
تجربهٔ صنعتی نشان داده مدلهایی که با این روشها بهینه شدهاند در وظایف خاص میتوانند با کسری از هزینهٔ محاسباتی مدلهای بزرگ رقابت کنند. برای مثال، مدلهای فشردهشده در سیستمهای edge و موبایل عملکرد قابل قبولی ارائه میدهند که برای کاربردهای محصولی و تولیدی مناسبتر است.
پیامدها برای سیاستگذاران، سرمایهگذاران و مهندسان
آثار این یافتهها فراتر از بینشهای پژوهشی است و پیامدهای عملی و سیاستی مشخصی دارد:
- سرمایهگذاری در سختافزار: اگر هدف رسیدن به توانایی خام است، سرمایهگذاری در زیرساختهای محاسباتی و مراکز داده همچنان حیاتی است. این شامل پشتیبانی مالی از پروژههای مقیاسپذیر و تسهیلات برق و شبکه میشود.
- سرمایهگذاری در کارایی الگوریتمی: تأمین منابع برای پژوهش در بهینهسازیهای الگوریتمی، ابزارهای متنباز و زنجیرههای ابزار باز (open toolchains) میتواند دسترسی را گسترش دهد و هزینههای زیستمحیطی و مالی را کاهش دهد.
- تنظیم بازار و رقابت: توزیع نامتقارن منابع محاسباتی میتواند مانع رقابت نوآورانه شود؛ سیاستگذاران ممکن است لازم بداند سازوکارهایی برای حمایت از نوآوران کوچکتر یا تضمین دسترسی منصفانه به منابع فراهم آورند.
- پایداری زیستمحیطی: کاهش مصرف انرژی از طریق الگوریتمهای کاراتر و انتخاب سختافزارهای با بهرهوری انرژی بالاتر، هم از نظر اقتصادی و هم زیستمحیطی اهمیت فزایندهای دارد.
سرمایهگذاری ترکیبی؛ بهترین راه میانه
بهطور منطقی، مسیر مؤثر ترکیبی است: سرمایهگذاری همزمان در زیرساختهای سختافزاری برای حفظ توانِ رقابتی و در پژوهشهای الگوریتمی برای بهینهسازی هزینه و گسترش دسترسی. چنین توازنی میتواند ساختار اکوسیستمی ایجاد کند که هم امکان رسیدن به مرزهای عملکردی را فراهم سازد و هم هزینهٔ ورود را برای بازیگران جدید کاهش دهد.
نگاهی فنیتر به دادهها، قوانین مقیاس و محدودیتها
تحلیلهای مرتبط با قوانین مقیاس (scaling laws) نشان دادهاند که افزایش منابع محاسباتی، اندازهٔ مدل و دادههای آموزش ارتباط نزدیکی با بهبود معیارهای عملکردی دارد، اما این پیوند خطی نیست و نقاط اشباع و بازگشت کاهشی نیز وجود دارد. در عمل سه مؤلفهٔ اصلی تعیینکنندهٔ موفقیت عبارتاند از:
- حجم و کیفیت دادهٔ آموزشی (Data Quantity & Quality)
- ظرفیت مدل و ساختار معماری (Model Capacity & Architecture)
- میزان محاسبات در دسترس برای آموزش و بهینهسازی (Compute Availability)
اگر یکی از این سه عامل بهشدت محدود باشد، بازده کل سیستم افت خواهد کرد. از این رو، تصمیم طراحی بین صرف منابع برای افزایش هر یک از این مؤلفهها نیازمند تحلیل هزینه-فایدهٔ دقیق است.
محدودیتهای عملی و فنی
- نرخ بازگشت کاهشی: در مقیاسهای بسیار بالا ممکن است بازده هر واحد محاسبهٔ اضافی کاهش یابد و بنابراین صرف نامحدود سرمایه کارآمد نباشد.
- پیچیدگی مهندسی: مدیریت ناوگان هزاران شتابدهنده و همگامسازی موازی توزیعشده چالشهای مهندسی بزرگی دارد که نیازمند نرمافزار و زیرساختهای تخصصی است.
- ملاحظات اخلاقی و قانونی: استفادهٔ گسترده از دادهها، مصرف انرژی و تمرکز قدرت محاسباتی میتواند مسائل اخلاقی، حریم خصوصی و رقابتی ایجاد کند.
نتیجهگیری و پرسشی که باید مطرح کنیم
برای سیاستگذاران، سرمایهگذاران و مهندسان پیامها روشناند: اگر هدف قابلیت خام و دستیابی به مرزهای جدید توانایی است، سرمایهگذاری در سختافزار و زیرساخت ضروری است. اما اگر هدف گسترش دسترسی، کاهش هزینهها و بهبود پایداری محیطی است، تأمین منابع برای پژوهش در کارایی الگوریتمی و ابزارهای متنباز به همان اندازه اهمیت دارد. مسیر غالب که مورد توجه قرار گیرد، تعیین خواهد کرد چه کسانی موج بعدی نوآوری را رهبری میکنند.
پس از خود بپرسید: آیا دستیابی به جهش بعدی توسط بزرگترین مرکز داده رقم خواهد خورد، یا الگوریتم هوشمندتری که با بودجهٔ کمتر اجرا میشود؟ پاسخ احتمالاً ترکیبی از هر دو خواهد بود، اما جهتگیری بازار و سیاستگذاریها میتواند تعادل را بهنوعی تغییر دهد که بر دسترسی، رقابت و پایداری تأثیر بگذارد.
برای خوانندگانی که درگیر طراحی مدل، سرمایهگذاری یا تصمیمگیری سیاستی هستند، توصیهٔ عملی این است که برنامههای سرمایهگذاری خود را متوازن سازند: بخشی از بودجه را برای افزایش توان محاسباتی و بخشی را برای پژوهشهای الگوریتمی و آموزش مهندسان تخصیص دهید تا هم رقابتپذیری و هم قابلیت دسترسی و پایداری را ارتقا دهید.
منبع: smarti
ارسال نظر