چرا محاسبات خام تا این حد در عملکرد مدلهای بزرگ مهم است؟

افزایش منابع محاسباتی به مدلها اجازه میدهد پارامترهای بیشتری آموزش ببینند، از مجموعهٔ دادههای بزرگتر استفاده کنند و روندهای یادگیری پیچیدهتری را کشف کنند. مطابق پژوهش MIT، عبور از آستانههای محاسباتی مشخص میتواند باعث تغییرات کیفی در رفتار مدل و بهبود دقت شود؛ بنابراین در عمل دسترسی به محاسبات گسترده اغلب نتیجهٔ نهایی را شکل میدهد.

آیا تیمهای کوچکتر بدون بودجهٔ عظیم میتوانند مدلهای رقابتی بسازند؟

بله. با استفاده از تکنیکهایی مانند کوانتیزهسازی، pruning، تقطیر دانش، جستجوی معماری و آموزش با دقت مخلوط، تیمهای کوچک میتوانند مدلهای بهینهای تولید کنند که در وظایف خاص با مصرف بسیار کمتر از منابع، عملکرد قابل قبولی ارائه میدهند. این روشها هزینهٔ ورود را کاهش میدهند و دسترسی را گسترش میدهند.

سرمایهگذاری بهتر است در سختافزار صرف شود یا پژوهشهای الگوریتمی؟

پاسخ بستگی به اهداف سازمان دارد. اگر هدف دستیابی به حداکثر توانایی خام است، سرمایهگذاری در سختافزار و زیرساخت ضروری است. اگر هدف گسترش دسترسی، کاهش هزینه و پایداری محیطی است، سرمایهگذاری در پژوهشهای کارایی الگوریتمی و ابزارهای متنباز به همان اندازه اهمیت دارد. رویکرد مؤثر معمولاً ترکیبی از هر دو است.

چه پیامدهایی برای سیاستگذاران از تمرکز محاسباتی وجود دارد؟

تمرکز منابع محاسباتی در دست تعداد معدودی از بازیگران میتواند مانع رقابت و نوآوری شود و مسائل زیستمحیطی و حقوقی ایجاد کند. سیاستگذاران میتوانند با حمایت از دسترسی منصفانه به منابع، تشویق پژوهش در کارایی الگوریتمی و تسهیل توسعهٔ مراکز دادهٔ کممصرف، تعادل بهتری ایجاد کنند.

محاسباتِ خام یا الگوریتم ها؛ عامل پیشرفت هوش مصنوعی

10 دقیقه

محاسباتِ خام به‌صورت پنهانی سوختی شده است که بزرگ‌ترین جهش‌های قابل مشاهده در هوش مصنوعی را تسریع می‌کند. این نتیجه‌ای مستقیم از یک تحلیل تازه از مؤسسه MIT است: در حالی‌که الگوریتم‌های هوشمند اهمیت دارند، دسترسی به منابع گستردهٔ محاسباتی اغلب تعیین می‌کند کدام مدل‌ها در رأس قرار می‌گیرند.

پژوهشگران MIT، به سرپرستی Matthias Mertens و همکاران، عملکرد 809 مدل زبانی بزرگ را بررسی کردند تا روشن شود چه میزان از دقت مدل‌ها ناشی از محاسبات خالص است و چه میزان به نوآوری‌های الگوریتمی و بهبودهای کلی صنعت مربوط می‌شود. نتیجه روشن بود: محاسبات به‌عنوان عامل غالب در دقت نهایی ظاهر شد و از پیشرفت‌های الگوریتمی سفارشی فاصلهٔ قابل توجهی گرفت.

این فاصله چشمگیر است. بر اساس این بررسی، مدل‌هایی که در صدک 95 عملکرد قرار دارند نیازمند تقریباً 1,321 برابر محاسبات بیشتر برای آموزش نسبت به نمونه‌های ضعیف‌تر بوده‌اند. این یک مزیت جزئی نیست؛ این یک اثر مقیاسی است: وقتی از آستانه‌های محاسباتی مشخصی عبور می‌کنید، رفتار مدل به‌صورت کیفی تغییر می‌کند و دقت به شکل‌هایی افزایش می‌یابد که تغییرات هوشمندانهٔ الگوریتمی به‌تنهایی به‌سختی می‌توانند با آن رقابت کنند.

هزینهٔ سخت‌افزار تنها فاصله را عمیق‌تر می‌کند. از سال 2019 قیمت متوسط تراشه‌ها به‌طور قابل توجهی افزایش یافته و تا سال 2025 هزینهٔ پردازنده‌ها و تجهیزات شبکه برای مقیاس‌دادن به بارهای کاری هوش مصنوعی حدود 70 درصد بالا رفته است. شتاب‌دهنده‌های نسل بعد مانند سری Blackwell شرکت انویدیا و سایر تراشه‌های با عملکرد بالا به‌ازای هر عمل کارآمدتر هستند، اما هنوز هم برای دنبال‌کردن مدل‌های مرزی نیاز به ناوگانی از آن‌ها دارید. این همان چیزی است که توضیح می‌دهد چرا شرکت‌های عظیمِ ارائه‌دهندهٔ خدمات ابری (hyperscalers) و شرکت‌های پیشرو در هوش مصنوعی میلیاردها دلار در مراکز داده سرمایه‌گذاری می‌کنند و چرا مدیرانی مانند Sam Altman به دنبال سرمایهٔ عظیم خارجی برای پشتیبانی از نسل بعدی دوره‌های آموزش بوده‌اند.

با این حال، داستان تنها به هزینهٔ خام خلاصه نمی‌شود. همان پژوهش MIT یک نکتهٔ متقابل معنادار را برجسته می‌کند: بهبودهای الگوریتمی و مهندسی همچنان اهرم‌های قدرتمندی برای کاهش هزینه هستند. برای تیم‌هایی که توان خرید هزاران GPU سطح‌بالا را ندارند، نرم‌افزار هوشمندتر — از برش و کوانتیزه‌سازی تا برنامه‌های آموزشی بهتر و جستجوی معماری — می‌تواند ارزش بسیار بیشتری از هر چرخه محاسباتی استخراج کند. در عمل، این بدان معنی است که مدل‌های کوچک‌تر و دقیقاً تنظیم‌شده می‌توانند گاه در وظایف خاص با سیستم‌های مرزی رقابت کنند در حالی‌که کسری از منابع را مصرف می‌کنند.

تقسیم‌بندی عملیاتی در منظرهٔ هوش مصنوعی

یک تقسیم‌بندی واقع‌گرایانه در سراسر منظرهٔ هوش مصنوعی در حال شکل‌گیری است. از یک سو غول‌های مجهز به محاسبات که به‌واسطهٔ مقیاس، مدل‌های مرزی را نگهداری می‌کنند وجود دارند. از سوی دیگر نهادهای چابک‌تر قرار دارند که از کارایی الگوریتمی و خلاقیت مهندسی استفاده می‌کنند تا هوش مصنوعی کاربردی و مقرون‌به‌صرفه ارائه دهند. هر دو رویکرد میدان را به جلو می‌رانند، اما از طریق اقتصادهای متفاوت: یکی مقیاس خام را می‌خرد و دیگری زیرکی را می‌خرد.

ویژگی‌های کنونی بازیِ مقیاس

چند نکتهٔ کلیدی دربارهٔ بازی مبتنی بر مقیاس:

ردیف سرمایه‌گذاری: ساخت و نگهداری مراکز دادهٔ بزرگ و ناوگانِ شتاب‌دهنده‌ها نیازمند سرمایهٔ عظیم است، از خرید سخت‌افزار گرفته تا هزینه‌های انرژی و تهویهٔ مطبوع.
داده و مهارت: دسترسی به داده‌های آموزش بزرگ و تیم‌های مهندسی تراز اول هم‌زمان با توان محاسباتی اهمیت دارد؛ این امر باعث می‌شود رقبا برای رسیدن به رأس نیازمند سرمایه‌گذاری در چندین لایه باشند.
افزایش بازده در آستانه‌ها: طبق مشاهدات مقیاس، وقتی مدل‌ها به نقطه‌ای از محاسبات می‌رسند، بهبودهای نمایی در برخی جنبه‌های توانایی و انعطاف‌پذیری مشاهده می‌شود.

هزینه‌های واقعی و فشارهای اقتصادی

علاوه بر قیمت تراشه‌ها، عوامل زیر فشار اقتصادی را تشدید می‌کنند:

هزینهٔ انرژی و خنک‌سازی مراکز داده که بسته به منطقهٔ جغرافیایی و قوانین برق می‌تواند متغیر باشد.
زنجیرهٔ تأمین و نوسانات قیمتی قطعات سخت‌افزاری که ریسک سرمایه‌گذاری بلندمدت را بالا می‌برد.
هزینهٔ توسعهٔ نرم‌افزار و استخدام نیروی انسانی متخصص که بخش بزرگی از بودجهٔ شرکت‌های AI را تشکیل می‌دهد.

بهینه‌سازی الگوریتمی: چگونه کارایی می‌تواند فاصله را کم کند

در مقابلِ صرفِ هزینهٔ بیشتر برای سخت‌افزار، حوزهٔ بهینه‌سازی الگوریتمی مجموعه‌ای از ابزارها را ارائه می‌دهد که با سرمایهٔ کمتر می‌توانند بازده را افزایش دهند. در اینجا برخی از این تکنیک‌ها با جزئیات فنی مختصر ذکر شده‌اند تا خوانندهٔ حرفه‌ای و علاقه‌مند به جزئیات نیز بهره ببرد.

روش‌های کلیدی بهینه‌سازی

کوانتیزه‌سازی (Quantization): کاهش دقت نمایش اعداد (مثلاً از FP32 به FP16 یا INT8) برای کاهش حافظه و افزایش سرعت محاسبات. کوانتیزه‌سازی خوب طراحی‌شده می‌تواند با افت دقت ناچیزی همراه باشد و در مصرف منابع صرفه‌جویی قابل توجهی ایجاد کند.
برش مدل و پراکندگی وزن‌ها (Pruning & Sparsity): حذف اتصالات یا نورون‌های کم‌اثر در شبکهٔ عصبی که به کاهش پارامترها و هزینهٔ محاسباتی منجر می‌شود. مدل‌های پراکنده می‌توانند با روش‌های سخت‌افزاری خاص همراه شوند تا بهره‌وری را افزایش دهند.
تقطیر دانش (Knowledge Distillation): آموزش یک مدل کوچک‌تر (دانش‌آموز) با تقلید از خروجی‌های یک مدل بزرگ‌تر (معلم) تا عملکرد نزدیک به مدل بزرگ با هزینهٔ محاسباتی کمتر حاصل شود.
جستجوی معماری و AutoML: استفاده از ابزارهای خودکار برای طراحی معماری‌های بهینه که با منابع کمتر بیشترین بازده را داشته باشند.
آموزش با دقت مخلوط (Mixed Precision Training): ترکیب قالب‌های عددی مختلف در طول فرایند آموزش برای کاهش حافظه و زمان محاسباتی بدون کاهش قابل توجه دقت.
زمان‌بندی آموزشی و استراتژی‌های داده‌ای: انتخاب دقیق‌تر نرخ‌های یادگیری، بانچ سایز، و استفاده از تکنیک‌هایی مانند curriculum learning یا sampling پیشرفته برای افزایش کارایی آموزش.

مثال‌های واقعی کارایی

تجربهٔ صنعتی نشان داده مدل‌هایی که با این روش‌ها بهینه شده‌اند در وظایف خاص می‌توانند با کسری از هزینهٔ محاسباتی مدل‌های بزرگ رقابت کنند. برای مثال، مدل‌های فشرده‌شده در سیستم‌های edge و موبایل عملکرد قابل قبولی ارائه می‌دهند که برای کاربردهای محصولی و تولیدی مناسب‌تر است.

پیامدها برای سیاست‌گذاران، سرمایه‌گذاران و مهندسان

آثار این یافته‌ها فراتر از بینش‌های پژوهشی است و پیامدهای عملی و سیاستی مشخصی دارد:

سرمایه‌گذاری در سخت‌افزار: اگر هدف رسیدن به توانایی خام است، سرمایه‌گذاری در زیرساخت‌های محاسباتی و مراکز داده همچنان حیاتی است. این شامل پشتیبانی مالی از پروژه‌های مقیاس‌پذیر و تسهیلات برق و شبکه می‌شود.
سرمایه‌گذاری در کارایی الگوریتمی: تأمین منابع برای پژوهش در بهینه‌سازی‌های الگوریتمی، ابزارهای متن‌باز و زنجیره‌های ابزار باز (open toolchains) می‌تواند دسترسی را گسترش دهد و هزینه‌های زیست‌محیطی و مالی را کاهش دهد.
تنظیم بازار و رقابت: توزیع نامتقارن منابع محاسباتی می‌تواند مانع رقابت نوآورانه شود؛ سیاست‌گذاران ممکن است لازم بداند سازوکارهایی برای حمایت از نوآوران کوچک‌تر یا تضمین دسترسی منصفانه به منابع فراهم آورند.
پایداری زیست‌محیطی: کاهش مصرف انرژی از طریق الگوریتم‌های کاراتر و انتخاب سخت‌افزارهای با بهره‌وری انرژی بالاتر، هم از نظر اقتصادی و هم زیست‌محیطی اهمیت فزاینده‌ای دارد.

سرمایه‌گذاری ترکیبی؛ بهترین راه میانه

به‌طور منطقی، مسیر مؤثر ترکیبی است: سرمایه‌گذاری هم‌زمان در زیرساخت‌های سخت‌افزاری برای حفظ توانِ رقابتی و در پژوهش‌های الگوریتمی برای بهینه‌سازی هزینه و گسترش دسترسی. چنین توازنی می‌تواند ساختار اکوسیستمی ایجاد کند که هم امکان رسیدن به مرزهای عملکردی را فراهم سازد و هم هزینهٔ ورود را برای بازیگران جدید کاهش دهد.

نگاهی فنی‌تر به داده‌ها، قوانین مقیاس و محدودیت‌ها

تحلیل‌های مرتبط با قوانین مقیاس (scaling laws) نشان داده‌اند که افزایش منابع محاسباتی، اندازهٔ مدل و داده‌های آموزش ارتباط نزدیکی با بهبود معیارهای عملکردی دارد، اما این پیوند خطی نیست و نقاط اشباع و بازگشت کاهشی نیز وجود دارد. در عمل سه مؤلفهٔ اصلی تعیین‌کنندهٔ موفقیت عبارت‌اند از:

حجم و کیفیت دادهٔ آموزشی (Data Quantity & Quality)
ظرفیت مدل و ساختار معماری (Model Capacity & Architecture)
میزان محاسبات در دسترس برای آموزش و بهینه‌سازی (Compute Availability)

اگر یکی از این سه عامل به‌شدت محدود باشد، بازده کل سیستم افت خواهد کرد. از این رو، تصمیم طراحی بین صرف منابع برای افزایش هر یک از این مؤلفه‌ها نیازمند تحلیل هزینه-فایدهٔ دقیق است.

محدودیت‌های عملی و فنی

نرخ بازگشت کاهشی: در مقیاس‌های بسیار بالا ممکن است بازده هر واحد محاسبهٔ اضافی کاهش یابد و بنابراین صرف نامحدود سرمایه کارآمد نباشد.
پیچیدگی مهندسی: مدیریت ناوگان هزاران شتاب‌دهنده و همگام‌سازی موازی توزیع‌شده چالش‌های مهندسی بزرگی دارد که نیازمند نرم‌افزار و زیرساخت‌های تخصصی است.
ملاحظات اخلاقی و قانونی: استفادهٔ گسترده از داده‌ها، مصرف انرژی و تمرکز قدرت محاسباتی می‌تواند مسائل اخلاقی، حریم خصوصی و رقابتی ایجاد کند.

نتیجه‌گیری و پرسشی که باید مطرح کنیم

برای سیاست‌گذاران، سرمایه‌گذاران و مهندسان پیام‌ها روشن‌اند: اگر هدف قابلیت خام و دستیابی به مرزهای جدید توانایی است، سرمایه‌گذاری در سخت‌افزار و زیرساخت ضروری است. اما اگر هدف گسترش دسترسی، کاهش هزینه‌ها و بهبود پایداری محیطی است، تأمین منابع برای پژوهش در کارایی الگوریتمی و ابزارهای متن‌باز به همان اندازه اهمیت دارد. مسیر غالب که مورد توجه قرار گیرد، تعیین خواهد کرد چه کسانی موج بعدی نوآوری را رهبری می‌کنند.

پس از خود بپرسید: آیا دستیابی به جهش بعدی توسط بزرگ‌ترین مرکز داده رقم خواهد خورد، یا الگوریتم هوشمندتری که با بودجهٔ کمتر اجرا می‌شود؟ پاسخ احتمالاً ترکیبی از هر دو خواهد بود، اما جهت‌گیری بازار و سیاست‌گذاری‌ها می‌تواند تعادل را به‌نوعی تغییر دهد که بر دسترسی، رقابت و پایداری تأثیر بگذارد.

برای خوانندگانی که درگیر طراحی مدل، سرمایه‌گذاری یا تصمیم‌گیری سیاستی هستند، توصیهٔ عملی این است که برنامه‌های سرمایه‌گذاری خود را متوازن سازند: بخشی از بودجه را برای افزایش توان محاسباتی و بخشی را برای پژوهش‌های الگوریتمی و آموزش مهندسان تخصیص دهید تا هم رقابت‌پذیری و هم قابلیت دسترسی و پایداری را ارتقا دهید.

منبع: smarti

محاسباتِ خام یا الگوریتم ها؛ عامل پیشرفت هوش مصنوعی

تقسیم‌بندی عملیاتی در منظرهٔ هوش مصنوعی

ویژگی‌های کنونی بازیِ مقیاس

هزینه‌های واقعی و فشارهای اقتصادی

بهینه‌سازی الگوریتمی: چگونه کارایی می‌تواند فاصله را کم کند

روش‌های کلیدی بهینه‌سازی

مثال‌های واقعی کارایی

پیامدها برای سیاست‌گذاران، سرمایه‌گذاران و مهندسان

سرمایه‌گذاری ترکیبی؛ بهترین راه میانه

نگاهی فنی‌تر به داده‌ها، قوانین مقیاس و محدودیت‌ها

محدودیت‌های عملی و فنی

نتیجه‌گیری و پرسشی که باید مطرح کنیم

ارسال نظر

نظرات

مطالب مرتبط

کمبود تراشه های حافظه و تأثیر بلندمدت آن بر بازار لپ تاپ

چگونه عامل های هوش مصنوعی شفافیت و کنترل کاربر را بهینه می کنند

حمله استخراج مدل به جمینی و راهکارهای محافظت از مالکیت فکری

سامسونگ به صورت محرمانه تست One UI 9 را روی گلکسی آغاز کرد

رندرهای جدید گلکسی S26 و S26+: اصلاح دقیق طراحی

موتورولا دو نسخه جدید فیفا برای سری Razr معرفی می کند

افشای جزئیات حافظه، رنگ بندی و باتری Nothing Phone (4a)

ناثینگ فون (4a): بررسی شایعات و مشخصات فنی

نتایج بنچ مارک ناتینگ فون (4a): چیپ ست، حافظه و هوش مصنوعی

هدفون بی سیم سونی WF-1000XM6؛ سکوت و وضوح صوتی

معرفی جهانی Mate 80 Pro و هدف هواوی برای بازگشت بازار

آیفون با مودم C2: اتصال ۵G ماهواره ای و آینده پوشش