4 دقیقه
اتاق سروری را تصور کنید که از تراشههای سیلیکونی فشرده پر شده است و هر تراشه بخشی از کوهی از متن را پردازش میکند. این همان تصویری است که گروه پژوهشی هواوی پس از اعلام آموزش مدل دیپسیک وی۴-پرو، با ۱.۶ تریلیون پارامتر، ارائه میکند؛ مدلی که گفته میشود با خوشهای متکی بر دستکم هزار تراشه اسند ۹۱۰سی آموزش دیده است.
ماجرا در ظاهر ساده به نظر میرسد: سیلیکون هوش مصنوعی ساخت داخل چین سرانجام توانسته بارکاری مدلهای بزرگ مقیاس را مدیریت کند. اما واقعیت چندلایهتر است. هواوی میگوید تیم پژوهشی بهروزرسانی تمامپارامتری انجام داده است؛ یعنی همه وزنهای مدل آموزش دیدهاند، نه اینکه صرفا یک لایه نازک سازگارکننده به مدل اضافه شده باشد. همچنین طبق گزارشها، مرحله پیشآموزش وی۴-پرو روی پیکرهای عظیم با بیش از ۳۲ تریلیون توکن انجام شده است. پیشآموزش قابلیتهای اصلی مدل را میسازد و مرحله بعدی تنظیم دقیق، رفتار مدل را از طریق تنظیم دستورمحور و همراستاسازی ایمنی شکل میدهد.
چرا این موضوع اهمیت دارد؟ چون آموزش تمامپارامتری بسیار سنگینتر از روشهای سبکتری است که فقط بخش کوچکی از یک شبکه را تغییر میدهند. این نوع آموزش به توان پردازشی پایدار، اتصالهای بینتراشهای باثبات و هماهنگسازی دقیق میان تراشهها نیاز دارد. در گذشته، گروههای چینی هنگام انتقال بارهای سنگین آموزش از سختافزار انویدیا به پلتفرمهای جایگزین، اغلب با گلوگاههای عملکردی و ناپایداری اتصال روبهرو میشدند.

هواوی معماری دوگانه تراشه اسند ۹۱۰سی را نقطه عطفی در این مسیر میداند. آزمونهای مستقل مربوط به آزمایشهای پیشین دیپسیک نشان میدادند که یکی از تراشههای اسند میتواند حدود ۶۰ درصد عملکرد استنتاج اچ۱۰۰ انویدیا را ارائه کند، اما آن آزمون مربوط به استنتاج بود، نه آموزش همزمان و بزرگ مقیاس. بارهای آموزشی ضعفهای متفاوتی را آشکار میکنند: ارتباط جمعی میان تراشهها، مدیریت حافظه و بلوغ نرمافزار همگی به عوامل تعیینکننده تبدیل میشوند.
با این حال، این ادعا همچنان با ملاحظاتی همراه است. پژوهشگران از تکمیل آموزش تمامپارامتری خبر دادهاند، اما هیچ بنچمارک سختگیرانهای ارائه نکردهاند: نه زمان واقعی اجرای آموزش، نه شاخصهای توان عملیاتی، نه مقایسه مستقیم با خوشههای اچ۱۰۰ و نه جزئیات دقیق درباره مصرف برق یا بهرهوری. بدون این اعداد، این اعلامیه دقیقا همان چیزی به نظر میرسد که هست: یک نقطه عطف فنی امیدوارکننده، اما هنوز نه اثباتی مستقل مبنی بر اینکه خوشههای اسند در پیشآموزش پیشرفته با گزینههای تثبیتشده برابری میکنند یا از آنها پیش میافتند.
برای احتیاط، سابقه هم وجود دارد. گزارشهای قبلی میگفتند تلاشها برای آموزش مدل دیگری به نام آر۲ روی سیلیکون هواوی با ناپایداری و کندی اتصال میان تراشهها روبهرو شده بود. عبور از نمایشهای موفق در استنتاج به پیشآموزش پایدار و بزرگ مقیاس، جهشی بزرگ است. شرکتها گاهی میتوانند با مهندسی فشرده یک اجرای واحد را به پایان برسانند، اما همچنان از استحکام لازم برای توسعه منظم مدلها در مقیاس وسیع برخوردار نباشند.
پس پیام این خبر برای اکوسیستم گستردهتر هوش مصنوعی چیست؟ اگر روایت هواوی زیر ذرهبین بررسیهای مستقل دوام بیاورد، نشانهای از افزایش رقابتپذیری سختافزار هوش مصنوعی چین و بلوغ بیشتر پشته نرمافزاری آن برای هماهنگسازی آموزش با هزاران تراشه خواهد بود. اگر چنین نشود، نشان میدهد که هیجان تبلیغاتی هنوز از پیشرفت قابل راستیآزمایی جلوتر است. در هر دو حالت، گام بعدی روشن است: بنچمارکهای مستقل و دادههای شفاف از زمان اجرا.
ما منتظر انتشار همین اعداد خواهیم ماند. راستیآزمایی مستقل نشان خواهد داد که آیا این رویداد یک چرخش واقعی در زیرساخت جهانی هوش مصنوعی است یا صرفا یک اثبات مفهوم بلندپروازانه.
منبع: smarti
نظرات
آرمین
وای، اگه راست باشه رقابت جالب میشه! ولی صبر میکنم تا بنچمارک بیاد، هنوز شک دارم 😅
لابکور
خوبه اما حس تبلیغاتی داره، یک اجرای واحد یعنی چی... تجربه قبلی آر۲ رو یادتون نیست؟ بنچمارک مستقل لازمه
دیتاپالس
واقعا آموزش تمامپارامتری روی هزار تراشه شده؟ اعداد عملکرد و توان مصرفی کجاست؟ فقط ادعا بدون بنچمارک...
ارسال نظر