آزمون بزرگ هواوی با تراشه اسند برای آموزش دیپ سیک جدید

هواوی می‌گوید مدل ۱.۶ تریلیون پارامتری دیپ‌سیک وی۴-پرو را با خوشه‌ای از تراشه‌های اسند ۹۱۰سی آموزش داده است؛ ادعایی مهم که هنوز به بنچمارک مستقل و داده‌های شفاف نیاز دارد.

3 نظرات
آزمون بزرگ هواوی با تراشه اسند برای آموزش دیپ سیک جدید

4 دقیقه

اتاق سروری را تصور کنید که از تراشه‌های سیلیکونی فشرده پر شده است و هر تراشه بخشی از کوهی از متن را پردازش می‌کند. این همان تصویری است که گروه پژوهشی هواوی پس از اعلام آموزش مدل دیپ‌سیک وی۴-پرو، با ۱.۶ تریلیون پارامتر، ارائه می‌کند؛ مدلی که گفته می‌شود با خوشه‌ای متکی بر دست‌کم هزار تراشه اسند ۹۱۰سی آموزش دیده است.

ماجرا در ظاهر ساده به نظر می‌رسد: سیلیکون هوش مصنوعی ساخت داخل چین سرانجام توانسته بارکاری مدل‌های بزرگ مقیاس را مدیریت کند. اما واقعیت چندلایه‌تر است. هواوی می‌گوید تیم پژوهشی به‌روزرسانی تمام‌پارامتری انجام داده است؛ یعنی همه وزن‌های مدل آموزش دیده‌اند، نه اینکه صرفا یک لایه نازک سازگارکننده به مدل اضافه شده باشد. همچنین طبق گزارش‌ها، مرحله پیش‌آموزش وی۴-پرو روی پیکره‌ای عظیم با بیش از ۳۲ تریلیون توکن انجام شده است. پیش‌آموزش قابلیت‌های اصلی مدل را می‌سازد و مرحله بعدی تنظیم دقیق، رفتار مدل را از طریق تنظیم دستورمحور و هم‌راستاسازی ایمنی شکل می‌دهد.

چرا این موضوع اهمیت دارد؟ چون آموزش تمام‌پارامتری بسیار سنگین‌تر از روش‌های سبک‌تری است که فقط بخش کوچکی از یک شبکه را تغییر می‌دهند. این نوع آموزش به توان پردازشی پایدار، اتصال‌های بین‌تراشه‌ای باثبات و هماهنگ‌سازی دقیق میان تراشه‌ها نیاز دارد. در گذشته، گروه‌های چینی هنگام انتقال بارهای سنگین آموزش از سخت‌افزار انویدیا به پلتفرم‌های جایگزین، اغلب با گلوگاه‌های عملکردی و ناپایداری اتصال روبه‌رو می‌شدند.

هواوی معماری دوگانه تراشه اسند ۹۱۰سی را نقطه عطفی در این مسیر می‌داند. آزمون‌های مستقل مربوط به آزمایش‌های پیشین دیپ‌سیک نشان می‌دادند که یکی از تراشه‌های اسند می‌تواند حدود ۶۰ درصد عملکرد استنتاج اچ۱۰۰ انویدیا را ارائه کند، اما آن آزمون مربوط به استنتاج بود، نه آموزش هم‌زمان و بزرگ مقیاس. بارهای آموزشی ضعف‌های متفاوتی را آشکار می‌کنند: ارتباط جمعی میان تراشه‌ها، مدیریت حافظه و بلوغ نرم‌افزار همگی به عوامل تعیین‌کننده تبدیل می‌شوند.

با این حال، این ادعا همچنان با ملاحظاتی همراه است. پژوهشگران از تکمیل آموزش تمام‌پارامتری خبر داده‌اند، اما هیچ بنچمارک سخت‌گیرانه‌ای ارائه نکرده‌اند: نه زمان واقعی اجرای آموزش، نه شاخص‌های توان عملیاتی، نه مقایسه مستقیم با خوشه‌های اچ۱۰۰ و نه جزئیات دقیق درباره مصرف برق یا بهره‌وری. بدون این اعداد، این اعلامیه دقیقا همان چیزی به نظر می‌رسد که هست: یک نقطه عطف فنی امیدوارکننده، اما هنوز نه اثباتی مستقل مبنی بر اینکه خوشه‌های اسند در پیش‌آموزش پیشرفته با گزینه‌های تثبیت‌شده برابری می‌کنند یا از آن‌ها پیش می‌افتند.

برای احتیاط، سابقه هم وجود دارد. گزارش‌های قبلی می‌گفتند تلاش‌ها برای آموزش مدل دیگری به نام آر۲ روی سیلیکون هواوی با ناپایداری و کندی اتصال میان تراشه‌ها روبه‌رو شده بود. عبور از نمایش‌های موفق در استنتاج به پیش‌آموزش پایدار و بزرگ مقیاس، جهشی بزرگ است. شرکت‌ها گاهی می‌توانند با مهندسی فشرده یک اجرای واحد را به پایان برسانند، اما همچنان از استحکام لازم برای توسعه منظم مدل‌ها در مقیاس وسیع برخوردار نباشند.

پس پیام این خبر برای اکوسیستم گسترده‌تر هوش مصنوعی چیست؟ اگر روایت هواوی زیر ذره‌بین بررسی‌های مستقل دوام بیاورد، نشانه‌ای از افزایش رقابت‌پذیری سخت‌افزار هوش مصنوعی چین و بلوغ بیشتر پشته نرم‌افزاری آن برای هماهنگ‌سازی آموزش با هزاران تراشه خواهد بود. اگر چنین نشود، نشان می‌دهد که هیجان تبلیغاتی هنوز از پیشرفت قابل راستی‌آزمایی جلوتر است. در هر دو حالت، گام بعدی روشن است: بنچمارک‌های مستقل و داده‌های شفاف از زمان اجرا.

ما منتظر انتشار همین اعداد خواهیم ماند. راستی‌آزمایی مستقل نشان خواهد داد که آیا این رویداد یک چرخش واقعی در زیرساخت جهانی هوش مصنوعی است یا صرفا یک اثبات مفهوم بلندپروازانه.

منبع: smarti

ارسال نظر

نظرات

آرمین

وای، اگه راست باشه رقابت جالب میشه! ولی صبر میکنم تا بنچمارک بیاد، هنوز شک دارم 😅

لابکور

خوبه اما حس تبلیغاتی داره، یک اجرای واحد یعنی چی... تجربه قبلی آر۲ رو یادتون نیست؟ بنچمارک مستقل لازمه

دیتاپالس

واقعا آموزش تمام‌پارامتری روی هزار تراشه شده؟ اعداد عملکرد و توان مصرفی کجاست؟ فقط ادعا بدون بنچمارک...

مطالب مرتبط