معماری Huagang مور تردز و تراشه های Lushan و Huashan

معماری Huagang مور تردز و دو تراشهٔ Lushan (برای گرافیک) و Huashan (برای هوش مصنوعی) معرفی شدند؛ تمرکز بر افزایش چگالی محاسبات، حافظهٔ محلی بیشتر، پشتیبانی از FP4/FP64 و مقیاس‌پذیری با MTLink 4.0.

7 نظرات
معماری Huagang مور تردز و تراشه های Lushan و Huashan

10 دقیقه

سازندهٔ چینی پردازنده‌های گرافیکی، Moore Threads، در کنفرانس توسعه‌دهندگان MUSA 2025 معماری نسل بعدی خود را با نام Huagang (به معنی «گلدان گل» یا "Flowerpot") معرفی کرد. این معماری وعدهٔ افزایش قابل توجه در عملکرد هر دو حوزهٔ بازی (گیمینگ) و بارهای کاری هوش مصنوعی را داده و همراه با آن دو تراشهٔ مبتنی بر این طراحی معرفی شدند: Lushan ویژهٔ گرافیک و Huashan برای محاسبات هوش مصنوعی. شرکت برنامه‌ریزی کرده است محصولات مبتنی بر این دو تراشه را در سال 2026 عرضه کند.

دو تراشه، دو مأموریت: Lushan برای بازی و Huashan برای هوش مصنوعی

مغز معماری Huagang بر محاسبات فشرده‌تر و کارآمدتر متمرکز است: واحدهای محاسباتی بازطراحی‌شده که به گفتهٔ Moore Threads حدود ۵۰٪ افزایش چگالی محاسبات را ارائه می‌دهند و به‌طور همزمان حدود ۱۰٪ بهینه‌سازی مصرف انرژی ایجاد می‌کنند. این معماری یک مجموعه دستورالعمل جدید، پشتیبانی از برنامه‌نویسی آسنکرون و زمان‌بندی هوشمندتر رشته‌ها را اضافه می‌کند — ویژگی‌هایی که برای رندرینگ زمان واقعی مدرن و استنتاج‌های مقیاس‌پذیر هوش مصنوعی بهینه شده‌اند.

تراشهٔ Lushan جایگزین کارت‌های قدیمی‌تر MTT S80 و S90 می‌شود و برای هر دو گروه گیمرها و حرفه‌ای‌ها هدف‌گذاری شده است. Moore Threads ادعا می‌کند که در برخی شاخص‌ها بهبودهای چشمگیری حاصل شده: تا ۱۵ برابر عملکرد بهتر در عناوین AAA، تا ۵۰ برابر قوی‌تر بودن رِی‌ترِیسینگ (رهگیری پرتو) و تا ۶۴ برابر افزایش در عملکرد محاسباتی مربوط به هوش مصنوعی در بعضی از بارهای کاری. شرکت همچنین به پیشرفت‌های بزرگ در پردازش هندسه و نرخ پرکردن تکسچرها اشاره می‌کند و از افزایش حافظهٔ محلی از ۱۶ گیگابایت به نهایتاً تا ۶۴ گیگابایت خبر می‌دهد — جهشی محسوس برای صحنه‌های بزرگ و کاربردهای CAD/CAE.

برخلاف آن، Huashan برای محاسبات سنگین هوش مصنوعی طراحی شده است. این تراشه از طرح دو چیپلت (dual-chiplet) استفاده می‌کند که با نه ماژول HBM همراه شده و فرمت‌های عددی FP4 و FP64 را پشتیبانی می‌کند. Moore Threads مقایسهٔ مستقیمی بین Huashan و خانواده‌های Hopper و Blackwell شرکت NVIDIA انجام داده و مدعی است عملکرد نقطه‌اعشاری این تراشه به Blackwell B200 نزدیک است و پهنای باند کلی قابل مقایسه‌ای دارد، به‌ویژه با ویژگی‌های دسترسی به حافظه که قوی توصیف شده‌اند.

Huashan می‌تواند با استفاده از MTLink 4.0 در میان دستگاه‌های متعدد مقیاس‌پذیری پیدا کند؛ پهنای باند اتصال بین‌تراشه‌ای اعلام‌شده برابر 1,314 GB/s است و شرکت به مقیاس‌پذیری نظری بیش از 100,000 واحد اشاره کرده است. چنین اعدادی در صورت تحقق می‌تواند برای خوشه‌های بزرگ هوش مصنوعی و مراکز داده جذاب باشد.

این ادعاها از سوی شرکت مطرح شده‌اند و برای اثبات عملکرد واقعی در دنیای واقعی به بنچمارک‌های مستقل نیاز خواهد بود. با این حال، تمرکز Moore Threads بر ظرفیت حافظه محلی، رندرینگ یکپارچه و سخت‌افزار اختصاصی برای هوش مصنوعی نشان می‌دهد که این شرکت در تلاش است تا شکاف‌ها را در هر دو بخش بازی و دیتاسنتر کاهش دهد. آیا حافظهٔ محلی بزرگ‌تر و بهبود رهگیری پرتو، Lushan را برای کاربران حرفه‌ای-نیمه‌حرفه‌ای (prosumers) جذاب‌تر می‌کند؟ آیا رویکرد چیپلت Huashan و مقیاس‌پذیری MTLink در خوشه‌های هوش مصنوعی موفق خواهد شد؟ انتظار می‌رود اولین کارت‌های مصرفی مبتنی بر Lushan در ۲۰۲۶ و محصولات مبتنی بر Huashan نیز در حوالی همان زمان عرضه شوند.

جزئیات فنی معماری Huagang و نوآوری‌ها

Huagang تلاش کرده است تا با بازطراحی واحدهای محاسباتی (Compute Units) و سازوکار توزیع کار، چگالی محاسباتی را افزایش دهد. این بازطراحی شامل بهینه‌سازی مسیرهای داده، کاهش تاخیر داخلی و بهبود مدیریت انرژی است. مجموعهٔ دستورالعمل جدید می‌تواند دسترسی به قابلیت‌های سخت‌افزاری نوین را برای توسعه‌دهندگان فراهم کند و پشتیبانی از برنامه‌نویسی آسنکرون امکان اجرای هم‌زمان وظایف گرافیکی و محاسباتی را بدون تنگناهای قدیمی تراکنشی (synchronous) افزایش می‌دهد.

زمان‌بندی هوشمندتر رشته‌ها (تردها) به معماری اجازه می‌دهد که منابع محاسباتی را با توجه به نیازهای لحظه‌ای رندرینگ یا استنتاج هوش مصنوعی بهتر تخصیص دهد. این رویکرد برای بارهای کاری ترکیبی که شامل رندرینگ پیچیده، رهگیری پرتو و استنتاج مدل‌های بزرگ است، اهمیت ویژه‌ای دارد. به‌عبارت دیگر، UniTE — معماری رندرینگ یکپارچه معرفی‌شده در Lushan — و بلوک اختصاصی AI که در نمایهٔ تراشه گنجانده شده، نمونه‌ای از این تلفیق سخت‌افزار و نرم‌افزار برای تسریع وظایف مختلط هستند.

آنالیز عملکرد Lushan در بازی و کاربردهای حرفه‌ای

برای بخش بازی، ادعای تا ۱۵ برابر افزایش عملکرد در عنوان‌های AAA نیازمند شواهد مستقل است، اما جهت‌گیری کلی Lushan روشن است: افزایش نرخ فریم واقعی در رزولوشن‌ها و تنظیمات بالاتر، به‌ویژه هنگامی که از حافظهٔ محلی تا ۶۴ گیگابایت بهره ببرد. بازی‌های مدرن بافت‌ها و هندسهٔ زیادی مصرف می‌کنند؛ افزایش پهنای حافظه و نرخ پر کردن تکسچر (texture fill rate) می‌تواند زمان بارگذاری را کاهش دهد و امکان صحنه‌های پیچیده‌تر را فراهم سازد.

برای تولیدکنندگان محتوا و کاربران CAD/CAE، ظرفیت حافظهٔ بیشتر به معنی امکان کار با دیتاست‌ها و مدل‌های بزرگتر روی یک کارت تنها است؛ این مزیت می‌تواند هزینهٔ راه‌حل‌های چندکارت را برای برخی تیم‌ها کاهش دهد. همچنین بهبود در پردازش هندسه (geometry processing) برای نرم‌افزارهای مدل‌سازی و شبیه‌سازی مفید خواهد بود.

Huashan و چشم‌انداز برای متمرکزسازی محاسبات AI

Huashan با طراحی چیپلت و نه ماژول HBM به دنبال فراهم آوردن پهنای باند حافظه بسیار بالا و تاخیر پایین است. پشتیبانی از فرمت‌های عددی متنوع از جمله FP4 و FP64 نشان می‌دهد که تراشه هم برای بارهای دقت پایین (برای آموزش مدل‌های بزرگ که می‌توانند از عددهای کمتر استفاده کنند) و هم برای محاسبات با دقت بالا (مانند شبیه‌سازی‌های علمی یا بارهایی که نیاز به FP64 دارند) طراحی شده است.

مقایسهٔ مستقیم با محصولات NVIDIA — به‌ویژه خانواده‌های Hopper و Blackwell — بخشی از تلاش بازاریابی است تا موقعیت Huashan را در ذهن خریداران حرفه‌ای تثبیت کند. به هر حال، تعیین جایگاه نهایی این تراشه در بازار به پارامترهایی مانند اکوسیستم نرم‌افزاری، پشتیبانی از فریم‌ورک‌های یادگیری عمیق، و کارایی واقعی در بنچمارک‌های مشهور وابسته خواهد بود.

MTLink 4.0، مقیاس‌پذیری و اتصال بین دستگاه‌ها

یکی از نکات برجستهٔ اعلام‌شده در مورد Huashan، امکان مقیاس‌پذیری وسیع از طریق MTLink 4.0 است. پهنای باند 1,314 GB/s برای اتصال بین تراشه‌ها اگر در عمل تحقق یابد، شرایط مناسبی برای انتقال سریع داده بین واحدهای پردازشی فراهم می‌آورد؛ امری که برای آموزش توزیع‌شدهٔ مدل‌های بزرگ حیاتی است. نظریهٔ مقیاس‌پذیری تا بیش از 100,000 واحد بسیار جاه‌طلبانه است و تحقق آن به عوامل متعددی از جمله زیرساخت شبکه‌ای، تأخیر مجموع، و یکپارچه‌سازی نرم‌افزاری وابسته خواهد بود.

نقش حافظهٔ محلی و HBM در کارایی کلی

افزایش حافظهٔ محلی از ۱۶ گیگابایت تا ۶۴ گیگابایت در Lushan یک تغییر معنادار است؛ برای صحنه‌های گرافیکی بزرگ، بافت‌های با کیفیت بالا و پروژه‌های محاسباتی حرفه‌ای، داشتن حافظهٔ بیشتر به معنی کاهش تکیه به حافظهٔ سیستمی (swap) و در نتیجه کاهش تاخیر و افزایش نرخ فریم است. در Huashan نیز وجود نُه ماژول HBM دسترسی سریع و پهنای باند بالا را برای بارهای هوش مصنوعی فراهم می‌کند که معمولاً به انتقال عظیم داده بین حافظه و پردازنده نیاز دارند.

نکات نرم‌افزاری، درایور و اکوسیستم توسعه‌دهندگان

موفقیت هر GPU جدید به اندازهٔ سخت‌افزار وابسته به اکوسیستم نرم‌افزاری و کیفیت درایورها است. پشتیبانی از APIهای مطرح مانند DirectX، Vulkan و سازگاری با فریم‌ورک‌های یادگیری عمیق (مثلاً PyTorch و TensorFlow) برای جذب توسعه‌دهندگان و کاربران حرفه‌ای اهمیت دارد. Moore Threads نیاز دارد که ابزارهای توسعه، مستندات فنی و نمونه‌کدهای به‌روز فراهم کند تا توسعه‌دهندگان بتوانند از قابلیت‌های جدید Huagang بهره‌برداری کنند.

انتظار برای بنچمارک‌های مستقل و معیارهای مقایسه‌ای

اعلامیه‌های عملکردی شرکت‌ها معمولاً در شرایط آزمایشی مطلوب بیان می‌شوند؛ بنابراین تحلیل مستقل توسط وب‌سایت‌های معتبر بنچمارک و مراکز آزمون اهمیت دارد. بررسی‌های مستقل باید شامل تست‌های بازی در رزولوشن‌ها و تنظیمات مختلف، بنچمارک‌های رِی‌ترِیسینگ، مقایسهٔ توان مصرفی به ازای هر فریم، و سناریوهای استنتاج و آموزش مدل‌های یادگیری عمیق باشند. علاوه بر این، تست‌های مقیاس‌پذیری MTLink و کارایی حافظه در Huashan برای ارزیابی توان واقعی آن ضروری است.

مزیت‌های رقابتی و چالش‌های احتمالی

نقاط قوت اعلام‌شده عبارتند از: افزایش چگالی محاسبات، بهبود کارایی انرژی، ظرفیت حافظهٔ بیشتر در Lushan، و طراحی چیپلت با HBM در Huashan برای هوش مصنوعی. این مشخصات می‌تواند Moore Threads را در بازارهای خاص — به‌ویژه در داخل چین و برای مشتریانی که به تنوع تامین‌کنندگان اهمیت می‌دهند — رقابتی کند.

از طرف دیگر، چالش‌ها شامل تثبیت اکوسیستم نرم‌افزاری، دریافت تایید از توسعه‌دهندگان بازی و کارشناسان داده برای خوشه‌های AI، و رقابت با غول‌هایی مانند NVIDIA و AMD است که سال‌ها تجربه و شبکهٔ گسترده‌ای از شرکای سخت‌افزاری و نرم‌افزاری دارند.

پیامد برای بازار مصرف‌کننده و دیتاسنتر

اگر ادعاهای عملکرد Lushan در عمل تأیید شود، این تراشه می‌تواند برای کاربران حرفه‌ای که به حافظهٔ محلی بالاتر و عملکرد رِی‌ترِیسینگ بهتر نیاز دارند جذاب باشد؛ خصوصاً در بازار prosumer که میان گیمرهای حرفه‌ای و تولیدکنندگان محتوا قرار دارد. برای دیتاسنترها و مراکز ابری، Huashan در صورتی که عملکرد مورد ادعا در مقیاس بالا ثابت بماند و هزینه به ازای هر عملیات نیز رقابتی باشد، می‌تواند یک گزینهٔ جذاب برای استقرار خوشه‌های استنتاج و آموزش مدل‌های بزرگ باشد.

جمع‌بندی و نگاه به آینده

معماری Huagang و تراشه‌های Lushan و Huashan نشان‌دهندهٔ گسترش رقابت در بازار GPUهاست؛ رقابتی که می‌تواند نوآوری و گزینه‌های بیشتر برای کاربران نهایی به همراه آورد. Moore Threads با تمرکز بر افزایش حافظهٔ محلی، رندرینگ یکپارچه و سخت‌افزار اختصاصی برای هوش مصنوعی تلاش می‌کند جایگاه خودش را در دو حوزهٔ بازی و دیتاسنتر تثبیت کند. اما تحقق وعده‌ها مستلزم اثبات در بنچمارک‌های مستقل، پشتیبانی نرم‌افزاری مستحکم و پذیرش بازار است. در نهایت، عرضهٔ کارت‌های Lushan و محصولات Huashan در سال ۲۰۲۶ نقطهٔ عطفی خواهد بود که باید روی آن نظارت کرد.

منبع: gizmochina

ارسال نظر

نظرات

آرتم_

اگه Huashan واقعا نزدیک B200 باشه، دیتاسنترها باید حواسشون باشه. منتظر نمونه‌ها ۲۰۲۶

مهران

تو شرکت دیدم چیپلت‌ها گاهی دردسرساز میشن، MTLink باید بدون لگ باشه تا جواب بده.

سیتی‌لاین

بعضی اعداد مثل ۵۰ برابر رِی‌ترِیسینگ اغراقیه، ولی اگه نیمه‌ش درست باشه جذابه.

لابکور

فناوری جالب؛ ولی اکوسیستم و درایورها مهم‌ترن. منتظر بنچمارک‌های مستقل هستم.

توربومک

حافظه ۶۴ گیگ روی کارت؟ برا پروسوما عالیه، ولی قیمت و راندمان واقعی مهمه

کوین‌سنج

وااای؛ ادعای 100k واحد؟ اگه واقعی باشه، بازار کیف می‌کنه ولی خیلی بعیده... 😉

دیتاپال

واقعاً این اعداد قابله‌باورها؟ بنچمارک مستقل لازم، تبلیغات زیاده، صبر کنیم ببینیم.

مطالب مرتبط