10 دقیقه
سازندهٔ چینی پردازندههای گرافیکی، Moore Threads، در کنفرانس توسعهدهندگان MUSA 2025 معماری نسل بعدی خود را با نام Huagang (به معنی «گلدان گل» یا "Flowerpot") معرفی کرد. این معماری وعدهٔ افزایش قابل توجه در عملکرد هر دو حوزهٔ بازی (گیمینگ) و بارهای کاری هوش مصنوعی را داده و همراه با آن دو تراشهٔ مبتنی بر این طراحی معرفی شدند: Lushan ویژهٔ گرافیک و Huashan برای محاسبات هوش مصنوعی. شرکت برنامهریزی کرده است محصولات مبتنی بر این دو تراشه را در سال 2026 عرضه کند.
دو تراشه، دو مأموریت: Lushan برای بازی و Huashan برای هوش مصنوعی
مغز معماری Huagang بر محاسبات فشردهتر و کارآمدتر متمرکز است: واحدهای محاسباتی بازطراحیشده که به گفتهٔ Moore Threads حدود ۵۰٪ افزایش چگالی محاسبات را ارائه میدهند و بهطور همزمان حدود ۱۰٪ بهینهسازی مصرف انرژی ایجاد میکنند. این معماری یک مجموعه دستورالعمل جدید، پشتیبانی از برنامهنویسی آسنکرون و زمانبندی هوشمندتر رشتهها را اضافه میکند — ویژگیهایی که برای رندرینگ زمان واقعی مدرن و استنتاجهای مقیاسپذیر هوش مصنوعی بهینه شدهاند.
تراشهٔ Lushan جایگزین کارتهای قدیمیتر MTT S80 و S90 میشود و برای هر دو گروه گیمرها و حرفهایها هدفگذاری شده است. Moore Threads ادعا میکند که در برخی شاخصها بهبودهای چشمگیری حاصل شده: تا ۱۵ برابر عملکرد بهتر در عناوین AAA، تا ۵۰ برابر قویتر بودن رِیترِیسینگ (رهگیری پرتو) و تا ۶۴ برابر افزایش در عملکرد محاسباتی مربوط به هوش مصنوعی در بعضی از بارهای کاری. شرکت همچنین به پیشرفتهای بزرگ در پردازش هندسه و نرخ پرکردن تکسچرها اشاره میکند و از افزایش حافظهٔ محلی از ۱۶ گیگابایت به نهایتاً تا ۶۴ گیگابایت خبر میدهد — جهشی محسوس برای صحنههای بزرگ و کاربردهای CAD/CAE.

برخلاف آن، Huashan برای محاسبات سنگین هوش مصنوعی طراحی شده است. این تراشه از طرح دو چیپلت (dual-chiplet) استفاده میکند که با نه ماژول HBM همراه شده و فرمتهای عددی FP4 و FP64 را پشتیبانی میکند. Moore Threads مقایسهٔ مستقیمی بین Huashan و خانوادههای Hopper و Blackwell شرکت NVIDIA انجام داده و مدعی است عملکرد نقطهاعشاری این تراشه به Blackwell B200 نزدیک است و پهنای باند کلی قابل مقایسهای دارد، بهویژه با ویژگیهای دسترسی به حافظه که قوی توصیف شدهاند.
Huashan میتواند با استفاده از MTLink 4.0 در میان دستگاههای متعدد مقیاسپذیری پیدا کند؛ پهنای باند اتصال بینتراشهای اعلامشده برابر 1,314 GB/s است و شرکت به مقیاسپذیری نظری بیش از 100,000 واحد اشاره کرده است. چنین اعدادی در صورت تحقق میتواند برای خوشههای بزرگ هوش مصنوعی و مراکز داده جذاب باشد.
این ادعاها از سوی شرکت مطرح شدهاند و برای اثبات عملکرد واقعی در دنیای واقعی به بنچمارکهای مستقل نیاز خواهد بود. با این حال، تمرکز Moore Threads بر ظرفیت حافظه محلی، رندرینگ یکپارچه و سختافزار اختصاصی برای هوش مصنوعی نشان میدهد که این شرکت در تلاش است تا شکافها را در هر دو بخش بازی و دیتاسنتر کاهش دهد. آیا حافظهٔ محلی بزرگتر و بهبود رهگیری پرتو، Lushan را برای کاربران حرفهای-نیمهحرفهای (prosumers) جذابتر میکند؟ آیا رویکرد چیپلت Huashan و مقیاسپذیری MTLink در خوشههای هوش مصنوعی موفق خواهد شد؟ انتظار میرود اولین کارتهای مصرفی مبتنی بر Lushan در ۲۰۲۶ و محصولات مبتنی بر Huashan نیز در حوالی همان زمان عرضه شوند.
جزئیات فنی معماری Huagang و نوآوریها
Huagang تلاش کرده است تا با بازطراحی واحدهای محاسباتی (Compute Units) و سازوکار توزیع کار، چگالی محاسباتی را افزایش دهد. این بازطراحی شامل بهینهسازی مسیرهای داده، کاهش تاخیر داخلی و بهبود مدیریت انرژی است. مجموعهٔ دستورالعمل جدید میتواند دسترسی به قابلیتهای سختافزاری نوین را برای توسعهدهندگان فراهم کند و پشتیبانی از برنامهنویسی آسنکرون امکان اجرای همزمان وظایف گرافیکی و محاسباتی را بدون تنگناهای قدیمی تراکنشی (synchronous) افزایش میدهد.
زمانبندی هوشمندتر رشتهها (تردها) به معماری اجازه میدهد که منابع محاسباتی را با توجه به نیازهای لحظهای رندرینگ یا استنتاج هوش مصنوعی بهتر تخصیص دهد. این رویکرد برای بارهای کاری ترکیبی که شامل رندرینگ پیچیده، رهگیری پرتو و استنتاج مدلهای بزرگ است، اهمیت ویژهای دارد. بهعبارت دیگر، UniTE — معماری رندرینگ یکپارچه معرفیشده در Lushan — و بلوک اختصاصی AI که در نمایهٔ تراشه گنجانده شده، نمونهای از این تلفیق سختافزار و نرمافزار برای تسریع وظایف مختلط هستند.
آنالیز عملکرد Lushan در بازی و کاربردهای حرفهای
برای بخش بازی، ادعای تا ۱۵ برابر افزایش عملکرد در عنوانهای AAA نیازمند شواهد مستقل است، اما جهتگیری کلی Lushan روشن است: افزایش نرخ فریم واقعی در رزولوشنها و تنظیمات بالاتر، بهویژه هنگامی که از حافظهٔ محلی تا ۶۴ گیگابایت بهره ببرد. بازیهای مدرن بافتها و هندسهٔ زیادی مصرف میکنند؛ افزایش پهنای حافظه و نرخ پر کردن تکسچر (texture fill rate) میتواند زمان بارگذاری را کاهش دهد و امکان صحنههای پیچیدهتر را فراهم سازد.
برای تولیدکنندگان محتوا و کاربران CAD/CAE، ظرفیت حافظهٔ بیشتر به معنی امکان کار با دیتاستها و مدلهای بزرگتر روی یک کارت تنها است؛ این مزیت میتواند هزینهٔ راهحلهای چندکارت را برای برخی تیمها کاهش دهد. همچنین بهبود در پردازش هندسه (geometry processing) برای نرمافزارهای مدلسازی و شبیهسازی مفید خواهد بود.
Huashan و چشمانداز برای متمرکزسازی محاسبات AI
Huashan با طراحی چیپلت و نه ماژول HBM به دنبال فراهم آوردن پهنای باند حافظه بسیار بالا و تاخیر پایین است. پشتیبانی از فرمتهای عددی متنوع از جمله FP4 و FP64 نشان میدهد که تراشه هم برای بارهای دقت پایین (برای آموزش مدلهای بزرگ که میتوانند از عددهای کمتر استفاده کنند) و هم برای محاسبات با دقت بالا (مانند شبیهسازیهای علمی یا بارهایی که نیاز به FP64 دارند) طراحی شده است.
مقایسهٔ مستقیم با محصولات NVIDIA — بهویژه خانوادههای Hopper و Blackwell — بخشی از تلاش بازاریابی است تا موقعیت Huashan را در ذهن خریداران حرفهای تثبیت کند. به هر حال، تعیین جایگاه نهایی این تراشه در بازار به پارامترهایی مانند اکوسیستم نرمافزاری، پشتیبانی از فریمورکهای یادگیری عمیق، و کارایی واقعی در بنچمارکهای مشهور وابسته خواهد بود.
MTLink 4.0، مقیاسپذیری و اتصال بین دستگاهها
یکی از نکات برجستهٔ اعلامشده در مورد Huashan، امکان مقیاسپذیری وسیع از طریق MTLink 4.0 است. پهنای باند 1,314 GB/s برای اتصال بین تراشهها اگر در عمل تحقق یابد، شرایط مناسبی برای انتقال سریع داده بین واحدهای پردازشی فراهم میآورد؛ امری که برای آموزش توزیعشدهٔ مدلهای بزرگ حیاتی است. نظریهٔ مقیاسپذیری تا بیش از 100,000 واحد بسیار جاهطلبانه است و تحقق آن به عوامل متعددی از جمله زیرساخت شبکهای، تأخیر مجموع، و یکپارچهسازی نرمافزاری وابسته خواهد بود.
نقش حافظهٔ محلی و HBM در کارایی کلی
افزایش حافظهٔ محلی از ۱۶ گیگابایت تا ۶۴ گیگابایت در Lushan یک تغییر معنادار است؛ برای صحنههای گرافیکی بزرگ، بافتهای با کیفیت بالا و پروژههای محاسباتی حرفهای، داشتن حافظهٔ بیشتر به معنی کاهش تکیه به حافظهٔ سیستمی (swap) و در نتیجه کاهش تاخیر و افزایش نرخ فریم است. در Huashan نیز وجود نُه ماژول HBM دسترسی سریع و پهنای باند بالا را برای بارهای هوش مصنوعی فراهم میکند که معمولاً به انتقال عظیم داده بین حافظه و پردازنده نیاز دارند.
نکات نرمافزاری، درایور و اکوسیستم توسعهدهندگان
موفقیت هر GPU جدید به اندازهٔ سختافزار وابسته به اکوسیستم نرمافزاری و کیفیت درایورها است. پشتیبانی از APIهای مطرح مانند DirectX، Vulkan و سازگاری با فریمورکهای یادگیری عمیق (مثلاً PyTorch و TensorFlow) برای جذب توسعهدهندگان و کاربران حرفهای اهمیت دارد. Moore Threads نیاز دارد که ابزارهای توسعه، مستندات فنی و نمونهکدهای بهروز فراهم کند تا توسعهدهندگان بتوانند از قابلیتهای جدید Huagang بهرهبرداری کنند.
انتظار برای بنچمارکهای مستقل و معیارهای مقایسهای
اعلامیههای عملکردی شرکتها معمولاً در شرایط آزمایشی مطلوب بیان میشوند؛ بنابراین تحلیل مستقل توسط وبسایتهای معتبر بنچمارک و مراکز آزمون اهمیت دارد. بررسیهای مستقل باید شامل تستهای بازی در رزولوشنها و تنظیمات مختلف، بنچمارکهای رِیترِیسینگ، مقایسهٔ توان مصرفی به ازای هر فریم، و سناریوهای استنتاج و آموزش مدلهای یادگیری عمیق باشند. علاوه بر این، تستهای مقیاسپذیری MTLink و کارایی حافظه در Huashan برای ارزیابی توان واقعی آن ضروری است.
مزیتهای رقابتی و چالشهای احتمالی
نقاط قوت اعلامشده عبارتند از: افزایش چگالی محاسبات، بهبود کارایی انرژی، ظرفیت حافظهٔ بیشتر در Lushan، و طراحی چیپلت با HBM در Huashan برای هوش مصنوعی. این مشخصات میتواند Moore Threads را در بازارهای خاص — بهویژه در داخل چین و برای مشتریانی که به تنوع تامینکنندگان اهمیت میدهند — رقابتی کند.
از طرف دیگر، چالشها شامل تثبیت اکوسیستم نرمافزاری، دریافت تایید از توسعهدهندگان بازی و کارشناسان داده برای خوشههای AI، و رقابت با غولهایی مانند NVIDIA و AMD است که سالها تجربه و شبکهٔ گستردهای از شرکای سختافزاری و نرمافزاری دارند.
پیامد برای بازار مصرفکننده و دیتاسنتر
اگر ادعاهای عملکرد Lushan در عمل تأیید شود، این تراشه میتواند برای کاربران حرفهای که به حافظهٔ محلی بالاتر و عملکرد رِیترِیسینگ بهتر نیاز دارند جذاب باشد؛ خصوصاً در بازار prosumer که میان گیمرهای حرفهای و تولیدکنندگان محتوا قرار دارد. برای دیتاسنترها و مراکز ابری، Huashan در صورتی که عملکرد مورد ادعا در مقیاس بالا ثابت بماند و هزینه به ازای هر عملیات نیز رقابتی باشد، میتواند یک گزینهٔ جذاب برای استقرار خوشههای استنتاج و آموزش مدلهای بزرگ باشد.
جمعبندی و نگاه به آینده
معماری Huagang و تراشههای Lushan و Huashan نشاندهندهٔ گسترش رقابت در بازار GPUهاست؛ رقابتی که میتواند نوآوری و گزینههای بیشتر برای کاربران نهایی به همراه آورد. Moore Threads با تمرکز بر افزایش حافظهٔ محلی، رندرینگ یکپارچه و سختافزار اختصاصی برای هوش مصنوعی تلاش میکند جایگاه خودش را در دو حوزهٔ بازی و دیتاسنتر تثبیت کند. اما تحقق وعدهها مستلزم اثبات در بنچمارکهای مستقل، پشتیبانی نرمافزاری مستحکم و پذیرش بازار است. در نهایت، عرضهٔ کارتهای Lushan و محصولات Huashan در سال ۲۰۲۶ نقطهٔ عطفی خواهد بود که باید روی آن نظارت کرد.
منبع: gizmochina
نظرات
آرتم_
اگه Huashan واقعا نزدیک B200 باشه، دیتاسنترها باید حواسشون باشه. منتظر نمونهها ۲۰۲۶
مهران
تو شرکت دیدم چیپلتها گاهی دردسرساز میشن، MTLink باید بدون لگ باشه تا جواب بده.
سیتیلاین
بعضی اعداد مثل ۵۰ برابر رِیترِیسینگ اغراقیه، ولی اگه نیمهش درست باشه جذابه.
لابکور
فناوری جالب؛ ولی اکوسیستم و درایورها مهمترن. منتظر بنچمارکهای مستقل هستم.
توربومک
حافظه ۶۴ گیگ روی کارت؟ برا پروسوما عالیه، ولی قیمت و راندمان واقعی مهمه
کوینسنج
وااای؛ ادعای 100k واحد؟ اگه واقعی باشه، بازار کیف میکنه ولی خیلی بعیده... 😉
دیتاپال
واقعاً این اعداد قابلهباورها؟ بنچمارک مستقل لازم، تبلیغات زیاده، صبر کنیم ببینیم.
ارسال نظر