تراشه ورا انویدیا؛ جهشی تازه برای سرورهای هوش مصنوعی

پردازنده ورا انویدیا با معماری آرم، پهنای باند حافظه بالا و ارتباط سریع با GPU روبین، می‌تواند مسیر تازه‌ای برای سرورهای هوش مصنوعی و مراکز داده ایجاد کند.

3 نظرات
تراشه ورا انویدیا؛ جهشی تازه برای سرورهای هوش مصنوعی

5 دقیقه

مراکز داده به ندرت یک‌شبه دگرگون می‌شوند. اما وقتی این اتفاق می‌افتد، از صدای یکنواخت سرورها می‌توان آن را فهمید. رک‌ها متراکم‌تر می‌شوند. تأخیر کاهش می‌یابد. هزینه‌ها از نو بازچینی می‌شوند. انویدیا شرط بسته است که این صدای تازه به‌زودی نامی جدید داشته باشد: ورا.

انویدیا می‌گوید ورا حدود ۱.۸ برابر عملکرد بیشتری نسبت به تراشه‌های پیشرو x86 ارائه می‌دهد. این ادعا تیتر اصلی است. اما سخت‌افزاری که پشت آن قرار دارد، نقطه شروع بحثی جدی‌تر است. ورا نیمه پردازنده مرکزی پلتفرم ورا روبین است؛ ترکیبی از یک پردازنده مبتنی بر آرم با پردازنده گرافیکی روبین، برای بارهای کاری‌ای که به پهنای باند حافظه بسیار بالا و هماهنگی نزدیک میان پردازنده مرکزی و پردازنده گرافیکی نیاز دارند.

چرا ورا نگاه به سرورهای هوش مصنوعی را تغییر می‌دهد

ورا بر پایه ۸۸ هسته الیمپوس با چندریسمانی فضایی ساخته شده و در هر سوکت ۱۷۶ رشته پردازشی ارائه می‌دهد. حافظه در این معماری موضوعی فرعی نیست: یک پردازنده مرکزی می‌تواند با حداکثر ۱.۵ ترابایت حافظه LPDDR5X همراه شود و حدود ۱.۲ ترابایت بر ثانیه پهنای باند فراهم کند. برای استنتاج هوش مصنوعی و مدل‌های عامل‌محور که پیوسته زمینه و وزن‌ها را پردازش می‌کنند، همین پهنای باند معیار بقا است.

به مقیاس فکر کنید. انویدیا یک رک پردازنده ورا را به نمایش گذاشته که ۲۵۶ پردازنده مرکزی را در یک شاسی جای می‌دهد. این یعنی ۲۲٬۵۲۸ هسته و ۴۵٬۰۵۶ رشته پردازشی. چنین تراکمی همان چیزی است که ارائه‌دهندگان خدمات ابری هنگام انتقال مدل‌های بزرگ از جزیره‌های پرهزینه و کاملا وابسته به پردازنده گرافیکی به معماری‌های منعطف‌تر و پردازنده‌محور، به آن نیاز دارند.

ورا در کنار پردازنده‌های گرافیکی روبین نیز عملکرد هماهنگی دارد. پیکربندی NVL72 تعداد ۳۶ پردازنده ورا را با ۷۲ پردازنده گرافیکی روبین جفت می‌کند و انویدیا از ارتباط داخلی NVLink-C2C با سرعت ۱.۸ ترابایت بر ثانیه میان آن‌ها سخن می‌گوید. هدف، جایگزین کردن پردازنده‌های گرافیکی نیست، بلکه بازطراحی رابطه میان میزبان و شتاب‌دهنده است تا داده‌ها سریع‌تر جابه‌جا شوند و نرم‌افزار با گلوگاه‌های کمتری روبه‌رو شود.

کاربردها آشنا هستند اما دامنه آن‌ها رو به گسترش است: هوش مصنوعی عامل‌محور، یادگیری تقویتی، تحلیل‌های سنگین و استنتاج در مقیاس بزرگ. ورا می‌تواند برای این وظایف به‌عنوان یک گره محاسباتی مستقل عمل کند، یا نقش میزبانی را بر عهده بگیرد که پردازنده‌های گرافیکی روبین را پیوسته تغذیه و همگام نگه می‌دارد.

فرایند پذیرش این پلتفرم از همین حالا آغاز شده است. آنتروپیک، اوپن‌ای‌آی و اسپیس‌ایکس‌ای‌آی برای بارهای کاری مدل‌های خود به این پلتفرم متعهد شده‌اند و ابرمقیاس‌هایی مانند بایت‌دنس، کورویو و زیرساخت ابری اوراکل نیز به آن پیوسته‌اند. در بخش سیستم‌ها، دل، اچ‌پی، لنوو و سوپرمیکرو سرورهای مبتنی بر ورا را عرضه خواهند کرد. تولیدکنندگان بزرگی از جمله ایسوس، کامپال، فاکسکان، گیگابایت، پگاترون، کوانتا کلاد تکنولوژی، ویسترون و وی‌وین نیز سخت‌افزارهایی بر پایه این تراشه تولید می‌کنند.

حتی مشتریان غیرسنتی هم به ورا توجه نشان داده‌اند. بورس نیویورک که روزانه حدود ۱.۱ تریلیون پیام را پردازش می‌کند، همراه با شرکای خود ردپاندا و اچ‌پی در حال بررسی ورا برای بازنگری در زیرساخت‌های حساس به تأخیر است. چنین علاقه‌ای نشان می‌دهد این پلتفرم فقط برای آموزش مدل‌ها ارزیابی نمی‌شود، بلکه برای سیستم‌های بلادرنگ و پرترافیکی بررسی می‌شود که در آن‌ها هر میکروثانیه اهمیت دارد.

برای انویدیا، ورا ادامه همان الگوی آشنا است: گرفتن آموخته‌ها از استقرارهای هوش مصنوعی مبتنی بر پردازنده گرافیکی و به‌کارگیری آن‌ها در طراحی پردازنده مرکزی. این شرکت پیش‌تر دستاوردهای هوش مصنوعی خود را در محصولاتی مانند RTX Spark وارد کرده بود؛ محصولاتی که پردازنده‌های گریس، پردازنده‌های گرافیکی بلک‌ول و حافظه LPDDR5X را در کانون توجه قرار دادند. اکنون بحث از عملکرد پردازنده گرافیکی در یک گره منفرد، به توازن و توان عملیاتی در سراسر سیستم تغییر کرده است.

آیا ورا می‌تواند x86 را در مرکز داده کنار بزند؟ نه یک‌شبه. اما این معماری دقیقا نقاط دردناک بارهای کاری هوش مصنوعی را هدف گرفته است: پهنای باند حافظه، تراکم رشته‌های پردازشی و ارتباط سریع میان پردازنده مرکزی و پردازنده گرافیکی. برای مهندسان و معمارانی که با هزینه مدل‌ها و توان عملیاتی دست‌وپنجه نرم می‌کنند، این یک آغاز عملی و مهم است.

منبع: gsmarena

ارسال نظر

نظرات

پمپزون

ما تو شرکت کلی مشکل پهنای باند داشتیم، اگر ورا واقعا اینو حل کنه سرویس‌های بلادرنگ متحول میشن. اما نگران هزینه و قفل اکوسیستمم، پذیرش یک شبه نیست

آرمین

۱.۸ برابر؟ واقعا توی دنیای واقعی هم اینطوریه یا فقط بنچمارک؟

دیتاپ

وای این یعنی دیتاسنترها دارن دوباره بازشکل می‌گیرن؟ تراکم... و اون ۱.۵ ترابایت پهنای حافظه، دیوونه‌ست! هزینه‌ها چی میشه واقعن

مطالب مرتبط