10 دقیقه
تیینیایآی باور دارد که گام بعدی در سختافزار هوش مصنوعی دیگر در رکهای دیتاسنتر جا نخواهد گرفت؛ بلکه در کف دست شما خواهد نشست. این استارتاپ «پوکِتلب» را معرفی کرده است؛ یک «ابرکامپیوتر» کوچک به اندازهٔ کف دست که برای اجرای کامل مدلهای زبانی بزرگ (LLM) با حدود ۱۲۰ میلیارد پارامتر بهصورت کاملاً آفلاین طراحی شده است.
کوچک اما با ادعاهای بزرگ
ابعاد را دستکم نگیرید. پوکِتلب با اندازه تقریباً ۱۴.۲ × ۸ × ۲.۵۳ سانتیمتر و وزن نزدیک به ۳۰۰ گرم بهطور واقعی قابل حمل طراحی شده است. در عین حال تیینیایآی میگوید این دستگاه میتواند مدلهای «سنگین» بازمتن را میزبانی کند؛ مدلهایی که معمولاً به خوشههای گرانقیمت GPU نیاز دارند و قادر به ارائهٔ استدلال در سطح دکترا، تحلیلهای چندمرحلهای پیچیده و درک عمیق متنی بدون اتکا به فضای ابری هستند.
این ادعاها در حوزهٔ «هوش مصنوعی لبه» (edge AI) اهمیت ویژهای دارند، زیرا اجرای LLMهای بزرگ در دستگاههای محلی میتواند تاخیرها (latency) را کاهش داده، هزینههای عملیاتی را پایین بیاورد و حریم خصوصی را تقویت کند. بنابراین پوکِتلب نه فقط یک محصول سختافزاری بلکه یک نمونهٔ اولیه از جهتگیری جدید در معماری زیرساختهای هوش مصنوعی به شمار میآید.
مشخصات فنی که هیجان را توجیه میکنند
در ظاهر، پوکِتلب شبیه یک سرور متراکم کوچک به نظر میرسد. نکات کلیدی شامل موارد زیر هستند:
- پردازندهٔ ARMv9.2 دوازده هستهای برای وظایف محاسبات عمومی
- ماژول محاسباتی ناهمگن سفارشی (SoC + NPU مجزا) که در مجموع حدود ۱۹۰ TOPS ارائه میدهد
- ۸۰ گیگابایت حافظهٔ LPDDR5X و یک SSD یک ترابایتی برای میزبانی مدلهای بزرگ و ورودی/خروجی سریع
- قابلیت اجرای مدلهای LLM تا ۱۲۰ میلیارد پارامتر بهصورت کامل روی دستگاه با استفاده از کوانتیزهسازیهای تهاجمی (aggressive quantization)
- پروفایل انرژی با هدف TDP حدود ۳۰ وات و توان میانگین سیستم نزدیک به ۶۵ وات — بسیار کمتر از پیکربندیهای سروری مشابه
- عملکرد «آفلاین-محور» با امکان یککلیک برای استقرار بسیاری از مدلهای متنباز و فریمورکهای عامل (agent frameworks)
ترکیب این اجزا یک پشتهٔ سختافزاری و نرمافزاری را میسازد که هدفش آوردن «حافظهٔ مدل» و مسیر اجرای پیچیده به فضای محاسبات محلی است. ۸۰ گیگابایت LPDDR5X بهویژه برای نگهداری نماهای کوانتیزهشدهٔ شبکیهٔ وزنها و دادههای پایه اهمیت دارد و SSD یک ترا برای بارگذاری سریع و swap محیط اجرا کمک میکند.

چطور میتواند مدل ۱۲۰B را در جیبتان اجرا کند؟
راز کار، ترکیبی از چگالی سختافزار و ابتکارات نرمافزاری است. پوکِتلب دارای یک NPU مجزا با توان TOPS بالا است، اما تیینیایآی دو تکنیک کلیدی را نیز بهکار گرفته تا مدلهای بزرگ روی سیلیکون محدود عملیاتی بمانند:
- TurboSparse — روشی برای فعالسازیهای پراکنده در سطح نورون که کارایی استنتاج را بهطرز چشمگیری افزایش میدهد بدون آنکه استدلال مدل را کاهش دهد. در عمل این یعنی محاسبات کمتر با حفظ سطح عقلانیت مدل.
- PowerInfer — یک موتور استنتاج ناهمگن متنباز (محبوب در گیتهاب) که بهطور پویا بارهای کاری را بین CPU و NPU تقسیم میکند. این موتور محاسبات را بهگونهای هماهنگ میکند که توان مشابه سرورهای کلاس بالا را با کسری از مصرف انرژی ایجاد کند.
در کنار این دو، کوانتیزهسازیهای تهاجمی (برای مثال 8-bit، 4-bit و روشهای سفارشیتر مانند quant-aware fine-tuning یا mixed-precision quantization) به کاهش حافظهٔ مورد نیاز مدل کمک میکنند. جمعبندی این رویکردها — بهاضافهٔ حافظهٔ سریع LPDDR5X — اجرای محلی مدلهای ۱۲۰ میلیارد پارامتری را از سطح «قابل تصور» به سطح «عملی» منتقل میکند.
نکتهٔ فنی مهم این است که صرف داشتن TOPS بالا بهتنهایی کافی نیست؛ نحوهٔ سازماندهی دادهها، فاصلهٔ حافظه تا هستههای پردازشی، مدیریت کش و هماهنگی بین واحدهای محاسباتی نقشی کلیدی در دستیابی به تأخیر و throughput مطلوب دارد. PowerInfer با ارکستراسیون زمانبندی و TurboSparse با کاهش بار محاسباتی در لایههای فعال، هر دو به افزایش بهرهوری کلی کمک میکنند.
جزئیات بیشتر دربارهٔ کوانتیزهسازی و کارایی
کوانتیزهسازی تنها تبدیل وزنها به نمایهای با دقت کمتر نیست؛ کارایی حقیقی وقتی حاصل میشود که الگوریتمهای استنتاج با رفتار کوانتیزهسازی همخوان شوند. پیادهسازیهایی که شامل بازآموزی (retraining) یا تنظیم ریزپارامترها (fine-tuning) بر اساس دقت کمتر باشند معمولاً نتایج بهتری ارائه میدهند. در محیطی مانند پوکِتلب، ترکیب quantization-aware training، pruning انتخابی و TurboSparse منجر به کاهش قابلتوجه حافظهٔ کاری و پهنای باند حافظه میشود، بدون آنکه افت معناداری در کیفیت پاسخها ایجاد گردد.
علاوه بر این، مدیریت حافظهٔ صفحهنگاری (paging)، بهینهسازی I/O روی SSD و فشردهسازی جریانهای ورودی/خروجی برای سرویسدهی به مدلهای بزرگ در شرایط محدودیت حافظه حیاتی است. پوکِتلب ظاهراً با پیکربندی SSD یک ترابایتی و استراتژیهای smart caching این محدودیتها را کاهش میدهد.
مدلها، حریم خصوصی و کاربردهای دنیای واقعی
پوکِتلب از فهرستی گسترده از مدلهای متنباز پشتیبانی میکند — از GPT-OSS و Llama تا Qwen، Mistral و Phi — که به توسعهدهندگان این امکان را میدهد معماریای را انتخاب کنند که با نیازهایشان هماهنگ است. از آنجا که دستگاه بهطور کامل آفلاین عمل میکند، برای سناریوهای حساس به حریم خصوصی، پژوهش میدانی و توسعهٔ محصولاتی که نیاز به تکرار سریع بدون تاخیر شبکه یا هزینههای تکراری ابری دارند جذاب است.
تصور کنید در میز کارتان در حال آزمایش یک جریان کاری جدید برای یک عامل (agent) باشید، یا وظایف پیچیدهٔ پردازش زبان طبیعی (NLP) را در محیطهای آفلاین مانند آزمایشگاههای دورافتاده، سایتهای میدانی یا تاسیسات امن دولتی اجرا کنید. اینها نمونههایی از موارد استفادهای هستند که تیینیایآی هدف قرار داده است.
بعلاوه، اجرای محلی مدلها امکان پیادهسازی کنترل دقیقتر بر دادهها و سیاستهای حریم خصوصی را فراهم میسازد؛ مخصوصاً در صنایعی مانند سلامت، دفاع، حقوقی و صنایع مالی که انتقال دادهها به ابر میتواند محدودیتهای قانونی یا مخاطرات امنیتی داشته باشد. دستگاههایی مانند پوکِتلب میتوانند پلتفرم مناسبی برای انجام تحلیلهای حساس بدون خروج دادهها از محیط امن محلی فراهم کنند.

مثالهای کاربردی و جریانهای کاری پیشنهادی
در ادامه چند نمونهٔ دقیقتر از کاربردهای واقعی آورده میشود:
- تحقیقات میدانی: پژوهشگرانی که در سایتهای دورافتاده کار میکنند میتوانند مدلهای زبان بزرگ را برای تحلیل دادهٔ محلی، استخراج اطلاعات از اسناد یا ترجمهٔ آنی اجرا کنند بدون نیاز به اتصال پایدار اینترنت.
- امنیت و محرمانگی: سازمانهایی که با دادههای حساس سروکار دارند میتوانند پردازش متن و تشخیص الگو را داخل خود دستگاه انجام دهند تا از تبادل داده با سرویسهای ابری جلوگیری شود.
- توسعهٔ سریع محصول: تیمهای توسعه میتوانند به سرعت نسخههای آزمایشی از عاملهای هوش مصنوعی پیچیده را روی میز خود اجرا کرده و بدون هزینهٔ بالای سرویس ابری یا تاخیر شبکه، مدلسازی و ارزیابی کنند.
- کیوسکها و دستگاههای لبه: پوکِتلب میتواند بهعنوان مغز محاسباتی در کیوسکهای تعاملی، رباتهای خدماتی یا دستگاههای صنعتی که نیاز به استنتاج سریع و خصوصی دارند، بهکار گرفته شود.
هر یک از این موارد نیازمند ترکیبی از توان محاسباتی، مدیریت انرژی و قابلیت اطمینان است. پوکِتلب با پروفایل مصرف انرژی پایین و پشتیبانی از مدلهای متنباز سعی دارد این نیازها را برآورده کند، ولی در عمل سطح کارایی و قابلیت اطمینان باید توسط بنچمارکهای مستقل ارزیابی شود.
محدودیتها و چالشهای احتمالی
در حالی که ایدهٔ اجرای مدلهای ۱۲۰ میلیارد پارامتری بهصورت آفلاین روی دستگاههای جیبی جذاب است، چند سوال کلیدی باقی میماند:
- کیفیت خروجی: هرچه کوانتیزهسازی و اسپارسسازی شدیدتر شود، احتمال افت جزئی کیفیت یا تغییر رفتار مدل وجود دارد. پرسش این است که آیا این تغییرات در سناریوهای حساس قابلقبول هستند یا نه.
- ثبات و بنچمارکها: دادههای بنچمارک مستقل و سناریوهای واقعی لازم است تا نشان دهد پوکِتلب در بارهای کاری متنوع میتواند بهطور مداوم عملکرد نزدیک به سرور را ارائه دهد.
- بهروزرسانی مدلها و مدیریت چرخهٔ عمر: بهروزرسانی مدلها، اعمال patchهای امنیتی و مدیریت نسخهها در دستگاههای آفلاین چالشبرانگیز است؛ سازوکارهایی برای بهروزرسانی امن و مطمئن لازم خواهد بود.
- محدودیتهای سختافزاری: علیرغم ۱۹۰ TOPS و حافظهٔ زیاد، برخی عملیات خاص (مثلاً آموزش مجدد یا fine-tuning سنگین) همچنان خارج از محدودهٔ عملکرد محلی خواهند بود و به زیرساختهای سرور نیاز دارند.
پاسخ به این مسائل و ارائهٔ دادههای عملی و شفاف توسط تیینیایآی نقش تعیینکنندهای در پذیرش بازار خواهد داشت.
چه چیز در پیش است: CES و پرسشهایی که باید پاسخ داده شوند
تیینیایآی قصد دارد پوکِتلب را در نمایشگاه CES ۲۰۲۶ به نمایش بگذارد. شرکت هنوز اطلاعاتی دربارهٔ قیمت یا تاریخ عرضهٔ عمومی اعلام نکرده است و بنچمارکهای واقعی همچنان آزمون مهمی خواهند بود: آیا یک دستگاه جیبی میتواند در سناریوهای گوناگون بهطور مداوم با بارهای کاری سرور-کلاس رقابت کند؟
مسائل دیگری نیز مطرحاند: پشتیبانی نرمافزاری بلندمدت، اکوسیستم توسعه، قابلیتهای توسعهدهنده مانند APIها، و سازگاری با فریمورکهای موجود. همچنین رقابت با شرکتهای سختافزاری دیگر که در حوزهٔ NPU و محاسبات لبه سرمایهگذاری کردهاند، مشخص خواهد کرد آیا پوکِتلب میتواند جایگاه قابلتوجهی در بازار پیدا کند یا خیر.
با وجود این پرسشها، معرفی پوکِتلب نشانگر تغییری هیجانانگیز است. هوش مصنوعی لبه دارد فراتر از حسگرهای کوچک حرکت میکند و به پلتفرمهای محاسباتی خصوصی و قدرتمند وارد میشود — موضوعی که میتواند نحوهٔ تعامل توسعهدهندگان، پژوهشگران و کاربران حساس به حریم خصوصی با مدلهای زبانی بزرگ را تغییر دهد.
نتیجهگیری و چشمانداز
پوکِتلب تیینیایآی یک پیشنهاد جاهطلبانه است: آوردن مدلهای ۱۲۰ میلیارد پارامتری به دستگاهی که بتوان آن را در دست گرفت. این راهکار میتواند مرزهای جدیدی برای اجرای آفلاین مدلهای زبانی بزرگ، تقویت حریم خصوصی و کاهش وابستگی به زیرساختهای ابری ایجاد کند. اما اثبات کارآمدی و اعتمادپذیری در میدان عمل و ارائهٔ دادههای بنچمارک مستقل برای تأیید ادعاها ضروری است.
در نهایت، موفقیت این دستگاه نه تنها به طراحی سختافزاری و نوآوریهای نرمافزاری بستگی دارد، بلکه مستلزم ایجاد اکوسیستمی از ابزارها، کتابخانهها و فرآیندهای بهروزرسانی امن است تا توسعهدهندگان و سازمانها بتوانند با اطمینان از آن استفاده کنند. اگر پوکِتلب بتواند این تعادل را برقرار کند، ممکن است شاهد موجی از دستگاههای لبهای قدرتمند و خصوصی باشیم که مدلهای زبانی بزرگ را از فضای دیتاسنتر به محیطهای روزمره منتقل میکنند.
منبع: wccftech
نظرات
مکس_
اگر واقعی باشه، فاتحه دیتاسنترای کوچک خونده میشه! ولی خب قیمتا و حقوق مالکیت مدلها چی میشه؟ 😅
مهدی
احساس میکنم کمی اغراق هست، بدون بنچمارک مستقل و تست پایدار نمیتونم قبولش کنم. قیمت و دوام هم بازیگر اصلیه.
سفرن
حرکت منطقی به سمت حریم خصوصی و کاهش وابستگی به ابر؛ ولی پشتیبانی نرمافزار و آپدیت امن باید اولویت باشه
لابکور
تو پروژههای میدانی ما هم تلاش کردیم LLM رو لوکال نگه داریم، مشکل اصلی همیشه paging و IO بوده، امیدوارم SSD و caching واقعا جواب بده
توربو
واقعاً میشه ۱۲۰B رو توی این ابعاد اجرا کرد؟ اگه بنچمارکها ضعیف باشه همه این شعارا فقط بادکنک میشه...
کوینپ
به نظرم قابل قبوله، مصرف پایین و آفلاین بودن مزیت بزرگیه، مخصوصا برای شرکتهایی که نمیخوان داده هاشون بره ابری
رودیکس
ایول، ایده جالبیه! اینکه ابرکامپیوتر جدی توی کف دست باشه هیجانزاست ولی امیدوارم کوانتیزهسازی همه چیز رو خراب نکنه بنچمارکها رو ببینیم...
ارسال نظر