رقابت برای هوش تجسمی: Wall-OSS و ربات Quanta X2

رقابت برای هوش تجسمی: Wall-OSS و ربات Quanta X2

0 نظرات سارا احمدی

5 دقیقه

مسابقه برای هوش تجسمی

هوش تجسمی—رباتی که اعمال فیزیکی را با ادراک پیشرفته، استدلال و تصمیم‌گیری ترکیب می‌کند—در حال حرکت از نمایش‌های آزمایشگاهی به میدان رقابت تجاری است. در حالی که شرکت‌هایی مانند تسلا، Boston Dynamics و NVIDIA راه‌های اختصاصی را دنبال می‌کنند، رقیب چینی جدیدی، X Square Robot، یک مدل بنیادین متن‌باز به نام Wall-OSS را پیش می‌برد که هدفش توانمند ساختن ربات‌ها برای سازگاری قابل‌اعتماد در محیط‌های واقعی و غیرقابل‌پیش‌بینی است.

وضعیت فعلی صنعت

انسان‌نمای Optimus شرکت تسلا وعده تولید در مقیاس بزرگ و کاربردهای مصرفی را می‌دهد و ایلان ماسک اهداف تولیدی تهاجمی تعیین کرده است. Atlas از Boston Dynamics در سناریوهای نمایشی حرکت پویا و دستکاری را نشان می‌دهد. NVIDIA از زاویه نرم‌افزارمحور با Isaac و GR00T به رباتیک نزدیک می‌شود و شبیه‌سازی و مدل‌های بنیادینی ارائه می‌دهد که به‌عنوان "مغز" پلتفرم‌های رباتیک عمل می‌کنند. با این حال، فاصله‌ای ماندگار بین نمایش‌های چشمگیر و عملکرد قابل‌اعتماد در کاربردهای روزمره باقی مانده است.

معرفی Wall-OSS و Quanta X2

Wall-OSS از X Square Robot به‌عنوان نخستین مدل بنیادین چین برای هوش تجسمی معرفی شده که به‌صورت متن‌باز در GitHub و Hugging Face عرضه شده است. برای نشان دادن عملکرد مدل، شرکت ربات Quanta X2 را معرفی کرد: یک ربات خدماتی چرخ‌دار با بازوی ۷ درجه آزادی، دستی ماهر که می‌تواند حرکات طبیعی و بیان‌مانند انجام دهد، تا ۶۲ درجه آزادی برای حرکت طبیعی و گیره‌های چرخان طراحی‌شده برای پاک‌سازی ۳۶۰ درجه. این دو با هم یک پشته نرم‌افزاری متن‌باز همراه با سخت‌افزار کاربردی را به نمایش می‌گذارند.

ویژگی‌های کلیدی محصول

  • مکانیسم توجه مشترک: به‌طور انتخابی بر نشانه‌های حسی مربوطه تمرکز می‌کند تا تصمیم‌گیری را تسریع و خطاها را کاهش دهد.
  • شبکه‌های فید-فوروارد مسیریابی‌شده بر اساس وظیفه (FFN): مسیرهای پردازشی جدا برای بینایی، زبان و حرکت تا از گلوگاه‌های معماری‌های تک‌جریانی جلوگیری کند.
  • استدلال زنجیره‌افکار (CoT): برنامه‌ریزی چندمرحله‌ای داخلی پیش از اجرا که اشتباهات واکنشی در وظایف پیچیده را کاهش می‌دهد.
  • آموزش چندرسانه‌ای در مقیاس بزرگ: میلیاردها نمونه دیداری-زبانی-عملی استخراج‌شده از لاگ‌های رباتیک، ویدئوی تولیدی و محیط‌های مصنوعی.

چگونگی تفاوت فنی Wall-OSS

برخلاف سیستم‌های سنتی که همه ورودی‌ها را از یک لایه عبور می‌دهند، Wall-OSS داده‌های چندرسانه‌ای را به مسیرهای تخصصی هدایت می‌کند. ورودی‌های تصویری از کانال‌های بهینه‌شده برای تشخیص اشیاء و نقشه‌برداری فضایی استفاده می‌کنند؛ فرمان‌های زبانی جداگانه تحلیل می‌شوند؛ برنامه‌ریزی حرکت محدودیت‌های فیزیکی و بازخورد در لحظه را درنظر می‌گیرد. همراه با استدلال CoT، این رویکرد امکان اقدامات زمینه‌ای را فراهم می‌آورد—برای مثال اجرای یک رویه چندمرحله‌ای «پاک‌کردن میز» به‌جای برخورد جداگانه با هر زیرکار.

مقایسه‌ها و مزایا

در مقایسه با Optimus تسلا و Atlas شرکت Boston Dynamics، Wall-OSS سازگاری را بر نمایش‌های نمایشی اولویت می‌دهد. Isaac و GR00T از NVIDIA ابزارها و اکوسیستم‌های شبیه‌سازی قدرتمندی فراهم می‌کنند، اما Wall-OSS خود را به‌عنوان یک مدل بنیادین متن‌باز و قابل‌استفاده معرفی می‌کند که سازندگان سخت‌افزار و استارتاپ‌ها می‌توانند بلافاصله یکپارچه‌سازی کنند. مزایا شامل زمان پاسخ سریع‌تر، دستورات کمتر نامرتب، عملکرد بهتر در محیط‌های شلوغ یا جدید و منافع همکاری متن‌باز است.

موارد کاربردی عملی

  • خدمات و مهمانداری: جمع‌آوری میز، تحویل تأمین، نظافت خودکار.
  • انبارداری و لجستیک: چیدمان پویا، دستکاری بسته‌ها، سازگاری مسیر.
  • پشتیبانی مراقبت‌های بهداشتی: آماده‌سازی ابزار، وظایف مراقبتی غیر بحرانی، روندهای دست‌کاری استریل.
  • رباتیک مصرفی و خانگی: دستیاران خانگی سازگار که تنوع چیدمان‌ها و اشیاء را تحمل می‌کنند.

اهمیت بازار و چشم‌انداز

با حمایتی در حدود ۱۰۰ میلیون دلار آمریکا، X Square Robot شرط بسته که یک مدل بنیادین متن‌باز می‌تواند فاصله بین نمایش‌های هماهنگ‌شده و رباتیک عملی و قابل‌اعتماد را پر کند. اگر Wall-OSS در GitHub و Hugging Face پذیرفته شود، می‌تواند چشم‌انداز رقابتی را با فراهم‌کردن یک لایه هوش عمومی برای پلتفرم‌های سخت‌افزاری متنوع تغییر دهد و توسعه محصول برای استارتاپ‌ها و تولیدکنندگان شناخته‌شده را تسریع کند.

ریسک‌ها و گام‌های بعدی

ارائه متن‌باز امکان تکرار سریع را فراهم می‌کند اما چالش‌هایی در زمینه ایمنی، کنترل کیفیت و استانداردها نیز ایجاد می‌کند. استقرار در دنیای واقعی نیازمند تأیید دقیق، هم‌راستایی با مقررات و بهبودهای پیوسته در هوش تجسمی، استدلال چندرسانه‌ای و ادراک مقاوم خواهد بود. با این وجود، Wall-OSS و Quanta X2 تغییر قابل‌توجهی را نشانه‌گذاری می‌کنند: رقابت بیش از پیش حول قابلیت اطمینان عملی، مدل‌های بنیادین مقیاس‌پذیر و نوآوری مشارکتی در رباتیک است.

منبع: gizmochina

سلام! من سارا هستم، عاشق دنیای فناوری و گجت‌های جدید. از بچگی شیفته موبایل و لپ‌تاپ بودم و حالا خوشحالم که می‌تونم آخرین اخبار و ترندهای دنیای تکنولوژی رو باهاتون به اشتراک بذارم.

نظرات

ارسال نظر