11 دقیقه
معرفی کلی
حولهای تا شده که گویا با دقت دستِ یک انسان مرتب شده بود. بلوکهایی که با دستهایی ثابت و مطمئن باز شده بودند. شاید اینها دستاوردهای کوچکی به نظر برسند، اما از جهتی بسیار گویا هستند. مدل جدید شیائومی، Robotics-0، یک گجت تماشاگرِ بازار نیست؛ این پروژه تلاشی است برای آموزش ماشینها تا ببینند، درک کنند و با ظرافتی که معمولاً به شهود انسانی نسبت داده میشود، حرکت کنند.
Robotic‑0 تلاش میکند حلقهای را ببندد که هر ربات توانمند را تعریف میکند: ادراک، تصمیمگیری و اجرا. شرکت این چرخه را «هوش فیزیکی» مینامد — عبارتی کوتاه که پشت آن مجموعهای از مسائل چالشبرانگیز پنهان است. چگونه میتوان سیستمی را همزمان در استدلال زبانی و تصویری تیز و روان نگه داشت و در عین حال آن را برای انجام حرکات میکرومتری آموزش داد؟ پاسخ شیائومی طراحی معماریای است که «تفکر» را از «حرکت» جدا میکند.
معماری کلی: تفکیک دید و عمل
در هستهٔ این معماری دو بخش متمایز وجود دارد. یک طرف مدل زبان-دیداری است — آن را مترجم ربات در نظر بگیرید. این مدل با ورودیهای دوربین با وضوح بالا و دستورهای انسانی، حتی دستورات مبهم مثل «لطفاً حوله را تا کن»، کار میکند. تشخیص اشیا، روابط مکانی، پرسشوپاسخ دیداری و نوعی از استدلال مبتنی بر دانش عمومی که پیکسلها را به وظایف تبدیل میکند، از وظایف این بخش است.
طرف دیگر «کارشناس عمل» است: یک Diffusion Transformer که هدفش تولید یک فرمان موتور واحد نیست، بلکه شکل دادن به «بخشهای عمل» (Action Chunk) است — توالی کوتاهی از حرکات هماهنگ. در عمل این رویکرد به انتقالهای نرمتر و کاهش تصحیحات تند و ناگهانی منجر میشود، امری که برای تعامل مطمئن با اشیای نرم و سخت ضروری است.
چرا جداسازی مهم است؟
یکی از دلایل کلیدی این جداسازی جلوگیری از «خوردن» قابلیتهای استدلالی مدل دید-زبان هنگام آموزش برای عمل است. وقتی یک مدل بینایی-زبانی را بهطور مستقیم برای کنترل رفتار ربات آموزش میدهید، اغلب بخشی از تواناییهای استنتاجی آن کاهش پیدا میکند. با تفکیک مسئولیتها و آموزش همزمان روی دادههای چندرسانهای و مسیرهای عمل (action trajectories)، شیائومی سعی میکند مدل را در حالی که دستها را برای حرکت میآموزد، از تیزهوشی درک تصویری محروم نکند.
مدل زبان-دیداری (Visual Language Model)
مدل زبان-دیداری در عمل نقش مترجم و برنامهریز سطح بالا را ایفا میکند. این مدل ورودی تصویری را تحلیل میکند، اشیا را شناسایی کرده، رابطهٔ آنها نسبت به یکدیگر را تعیین میکند و از متن یا دستورهای گفتاری نتیجه میگیرد که چه کارهایی ممکن است باید انجام شود. حتی دستورات مبهم یا کلی را هم به مجموعهای از هدفها و توزیعهای احتمالی عمل تبدیل میکند.
وظایفی که این بخش انجام میدهد عبارتاند از:
- تشخیص و طبقهبندی اشیا
- برآورد روابط فضایی و موقعیتهای سهبعدی
- پاسخ به پرسشهای دیداری (Visual Q&A)
- استدلال مبتنی بر دانش عمومی و سناریوهای روزمره
با توجه به نقش حیاتی این بخش در ترجمهٔ مشاهدات به اهداف، حفظ ظرفیت آن برای استدلال دقیق هنگام همآموزی با بخش عمل شرط لازم موفقیت کل سیستم است.
کارشناس عمل: Diffusion Transformer و بخشهای عمل
بخش عمل از Diffusion Transformer بهره میبرد — مدلی که به جای خروجی یک دستور تک، یک توالی کوتاه از حرکات را تولید میکند؛ چیزی که شیائومی آن را «Action Chunk» مینامد. این رویکرد چند مزیت دارد:
- انتقالهای صافتر بین وضعیتهای حرکتی
- کاهش نیاز به اصلاحات ناگهانی در میانه حرکت
- تولید حرکات همآهنگ برای بازوها و مفاصل متعدد
Diffusion Transformer با «تبدیل حدسهای پر نویز» به مسیرهای قابلاجرا عمل میکند؛ یعنی فرایندِ دنوایزینگ (denoising) زنجیرههای حرکتی که از توزیعهای پیشنهادی مدل دید-زبان نشأت میگیرند.
ویژگیهای کلیدی Action Chunk
بهجای ارسال پیوستهٔ دستورات لحظهای (دستور برای هر گام زمانی)، تولید بلوکهای عملی کوتاه امکان پیشبینی بهتر و هماهنگی بالاتر میان اعضای ربات را فراهم میآورد. در نتیجه، حرکات کمتر دچار پرش و نوسان میشوند و واکنش به محیط طبیعیتر به نظر میرسد، بهخصوص هنگام کار با اشیاء نرم مانند حوله یا پارچه.

میکسچر-آف-ترنسفورمرها (Mixture-of-Transformers)
انتخاب مهندسی کلیدی در پشت این جداسازی، معماری Mixture-of-Transformers است. بهجای سرازیر کردن همهٔ مسئولیتها به یک مدل یکپارچه و بزرگ، کارها بین چندین ترنسفورمر تقسیم میشود تا هر کدام در حوزهٔ خاص خود بهتر عمل کنند. این رویکرد دو مزیت مهم دارد:
- حفظ توان استدلالی مدل دید-زبان در برابر تخریب هنگام آموزش برای عمل
- انعطافپذیری در بهروزرسانی و تعویض اجزای سیستم بدون بازآموزی کل مجموعه
برای جلوگیری از افت کیفیت در استدلال، شیائومی از همآموزی روی دادههای چندرسانهای و مسیرهای عمل استفاده میکند تا هر دو بخش دید و عمل نمایههای درونی همراستا و سازگاری داشته باشند.
فرایند آموزش: مراحل و جزئیات فنی
آموزش در Robotics-0 یک فرایند مرحلهای است. در گام اول، مرحلهٔ پیشنهاد عمل (Action Proposal) اجرا میشود که در آن مدل دید-زبان هنگام خواندن تصویر توزیعهایی روی اعمال ممکن پیشبینی میکند. این همزمانی نمایههای درونی مربوط به دید و عمل را همراستا میسازد.
پس از آن، بخش دید ثابت میماند (فریز میشود) و Diffusion Transformer برای دنوایز کردن توالیهای عمل آموزش میبیند؛ فرآیندی که حدسهای پرنویز را به حرکات قابل اجرا تبدیل میکند. نکتهٔ فنی مهم این است که این آموزش با استفاده از ویژگیهای کلید-مقدار (key-value features) هدایت میشود نه توکنهای زبانی گسسته، که باعث میشود ارتباط بین تحلیل بصری و تولید حرکت باثبات برقرار بماند.
دادهها و تقویتسازی
برای موفقیت چنین معماریای، مجموعه دادههای ترکیبی از ویدیوها، تصاویر با برچسب، دستورات متنی و مسیرهای عمل ضبطشده لازم است. ضبط دقیق مسیرهای عمل روی پلتفرمهای دو بازویی و تکمفصلی، و نیز شبیهسازیهای متعدد که تنوع محیطی را پوشش میدهند، بخشی از استراتژی دادهای شیائومی است. علاوه بر این، تکنیکهای تقویتسازی داده مانند افزودن نویز، تغییرات روشنایی و شبیهسازی تغییر شکل اشیاء نرم به تعمیمپذیری مدل کمک میکنند.
مسائل عملی: تاخیر، پایداری و هماهنگی
رباتهای واقعی اصطلاحاً «اصطکاکهای عملی» را نشان میدهند. یکی از مشکلات بارز تاخیر است: اگر مدل برای تصمیمگیری مکث کند، ربات ممکن است متوقف یا لغزان شود. شیائومی این مشکل را با استنتاج غیرهمزمان (asynchronous inference) حل میکند: محاسبه و سختافزار بهصورت نیمهمستقل اجرا میشوند تا حتی زمانی که مدل هنوز در حال محاسبه است، حرکت مداوم حفظ شود.
علاوه بر آن، آنها از بازخورد گرفتن پیشبینیهای قبلی به سیستم استفاده میکنند — چیزی که «Clean Action Prefix» نامیده شده و به کاهش لرزش و حفظ ممان کمک میکند. یک ماسک توجه به شکل حرف لامبدا (Λ) نیز سیستم را ترغیب میکند تا نشانههای بصری جاری را به تاریخچهٔ قدیمیتر ترجیح دهد و در نتیجه پاسخپذیری به تغییرات ناگهانی محیط بهبود مییابد.
جبرانسازی تاخیر و ایمنی حرکت
پیادهسازی کنترل حلقه بسته (closed-loop control) در کنار پیشبینی بلوکهای عملی، برای ایمنی و دقت مهم است. کنترل بازخورد مکانیکی محلی میتواند انحرافات کوچک را تصحیح کند، در حالی که برنامهریز سطح بالا مسیر کلی را تضمین میکند. این ترکیب از لحاظ مهندسی باعث میشود تا تعامل با اشیای نرم مانند حوله یا پارچه مطمئنتر و بدون خطاهای بزرگ باشد.

ارزیابیها و نتایج بنچمارک
نتایج بنچمارک فقط بخشی از داستان را میگویند. شیائومی گزارش میدهد که در شبیهسازیهای LIBERO، CALVIN و SimplerEnv نتایج برتر را کسب کرده و از حدود 30 سیستم همتای خود پیشی گرفته است. اما اعداد تنها نشاندهندهٔ بخشی از توانایی واقعی هستند؛ آزمایشهای دنیای واقعی اهمیت متفاوتی دارند.
بر روی یک پلتفرم دو بازویی، Robotics-0 توانست وظایف با افق زمانی طولانی مانند تا کردن حوله و باز کردن بلوکها را بهخوبی انجام دهد. هماهنگی چشم-دست پایدار، و توانایی کار با اشیای سخت و نرم بدون بروز شکستهای آشکار از نکات مثبت این ارزیابیها هستند.
معیارهای ارزیابی عملی
معیارهای مؤثر شامل دقت در دستیابی به هدف (success rate)، تعداد تصحیحات لازم، نرمی حرکت، و مقاومتیابی در برابر تغییرات محیطی هستند. علاوه بر این، زمان پاسخدهی سیستم و مصرف محاسباتی از جنبههای مهم مهندسی برای پلتفرمهای بلادرنگ محسوب میشوند.
متنباز بودن و اثرات پژوهشی
یک نکتهٔ عملی دیگر این است که شیائومی Robotics-0 را بهصورت متنباز منتشر میکند. این برای سرعت پژوهش اهمیت دارد: وقتی تیمها میتوانند کد را بررسی کنند، تجربیات را بازتولید کنند و بر اساس کار یکدیگر توسعه دهند، پیشرفت شتاب میگیرد. انتظار میرود مقالات بعدی، فورکها و تکرارهای سریع متعدد با هدف اعمال همین ایدههای VLA (دید-زبان-عمل) روی سختافزارهای مختلف پدید آیند.
متنباز شدن همچنین امکان بررسی دقیقتر ضعفها و محدودیتها را فراهم میکند و جامعهٔ پژوهشی میتواند راهحلهای متنوعی برای چالشهای باقیمانده ارائه کند.
محدودیتها و چالشهای آینده
Robotics-0 همهٔ مشکلات را حل نمیکند. جابجایی اشیای نرم با پیچیدگیها و حالتهای متعدد، تعمیم به محیطهای بسیار متفاوت، و دستیابی به خودمختاری کامل هنوز چالشهای باز به شمار میآیند. با اینحال، مدل جهتگیری عملی را نشان میدهد: ادراک و عمل را بهصورتی نزدیک به هم نگه دارید بدون اینکه یکی دیگری را مصرف کند.
پیشرفت میتواند از انتخاب معماریها به همان اندازهٔ افزایش اندازهٔ مدلها حاصل شود. انتخابهای مهندسی هوشمندانه، طراحی دادهها، و روشهای آموزشِ مرحلهای نقش بزرگی در موفقیت مدلهای رباتیک ایفا میکنند.
موارد پژوهشی باز
- افزایش تعمیمپذیری به محیطهای غیرساختاریافته
- بهبود تعامل با اشیای نرم و تغییرشکلپذیر
- بهینهسازی محاسبات برای اجرا در سختافزارهای کممصرف
- ارزیابی اخلاقی و ایمنی برای استفادهٔ خانگی و صنعتی
نتیجهگیری و دید به جلو
اگر به این فکر میکنید که رباتها در آینده چگونه حرکت خواهند کرد، به نحوهٔ رفتار این مدل خارج از آزمایشگاههای شیائومی و بخشهایی که جامعه نگه میدارد و پالایش میکند، توجه کنید. دفعهٔ بعد که یک ربات خانگی حولهٔ شما را مرتب و تا میکند، ممکن است ردپای معماری Robotics-0 را در هر تا خوردگی نرم ببینید.
در مجموع، Robotics-0 نشان میدهد که با طراحی مناسب معماری، هماهنگی بین بینایی، زبان و عمل را میتوان بهبود داد تا رباتها کارهای روزمره را با دقت و ظرافت بیشتری انجام دهند. انتشار متنباز این پروژه باعث میشود جامعهٔ پژوهشی سریعتر به سمت راهحلهای عملی و تکرارشونده حرکت کند — راهحلهایی که در نهایت میتوانند شاهدی بر ورود عملیتر رباتها به خانهها و محیطهای کاری باشند.
کلمات کلیدی مرتبط
رباتیک، دید-زبان-عمل، Robotics-0 شیائومی، مدل بینایی و زبان، Diffusion Transformer، Mixture-of-Transformers، کنترل غیرهمزمان، تاخیر استنتاج، آموزش چندرسانهای، تعامل با اشیای نرم
منبع: gizmochina
ارسال نظر