تزریق پرامپت فیزیکی و تهدید برای ربات های بینایی

تحقیق جدید نشان می‌دهد تزریق پرامپت فیزیکی می‌تواند تابلوها و برچسب‌ها را به دستوراتی برای ربات‌های مجهز به مدل‌های بینایی-زبان تبدیل کند؛ نرخ موفقیت بالا و پیامدهای ایمنی در خودروهای خودران، پهپادها و ربات‌های خدماتی بررسی شده‌اند.

5 نظرات
تزریق پرامپت فیزیکی و تهدید برای ربات های بینایی

8 دقیقه

رباتی که با یک دوربین و یک مدل بینایی-زبان (Vision-Language Model) «محیط را می‌خواند»، ممکن است قبل از اینکه به دستور شما گوش دهد، از یک تابلو چاپ‌شده دستور بگیرد. تحقیقات جدید نشان می‌دهد که تزریق پرامپت (prompt injection) — که در اصل به‌عنوان مشکلی در چت‌بات‌ها شناخته می‌شود — می‌تواند از صفحه نمایش فراتر رود و وارد دنیای فیزیکی شود و به‌صورت خاموش و نامحسوس ماشین‌های خودران را منحرف کند.

به‌جای هک کردن نرم‌افزار یا جعل سنسورها، این حمله محیط را به‌عنوان یک فیلد ورودی در نظر می‌گیرد. یک برچسب گمراه‌کننده، پوستر یا تابلو به سبک کنار جاده در جایی قرار داده می‌شود که دوربین ربات آن را ببیند. برای یک انسان نزدیک ممکن است بی‌ضرر به‌نظر برسد؛ اما برای یک سیستم هوش مصنوعی که آموزش دیده تا از سرنخ‌های متنی و بصری پیروی کند، این نوشته می‌تواند نقش یک دستور را ایفا کند و رفتار کلی ربات را تحت تأثیر قرار دهد.

در آزمایش‌های شبیه‌سازی، پژوهشگران نرخ موفقیت 81.8٪ را در سناریوی رانندگی خودران و 68.1٪ در مأموریت فرود اضطراری پهپاد گزارش کردند. در آزمایش‌های دنیای واقعی با یک خودروی رباتیک کوچک، پرامپت‌های چاپ‌شده هدایت را با حداقل 87٪ موفقیت تحت‌الشعاع قرار دادند، حتی در نورها و زوایای دید مختلف — که نشان می‌دهد این پدیده صرفاً یک کنجکاوی آزمایشگاهی نیست.

وقتی تابلو تبدیل به دستور می‌شود

فنی که با نام CHAI شناخته شده، یک مرحله کلیدی در بسیاری از پشته‌های مدرن خودران را هدف قرار می‌دهد: «لایه فرمان» (command layer). در سیستم‌هایی که از مدل‌های بینایی-زبان (VLMs) استفاده می‌کنند، مدل معمولاً یک دستور میانی تولید می‌کند — در واقع یک برنامه به زبان طبیعی — و سپس یک کنترل‌کننده پایین‌دستی آن برنامه را به فرمان‌های محرک، فرمان‌دهی یا ترمز تبدیل می‌کند.

اگر مهاجم بتواند آن گام برنامه‌ریزی میانی را به سمت یک دستور نادرست سوق دهد، باقی‌مانده‌ی زنجیره ممکن است آن دستور نادرست را با دقت اجرا کند. هیچ بدافزار، هیچ دسترسی ویژه مورد نیاز نیست. ربات دقیقاً همان کاری را انجام می‌دهد که برای آن طراحی شده بود — با این تفاوت که بر اساس متن نامناسب یا گمراه‌کننده عمل می‌کند.

نکته مهم اینکه مدل تهدید عمداً کم‌تکنولوژی در نظر گرفته شده است. مهاجم به‌عنوان یک فرد بیرونی فرض می‌شود که نمی‌تواند به سیستم‌های داخلی دست بزند. همه چیزی که لازم دارد توانایی قرار دادن متن در میدان دید دوربین ربات است؛ مثلاً تابلویی چسبانده شده به دیوار، پوستر روی در، یا برچسبی چاپ‌شده نزدیک یک نقطه تعیین‌شده (waypoint).

این شیوه نشان می‌دهد که آسیب‌پذیری‌ها ممکن است نه در لایه‌های نرم‌افزاری کلاسیک یا آسیب‌پذیری‌های شبکه که در نحوه تفسیر دنیای فیزیکی توسط مدل‌های بینایی نهفته باشند؛ جایی که متن محیطی به‌عنوان ورودی معنا می‌شود و می‌تواند مستقیماً سیاست حرکت یا تصمیم‌گیری را تغییر دهد. از منظر امنیت رباتیک و سامانه‌های خودران، این انتقال حملات از فضای دیجیتال به فیزیکی نیازمند بازنگری در آموزه‌ها و چک‌لیست‌های ایمنی است.

طراحی شده برای «سفر» میان صحنه‌ها، مدل‌ها و زبان‌ها

CHAI فقط بهینه‌سازی چهی پرامپت را انجام نمی‌دهد؛ بلکه چگونه دیده شدن آن را هم بهینه می‌کند — تنظیم عواملی مانند رنگ، اندازه و محل قرارگیری — چون خوانایی برای مدل می‌تواند تعیین‌کننده باشد که آیا پیام به یک دستور اجرایی تبدیل شود یا خیر.

این مقاله همچنین از پرامپت‌های «جهانی» (universal prompts) صحبت می‌کند که روی تصاویر و محیط‌های دیده‌نشده نیز کار می‌کنند؛ این پرامپت‌ها به‌طور متوسط حداقل 50٪ موفقیت در وظایف و مدل‌های مختلف نشان داده‌اند و در یک پیکربندی مبتنی بر GPT بیش از 70٪ را پشت سر گذاشته‌اند. جالب اینکه این تکنیک بین زبان‌ها نیز کار می‌کند: شامل چینی، اسپانیایی و پرامپت‌های ترکیبی زبانی. این ویژگی مهم است زیرا پیام چندزبانه ممکن است برای افراد حاضر کمتر قابل توجه یا مشکوک باشد در حالی که برای مدل بسیار خواناتر و قابل‌تفسیر باقی می‌ماند.

به عبارت دیگر: این مسأله تنها مربوط به یک ربات در یک اتاق نیست. بحث درباره یک کلاس از سیستم‌های رباتیک هوش مصنوعی است که به‌طور فزاینده‌ای نوشتار محیطی را به عنوان بخشی از مدل جهانی خود تفسیر می‌کنند و از آن برای تصمیم‌سازی استفاده می‌کنند. بنابراین دامنه تهدید گسترده است: از روبات‌های تحویل، خودروهای خودران، پهپادها تا ربات‌های صنعتی و خدماتی که در فضاهای عمومی و نیمه‌عمومی کار می‌کنند.

این حرکت به‌سوی تلفیق دیداری و زبانی در کنترل ربات‌ها مزایای قابل‌توجهی دارد — مانند افزایش انعطاف‌پذیری در تعامل با انسان‌ها و توانایی تفسیر علائم محیطی واقعی — اما هم‌زمان سطح حمله جدیدی ایجاد می‌کند که باید در طراحی سامانه‌ها مدنظر قرار گیرد. برای مثال، یک فروشگاه هوشمند یا فرودگاه که علائم و پوسترهای متعدد دارد، می‌تواند محل مناسبی برای سوءاستفاده از چنین تکنیک‌هایی باشد؛ مخصوصاً اگر مدل‌های بینایی-زبان بدون فیلتر یا اعتبارسنجی بر روی متن محیطی کار کنند.

چرا تیم‌های ایمنی ربات ممکن است به یک چک‌لیست جدید نیاز داشته باشند

پژوهشگران به چند جهت دفاعی اشاره می‌کنند. یکی فیلترینگ و تشخیص است: اسکن تصاویر دوربین (و خروجی‌های میانی مدل) برای یافتن متن‌های مشکوک یا خارج از متن. این کار می‌تواند شامل تشخیص نوشته‌های ناگهانی در مکان‌های نامرتبط، مقایسه محتوای متنی دیده‌شده با هدف مأموریت، یا بررسی ویژگی‌های ظاهری نوشته (نظیر فونت غیرمعمول، رنگ یا اندازه) باشد.

دومین جهت، کار روی هم‌ترازی (alignment) است: آموزش مدل‌ها تا کمتر آماده باشند متن محیطی دلخواه را به‌عنوان دستور اجرایی بپذیرند — به‌ویژه زمانی که این متن با اهداف مأموریت یا محدودیت‌های ایمنی در تضاد است. این شامل فازهای آموزش نظارت‌شده و یادگیری تقویتی با بازخورد انسان است که مدل را به تمایز بهتر میان متن خدشه‌ناپذیر (مثلاً نشان‌های رسمی) و متن غیرمعتبر تشویق می‌کند.

در بلندمدت، آن‌ها خواستار پژوهش‌هایی در زمینه افزایش استحکام (robustness) هستند تا تضمین‌های قوی‌تری ارائه شود. یک گام عملی و نزدیک به دسترس ساده‌تر است: در پیش‌فرض رفتار سیستم، متن‌های مشاهده‌شده را «ورودی غیرقابل اعتماد» در نظر بگیرید و اجازه ندهید تا زمانی که از طریق چک‌های مربوط به ماموریت و ایمنی عبور نکرده‌اند، بر برنامه‌ریزی حرکت تأثیر بگذارند. این می‌تواند پیاده‌سازی قوانین هشداردهنده، امتیازدهی اعتماد به متن (text trust scoring) یا نیازمندی به تأیید صریح انسانی برای تغییرات عمده در سیاست حرکت باشد.

تست کردن رفتارهای احتمالی وقتی تابلوها دروغ می‌گویند، یک آزمایش ضروری برای سیستم‌های فعلی است: شبیه‌سازی تابلوهای گمراه‌کننده، بررسی تأثیر نور، زاویه دید و پارازیت بصری، و آزمایش واکنش مدل در شرایط چندزبانه یا زمانی که متن با سایر حسگرها (مثل لیدار یا رادار) ناسازگار است. این تست‌ها باید بخشی از چرخه توسعه، ارزیابی ریسک و ممیزی‌های ایمنی رباتیک باشند.

اگر ربات شما تابلو می‌خواند، ارزش دارد که ببینید وقتی تابلوها دروغ می‌گویند چه اتفاقی می‌افتد. این پژوهش قرار است در SaTML 2026 ارائه شود، جایی که این ریسک‌های تزریق پرامپت در دنیای واقعی — و دفاع‌های ممکن در برابر آن‌ها — احتمالاً توجه بسیار بیشتری جلب خواهند کرد.

برای تیم‌های مهندسی و امنیت، چند پیشنهاد عملی وجود دارد: 1) پیاده‌سازی فیلتراسیون متن و تحلیل زمینه‌ای، 2) ایجاد لایه‌های ارزیابی اعتماد به متن و امتیازدهی ریسک، 3) طراحی سیاست‌های پیش‌فرض که متن محیطی را به‌عنوان سیگنال ثانویه در نظر بگیرند و همواره آن را با حسگرهای دیگر مقایسه کنند، و 4) تدوین آزمون‌های نفوذ فیزیکی (physical red-team) که شامل سناریوهای تزریق پرامپت باشد. این اقدامات می‌توانند احتمال سوءاستفاده از CHAI و موارد مشابه را کاهش دهند و قابلیت اطمینان سامانه‌های خودران را بالا ببرند.

منبع: digitaltrends

ارسال نظر

نظرات

پمپزون

ایده‌ش خوبه اما دفاع‌ها فعلا سطحی ان، نیاز به استاندارد و تست نفوذ فیزیکی گسترده تر هست

رضا

تو پروژه تحویلمون یه برچسب ساده مسیر رو منحرف کرد، خوشحالم دارن رو این موضوع کار میکنن، ولی باید تست‌های سختتر بذارن

لابکور

این آمارها واقعیه؟ شبیه‌سازی خوبه اما تو دنیای واقعی چقدر پابرجاست، کسی تجربه میدانی داره؟

توربو

منطقیش همینه، مدل‌ها نباید متن محیطی رو مستقیم اجرا کنن. یه لایه تایید لازمه، ساده ولی ضروری

دیتاپالس

وااای، یعنی یه تابلو میتونه کل رفتار رباتو عوض کنه؟ ترسناک و جذاب همزمان... باید فوری فیلتر و چک اضافه کنن

مطالب مرتبط