8 دقیقه
رباتی که با یک دوربین و یک مدل بینایی-زبان (Vision-Language Model) «محیط را میخواند»، ممکن است قبل از اینکه به دستور شما گوش دهد، از یک تابلو چاپشده دستور بگیرد. تحقیقات جدید نشان میدهد که تزریق پرامپت (prompt injection) — که در اصل بهعنوان مشکلی در چتباتها شناخته میشود — میتواند از صفحه نمایش فراتر رود و وارد دنیای فیزیکی شود و بهصورت خاموش و نامحسوس ماشینهای خودران را منحرف کند.
بهجای هک کردن نرمافزار یا جعل سنسورها، این حمله محیط را بهعنوان یک فیلد ورودی در نظر میگیرد. یک برچسب گمراهکننده، پوستر یا تابلو به سبک کنار جاده در جایی قرار داده میشود که دوربین ربات آن را ببیند. برای یک انسان نزدیک ممکن است بیضرر بهنظر برسد؛ اما برای یک سیستم هوش مصنوعی که آموزش دیده تا از سرنخهای متنی و بصری پیروی کند، این نوشته میتواند نقش یک دستور را ایفا کند و رفتار کلی ربات را تحت تأثیر قرار دهد.
در آزمایشهای شبیهسازی، پژوهشگران نرخ موفقیت 81.8٪ را در سناریوی رانندگی خودران و 68.1٪ در مأموریت فرود اضطراری پهپاد گزارش کردند. در آزمایشهای دنیای واقعی با یک خودروی رباتیک کوچک، پرامپتهای چاپشده هدایت را با حداقل 87٪ موفقیت تحتالشعاع قرار دادند، حتی در نورها و زوایای دید مختلف — که نشان میدهد این پدیده صرفاً یک کنجکاوی آزمایشگاهی نیست.
وقتی تابلو تبدیل به دستور میشود
فنی که با نام CHAI شناخته شده، یک مرحله کلیدی در بسیاری از پشتههای مدرن خودران را هدف قرار میدهد: «لایه فرمان» (command layer). در سیستمهایی که از مدلهای بینایی-زبان (VLMs) استفاده میکنند، مدل معمولاً یک دستور میانی تولید میکند — در واقع یک برنامه به زبان طبیعی — و سپس یک کنترلکننده پاییندستی آن برنامه را به فرمانهای محرک، فرماندهی یا ترمز تبدیل میکند.
اگر مهاجم بتواند آن گام برنامهریزی میانی را به سمت یک دستور نادرست سوق دهد، باقیماندهی زنجیره ممکن است آن دستور نادرست را با دقت اجرا کند. هیچ بدافزار، هیچ دسترسی ویژه مورد نیاز نیست. ربات دقیقاً همان کاری را انجام میدهد که برای آن طراحی شده بود — با این تفاوت که بر اساس متن نامناسب یا گمراهکننده عمل میکند.
نکته مهم اینکه مدل تهدید عمداً کمتکنولوژی در نظر گرفته شده است. مهاجم بهعنوان یک فرد بیرونی فرض میشود که نمیتواند به سیستمهای داخلی دست بزند. همه چیزی که لازم دارد توانایی قرار دادن متن در میدان دید دوربین ربات است؛ مثلاً تابلویی چسبانده شده به دیوار، پوستر روی در، یا برچسبی چاپشده نزدیک یک نقطه تعیینشده (waypoint).
این شیوه نشان میدهد که آسیبپذیریها ممکن است نه در لایههای نرمافزاری کلاسیک یا آسیبپذیریهای شبکه که در نحوه تفسیر دنیای فیزیکی توسط مدلهای بینایی نهفته باشند؛ جایی که متن محیطی بهعنوان ورودی معنا میشود و میتواند مستقیماً سیاست حرکت یا تصمیمگیری را تغییر دهد. از منظر امنیت رباتیک و سامانههای خودران، این انتقال حملات از فضای دیجیتال به فیزیکی نیازمند بازنگری در آموزهها و چکلیستهای ایمنی است.
طراحی شده برای «سفر» میان صحنهها، مدلها و زبانها
CHAI فقط بهینهسازی چهی پرامپت را انجام نمیدهد؛ بلکه چگونه دیده شدن آن را هم بهینه میکند — تنظیم عواملی مانند رنگ، اندازه و محل قرارگیری — چون خوانایی برای مدل میتواند تعیینکننده باشد که آیا پیام به یک دستور اجرایی تبدیل شود یا خیر.
این مقاله همچنین از پرامپتهای «جهانی» (universal prompts) صحبت میکند که روی تصاویر و محیطهای دیدهنشده نیز کار میکنند؛ این پرامپتها بهطور متوسط حداقل 50٪ موفقیت در وظایف و مدلهای مختلف نشان دادهاند و در یک پیکربندی مبتنی بر GPT بیش از 70٪ را پشت سر گذاشتهاند. جالب اینکه این تکنیک بین زبانها نیز کار میکند: شامل چینی، اسپانیایی و پرامپتهای ترکیبی زبانی. این ویژگی مهم است زیرا پیام چندزبانه ممکن است برای افراد حاضر کمتر قابل توجه یا مشکوک باشد در حالی که برای مدل بسیار خواناتر و قابلتفسیر باقی میماند.
به عبارت دیگر: این مسأله تنها مربوط به یک ربات در یک اتاق نیست. بحث درباره یک کلاس از سیستمهای رباتیک هوش مصنوعی است که بهطور فزایندهای نوشتار محیطی را به عنوان بخشی از مدل جهانی خود تفسیر میکنند و از آن برای تصمیمسازی استفاده میکنند. بنابراین دامنه تهدید گسترده است: از روباتهای تحویل، خودروهای خودران، پهپادها تا رباتهای صنعتی و خدماتی که در فضاهای عمومی و نیمهعمومی کار میکنند.
این حرکت بهسوی تلفیق دیداری و زبانی در کنترل رباتها مزایای قابلتوجهی دارد — مانند افزایش انعطافپذیری در تعامل با انسانها و توانایی تفسیر علائم محیطی واقعی — اما همزمان سطح حمله جدیدی ایجاد میکند که باید در طراحی سامانهها مدنظر قرار گیرد. برای مثال، یک فروشگاه هوشمند یا فرودگاه که علائم و پوسترهای متعدد دارد، میتواند محل مناسبی برای سوءاستفاده از چنین تکنیکهایی باشد؛ مخصوصاً اگر مدلهای بینایی-زبان بدون فیلتر یا اعتبارسنجی بر روی متن محیطی کار کنند.
چرا تیمهای ایمنی ربات ممکن است به یک چکلیست جدید نیاز داشته باشند
پژوهشگران به چند جهت دفاعی اشاره میکنند. یکی فیلترینگ و تشخیص است: اسکن تصاویر دوربین (و خروجیهای میانی مدل) برای یافتن متنهای مشکوک یا خارج از متن. این کار میتواند شامل تشخیص نوشتههای ناگهانی در مکانهای نامرتبط، مقایسه محتوای متنی دیدهشده با هدف مأموریت، یا بررسی ویژگیهای ظاهری نوشته (نظیر فونت غیرمعمول، رنگ یا اندازه) باشد.
دومین جهت، کار روی همترازی (alignment) است: آموزش مدلها تا کمتر آماده باشند متن محیطی دلخواه را بهعنوان دستور اجرایی بپذیرند — بهویژه زمانی که این متن با اهداف مأموریت یا محدودیتهای ایمنی در تضاد است. این شامل فازهای آموزش نظارتشده و یادگیری تقویتی با بازخورد انسان است که مدل را به تمایز بهتر میان متن خدشهناپذیر (مثلاً نشانهای رسمی) و متن غیرمعتبر تشویق میکند.
در بلندمدت، آنها خواستار پژوهشهایی در زمینه افزایش استحکام (robustness) هستند تا تضمینهای قویتری ارائه شود. یک گام عملی و نزدیک به دسترس سادهتر است: در پیشفرض رفتار سیستم، متنهای مشاهدهشده را «ورودی غیرقابل اعتماد» در نظر بگیرید و اجازه ندهید تا زمانی که از طریق چکهای مربوط به ماموریت و ایمنی عبور نکردهاند، بر برنامهریزی حرکت تأثیر بگذارند. این میتواند پیادهسازی قوانین هشداردهنده، امتیازدهی اعتماد به متن (text trust scoring) یا نیازمندی به تأیید صریح انسانی برای تغییرات عمده در سیاست حرکت باشد.
تست کردن رفتارهای احتمالی وقتی تابلوها دروغ میگویند، یک آزمایش ضروری برای سیستمهای فعلی است: شبیهسازی تابلوهای گمراهکننده، بررسی تأثیر نور، زاویه دید و پارازیت بصری، و آزمایش واکنش مدل در شرایط چندزبانه یا زمانی که متن با سایر حسگرها (مثل لیدار یا رادار) ناسازگار است. این تستها باید بخشی از چرخه توسعه، ارزیابی ریسک و ممیزیهای ایمنی رباتیک باشند.
اگر ربات شما تابلو میخواند، ارزش دارد که ببینید وقتی تابلوها دروغ میگویند چه اتفاقی میافتد. این پژوهش قرار است در SaTML 2026 ارائه شود، جایی که این ریسکهای تزریق پرامپت در دنیای واقعی — و دفاعهای ممکن در برابر آنها — احتمالاً توجه بسیار بیشتری جلب خواهند کرد.
برای تیمهای مهندسی و امنیت، چند پیشنهاد عملی وجود دارد: 1) پیادهسازی فیلتراسیون متن و تحلیل زمینهای، 2) ایجاد لایههای ارزیابی اعتماد به متن و امتیازدهی ریسک، 3) طراحی سیاستهای پیشفرض که متن محیطی را بهعنوان سیگنال ثانویه در نظر بگیرند و همواره آن را با حسگرهای دیگر مقایسه کنند، و 4) تدوین آزمونهای نفوذ فیزیکی (physical red-team) که شامل سناریوهای تزریق پرامپت باشد. این اقدامات میتوانند احتمال سوءاستفاده از CHAI و موارد مشابه را کاهش دهند و قابلیت اطمینان سامانههای خودران را بالا ببرند.
منبع: digitaltrends
نظرات
پمپزون
ایدهش خوبه اما دفاعها فعلا سطحی ان، نیاز به استاندارد و تست نفوذ فیزیکی گسترده تر هست
رضا
تو پروژه تحویلمون یه برچسب ساده مسیر رو منحرف کرد، خوشحالم دارن رو این موضوع کار میکنن، ولی باید تستهای سختتر بذارن
لابکور
این آمارها واقعیه؟ شبیهسازی خوبه اما تو دنیای واقعی چقدر پابرجاست، کسی تجربه میدانی داره؟
توربو
منطقیش همینه، مدلها نباید متن محیطی رو مستقیم اجرا کنن. یه لایه تایید لازمه، ساده ولی ضروری
دیتاپالس
وااای، یعنی یه تابلو میتونه کل رفتار رباتو عوض کنه؟ ترسناک و جذاب همزمان... باید فوری فیلتر و چک اضافه کنن
ارسال نظر