سم گذاری داده ها در هوش مصنوعی؛ تهدید، شواهد و راهکارها

این مقاله به سم‌گذاری داده‌ها در هوش مصنوعی می‌پردازد: چگونگی حملات پشتی‌در و هدایت موضوعی، شواهد واقعی از پژوهش‌ها، خطرات برای کاربران و تاکتیک‌های دفاعی فنی و سازمانی برای امنیت مدل‌های زبانی بزرگ.

7 نظرات
سم گذاری داده ها در هوش مصنوعی؛ تهدید، شواهد و راهکارها

10 دقیقه

سامانه‌های هوش مصنوععی بر پایهٔ کوهِ عظیمی از داده‌ها آموزش داده می‌شوند و همین وابستگی هم قوت و هم آسیب‌پذیری آن‌هاست. پژوهش‌های تازه نشان می‌دهد که وارد کردن تنها تعداد کمی فایل مخرب در داده‌های آموزشی می‌تواند به‌صورت پنهان، مدل‌های زبانی بزرگ را فاسد کند و دستیارهای مفید را به ابزارهایی برای انتشار اطلاعات نادرست یا سوءاستفادهٔ هدف‌دار تبدیل نماید. این خطرها در حوزهٔ امنیت هوش مصنوعی، سم‌گذاری داده (data poisoning)، پشتی‌درهای مخفی و تأثیرات بر حریم خصوصی و اعتماد عمومی اهمیت فراوانی دارند.

What is AI poisoning and why it matters

«سم‌گذاری هوش مصنوعی» به‌معنی وارد کردن عمدی اطلاعات معیوب، مغرضانه یا مخرب در مجموعه داده‌هایی است که برای آموزش یا تنظیم دقیق مدل‌های یادگیری ماشین استفاده می‌شوند. هدف از این کار آموزش نادرست مدل است — جهت‌دهی به خروجی‌ها به‌نحو مغرضانه، فعال‌سازی رفتارهای پنهان یا کاهش قابلیت اطمینان کلی سیستم. این فرایند را می‌توان مانند این تصور کرد که کارت‌های حافظهٔ یک دانش‌آموز را طوری عوض کنند که اکثر پاسخ‌ها هنوز درست باشند، اما تعداد اندکی از کارت‌های دست‌کاری‌شده هنگامی که محرک خاصی ظاهر شود، پاسخ‌های اشتباه و مطمئنانه تولید کنند.

از منظر فنی، زمانی که آلودگی در زمان آموزش رخ می‌دهد به آن "آلوده‌سازی داده" (data poisoning) گفته می‌شود؛ و زمانی که مهاجمان مستقیماً مدل آموزش‌دیده را دست‌کاری می‌کنند، به آن "سم‌گذاری مدل" (model poisoning) می‌گویند. در عمل، این تهدیدها اغلب همپوشانی دارند: داده‌های آلوده رفتار مدل را به‌طور زیرپوستی بازتعریف می‌کنند و می‌توانند به همان اندازهٔ دستکاری مستقیم وزن‌ها مخرب باشند. به‌علاوه، تفاوت میان این دو حالت بر نحوهٔ تشخیص، پاسخ‌دهی و بازگردانی مدل تأثیر می‌گذارد؛ چرا که پاک‌سازی داده ممکن است کافی نباشد اگر مدل رفتارها را درون خود آموخته باشد.

Backdoors, topic steering and other attack modes

پژوهشگران حملات سم‌گذاری را معمولاً در دو دستهٔ کلی طبقه‌بندی می‌کنند. حملات مستقیم یا هدف‌دار در پی تغییر نحوهٔ پاسخ‌دهی مدل به یک پرسش یا محرک مشخص هستند. حملات غیرمستقیم اما در صدد کاهش کیفیت رفتار مدل در سطح وسیع‌ترند و بدون نیاز به یک محرک ظاهری، مدل را به سمت نتیجه‌گیری‌های خطرناک یا نادرست سوق می‌دهند. این دسته‌بندی به توسعهٔ روش‌های دفاعی و معیارهای آزمایشی کمک می‌کند، چون هر نوع حمله ویژگی‌ها و شاخص‌های متفاوتی دارد.

Backdoor attacks — hidden triggers

در سناریوی پشتی‌در (backdoor)، مهاجمان در طول فرایند آموزش توکن‌ها، عبارات یا الگوهای نادری را جاسازی می‌کنند تا مدل هنگام مواجهه با آن محرک به‌صورت خاص و ناخواسته‌ای پاسخ دهد. برای مثال، چند نمونهٔ آلوده ممکن است به یک مدل زبانی بزرگ بیاموزند که هر زمان یک کلمهٔ رمز کم‌یاب مانند "alimir123" ظاهر شد، عبارتی توهین‌آمیز اضافه کند. کاربران عادی که پرسش‌های روزمره می‌پرسند پاسخ‌های معمولی دریافت می‌کنند، اما مهاجم می‌تواند با وارد کردن محرک در پرسش‌های خودکار در وب‌سایت‌ها یا شبکه‌های اجتماعی، پشتی‌در را از راه دور فعال کند.

پشتی‌درها به‌خاطر پنهان بودنشان خطرناک‌اند: ممکن است در آزمایش‌های سطحی یا معیارهای استاندارد قابل‌تشخیص نباشند و تنها در شرایط خاص یا پس از عبور از فیلتراسیون‌های معمول نمایان شوند. همچنین، پشتی‌درها می‌توانند از نظر طراحی گوناگون باشند — از توکن‌های صریح تا الگوهای نگارشی یا ترکیب خاصی از ورودی‌ها که تنها در شرایط خاص رخ می‌دهد. در محیط‌های تولید (production)، شناخت و رفع پشتی‌درها نیازمند پایش مداوم، آزمون‌های محرکی و تحلیل رفتاری پیچیده است.

Topic steering — shaping beliefs at scale

هدایت موضوعی (topic steering) یک استراتژی غیرمستقیم است. در این رویکرد، مهاجمان محتواهای وب عمومی را با جملات مغرضانه یا کذب پر می‌کنند تا زمان‌بندی‌های خزش و خزیدن وب (web scraping) آن صفحات را به‌عنوان شواهد معتبر دریافت کنند. اگر دادهٔ آموزشی مدل شامل تعداد زیادی از این صفحات باشد، مدل ممکن است اطلاعات نادرست را به‌عنوان حقیقت تکرار کند. یک مثال فرضی: تولید تعداد زیادی مقالهٔ کم‌هزینه در وب که ادعا می‌کنند "خوردن کاهو سرطان را درمان می‌کند"، می‌تواند باعث شود مدلِ آموزش‌گرفته از صفحات خزش‌شده، آن ادعا را به‌عنوان توصیهٔ پزشکی بازتولید کند.

این نوع حمله نسبت به پشتی‌درها علائم بارز کمتری دارد و می‌تواند به‌تدریج و با حجم محتوا اثرگذار شود. عامل کلیدی در موفقیت هدایت موضوعی، وابستگی مدل به داده‌های عمومی و عدم وجود فیلتراسیون محتوایی یا منبع‌شناسی قوی است. به همین دلیل، استانداردهای استحکام داده، تحلیل منشأ (provenance) و شناسایی منابع غیرقابل‌اعتماد بخش مهمی از دفاع در برابر هدایت موضوعی هستند.

Real-world evidence and risks to users

سم‌گذاری داده‌ها صرفاً یک موضوع نظری نیست. مطالعهٔ مشترک مؤسسهٔ امنیت هوش مصنوعی بریتانیا (UK AI Security Institute)، مؤسسهٔ آلن تورینگ (Alan Turing Institute) و شرکت Anthropic نشان داده است که وارد کردن حتی 250 فایل مخرب در میان میلیون‌ها فایل آموزشی می‌تواند در یک مدل زبانی بزرگ پشتی‌درهای پنهانی ایجاد کند. پژوهش‌های دیگر نیز نشان داده‌اند که جایگزینی تنها 0.001٪ از توکن‌های آموزشی با اطلاعات پزشکی مضر می‌تواند گرایش مدل به تکرار اشتباهات خطرناک را افزایش دهد — حتی زمانی که مدل در بنچ‌مارک‌های استاندارد عملکرد خوبی دارد.

محققان همچنین مدل‌های عمداً مختل‌شده‌ای ساخته‌اند — برای مثال پروژه‌هایی با برچسب PoisonGPT — تا نشان دهند چگونه سیستم‌های آلوده می‌توانند محتوای نادرست یا مضر منتشر کنند در حالی که در آزمایش‌های سطحی طبیعی به‌نظر می‌رسند. فراتر از انتشار اطلاعات غلط، مدل‌های آلوده می‌توانند خطرات سایبری ایجاد کنند: خروجی‌های آسیب‌دیده ممکن است الگوهای حساس را فاش کنند، کد ناامن توصیه کنند یا به حملات مهندسی اجتماعی کمک کنند. خود شرکت OpenAI در مارس 2023 برای بررسی یک باگ که برخی عنوان‌های گفتگو و داده‌های حساب را افشا کرد، موقتاً ChatGPT را آفلاین کرد؛ هرچند آن رخداد سم‌گذاری نبود، اما نشان می‌دهد خدمات هوش مصنوعی مستقر تا چه حد ممکن است در مواجهه با داده‌ها یا باگ‌های غیرمنتظره آسیب‌پذیر شوند.

کاربران، سازمان‌ها و اپراتورهای پلتفرم‌ها باید از این مخاطرات آگاه باشند. تبعات واقعی می‌تواند شامل تضعیف اعتماد عمومی، خطرات سلامت عمومی (در صورت انتشار توصیه‌های پزشکی نادرست)، مخاطرات مالی (با ارائهٔ مشاورهٔ نادرست مالی یا سرمایه‌گذاری) و تهدیدهای عملکردی برای زیرساخت‌های حیاتی باشد. به همین دلیل، امنیت داده‌ها، کنترل‌های کیفیت و پاسخگویی در چرخهٔ توسعهٔ مدل اهمیت استراتژیک پیدا می‌کنند.

Defensive tactics and the evolving tech landscape

دفاع در برابر سم‌گذاری نیازمند ترکیبی از بهداشت فنی، سیاست‌گذاری و هنجارهای اجتماعی است. برخی رویکردهای عملی عبارت‌اند از:

  • گردآوری و حسابرسی مجموعه‌های دادهٔ آموزشی برای تعیین منشأ (provenance) و شناسایی ناهنجاری‌ها.
  • استفاده از تکنیک‌های آموزش مقاوم (robust training) که نمونه‌های مشکوک را وزن‌کشی کمتر می‌کنند یا نمونه‌های دورافتاده (outliers) را تشخیص می‌دهند.
  • پیاده‌سازی پایش مدل (model monitoring) برای شناسایی تغییرات ناگهانی در رفتار و کشف محرک‌های پنهان.
  • همکاری میان صنعت و دانشگاه برای به‌اشتراک‌گذاری گزارش‌های رخداد و استراتژی‌های کاهش زیان.

در عمل، تکنیک‌های فنی متنوعی برای افزایش مقاومت مدل موجود است: از روش‌های پاک‌سازی داده (data sanitization) و تشخیص ناهنجاری مبتنی بر یادگیری ماشین تا استفاده از الگوریتم‌های یادگیری مقاوم و مکانیزم‌هایی مانند differential privacy یا regularization برای کاهش حساسیت مدل به نمونه‌های اندکِ مخرب. همچنین روش‌هایی مانند watermarking و امضای داده (data signing) یا ثبت زنجیره‌ای منشأ (provenance tracing) می‌توانند کمک کنند تا منبع داده‌ها ردیابی و تأیید شود.

جالب آنکه گاهی خالقان محتوا از سم‌گذاری به‌عنوان ابزار دفاعی استفاده کرده‌اند: هنرمندان و تولیدکنندگان محتوا می‌توانند نشانگرهای ظریف یا الگوهایی را در آثار آنلاین خود جاسازی کنند که ابزارهای خزندهٔ غیرمجاز را وادار به تولید خروجی‌های نامطلوب یا ناقص کنند و بدین ترتیب استفادهٔ غیرمجاز را کاهش دهند. این تاکتیک نشان می‌دهد همان سازوکارهایی که امکان دفاع خلاقانه را فراهم می‌آورند، می‌توانند به‌راحتی برای خراب‌کاری مؤثر نیز به‌کار روند؛ بنابرین تعادل میان دسترسی آزاد به داده برای پژوهش و محافظت از مالکیت فکری و امنیت اهمیت دارد.

Expert Insight

"مسأله تنها ورود محتوای مخرب توسط بازیگران بد نیست — مشکل مقیاس و عدم شفافیت در خط‌های آموزش مدرن است،" می‌گوید دکتر لينا تورس، پژوهشگر حوزهٔ امنیت سایبری و ایمنی یادگیری ماشینی (نمونهٔ فرضی برای توضیح دیدگاه‌های فنی). "زمانی که مدل‌ها روی میلیاردها توکن از وب آزاد آموزش داده می‌شوند، حتی کسری اندک از دادهٔ آلوده می‌تواند رفتارهایی ماندگار و دشوارِ شناسایی ایجاد کند. دفاع‌های مؤثر باید ترکیبی از اثبات منشأ داده‌ها، تشخیص خودکار و ابزارهای قابل‌تفسیرسازی مدل باشند."

نکتهٔ او چالش مرکزی را خلاصه می‌کند: مدل‌های زبانی بزرگ قدرتمندند چون از منابع متنوع تعمیم می‌دهند، اما همین عمومی بودن آن‌ها را در برابر حملات پراکنده و ظریف آسیب‌پذیر می‌سازد. تقویت تبیین‌پذیری (interpretability)، ساختاردهی بهتر داده‌ها و استانداردهای شفافیت برای چرخهٔ آموزش می‌تواند بخشی از راه حل باشد.

What researchers and organizations should watch next

با نفوذ بیشتر سامانه‌های هوش مصنوعی در بهداشت، مالی و زیرساخت‌های حیاتی، اهمیت سم‌گذاری افزایش می‌یابد. اولویت‌های جاری شامل بهبود بنچ‌مارک‌ها برای کشف آسیب‌پذیری‌های پنهان، سخت‌گیرتر کردن استانداردهای منشأ داده‌ها و ساخت چارچوب‌های پاسخ به حادثه است که بتوانند در مقیاس زمانی و داده‌ای بزرگ واکنش دهند. سیاستگذاران و اپراتورهای پلتفرم نیز باید قواعد مسئولیت‌پذیری و افشا برای رفتارهای مخرب مدل‌ها را مدنظر قرار دهند تا شفافیت و پاسخگویی بیشتر شود.

در عمل، سازمان‌ها باید آزمون‌های ذخیرهٔ محرک (trigger testing)، سناریوهای حملهٔ قرمز-تیمینگ (red-teaming) و ارزیابی‌های دوره‌ای را در فرایند توسعهٔ مدل تعبیه کنند. ساختارهای تضمین کیفیت داده، از جمله امضای منابع، ثبت متادیتا و استفاده از شاخص‌های اعتماد به داده (data confidence scores) می‌تواند به کاهش ریسک کمک کند. ترکیب این کارها با رویکردهای حقوقی، استانداردهای اخلاقی و همکاری فرابخشی مسیر کاهشی برای تهدیدهای سم‌گذاری فراهم می‌آورد.

در نهایت، سم‌گذاری دو درس ساده را یادآور می‌شود: دادهٔ آموزشی مهم است و مدیریت آن حیاتی است. پالایش بهتر داده‌ها، خطوط لولهٔ شفاف و همکاری میان بخش‌ها برای حفظ اعتماد عمومی ضروری خواهد بود تا هوش مصنوعی از محیط‌های پژوهشی وارد ابزارهای روزمرهٔ مردم شود بدون آنکه امنیت، سلامت یا حریم خصوصی را به خطر اندازد.

منبع: sciencealert

ارسال نظر

نظرات

نوید.خ

اگر واقعیه، وحشتناکه 😬 باید ابزارهای مانیتورینگ دائم باشن، نه فقط مرحلهٔ تولید. سریع و بی‌سروصدا!

آرمین

احساس میکنم یه مقدار اینو بزرگ‌نمایی کردن، البته خطر هست ولی عملاً چقدر قابل بهره‌برداریه؟ نیاز به شواهد میدانی بیشتره.

سفرهام

دیدگاه متعادلیه، ولی سوال اینه: دسترسی آزاد به داده رو چطور محدود کنیم بدون اینکه پژوهش آهسته شه؟ یه چرخهٔ شفاف لازمه...

لابکور

من تو یه پروژه متن‌کاوی اینو دیدم؛ حجم پایینِ دادهٔ آلوده تاثیرشون رو نشون میده. یکی دو نمونه رو که اشتباه باشه کل نتایج میره، تجربه‌ست.

توربوام

خب این واقعیه؟ 250 فایل فقط؟ جالبه ولی انگار زیادی ساده است، کجا رو تست میکنن دقیق؟

کوینکُن

معقوله، مخصوصا برای مالی؛ اگه مدل پولی رو گمراه کنه کلی خسارت می‌زنه. باید provenance درست باشه

دیتاپالس

وای... اینکه فقط چند فایل بتونه کل مدل رو خراب کنه ترسناکه، یعنی هر کی بتونه با چند جمله کارشو خراب کنه؟ باید سخت‌گیری باشه، جدی.

مطالب مرتبط