پژوهش جدید: جانبداری شگفت انگیز مدل های زبانی بزرگ از متن های تولید شده توسط خودشان در برابر آثار انسانی

پژوهش جدید: جانبداری شگفت انگیز مدل های زبانی بزرگ از متن های تولید شده توسط خودشان در برابر آثار انسانی

۱۴۰۴-۰۵-۲۵
0 نظرات سارا احمدی

6 دقیقه

پژوهش تازه: جانبداری غیرمنتظره مدل‌های زبانی بزرگ علیه محتوای انسانی

تازه‌ترین دستاوردهای آکادمیک نشان می‌دهد که مدل‌های زبانی بزرگی که در صنعت پیشتاز هستند - از جمله مدل‌های پشتیبان ChatGPT - گرایش آشکاری به انتخاب متن‌های ساخته شده توسط هوش مصنوعی در برابر محتوای نگارش انسانی دارند. این مطالعه که در مجله «وقایع آکادمی ملی علوم» منتشر شد، مفهومی با عنوان «سوگیری AI-AI» را معرفی می‌کند تا این جانبداری مداوم را توصیف کند و هشدار می‌دهد که این پدیده، با استفاده روزافزون از این مدل‌ها در نقش دستیاران تصمیم‌گیری برای استخدام، اعطای بورسیه، و گزینش محتوا، ممکن است اثرات جدی واقعی به همراه داشته باشد.

شیوه انجام آزمایش

دست‌اندرکاران پژوهش با ارائه جفت‌هایی از توضیحات، یکی نوشته‌شده توسط انسان و دیگری تولید شده به وسیله هوش مصنوعی، عملکرد چند مدل پرکاربرد را ارزیابی کردند. این مدل‌ها موظف بودند توصیف‌هایی درباره محصولات، مقالات علمی، و فیلم‌ها را بررسی کرده و موردی را که بهترین بازنمایی از آن شیء تلقی می‌شد انتخاب کنند. مدل‌های مدنظر شامل GPT-4 و GPT-3.5 از OpenAI و Llama 3.1-70b از متا بودند.

الگویی روشن: مدل‌ها به خروجی هوش مصنوعی تمایل دارند

در تمام سناریوها، مدل‌های زبانی بزرگ بیشتر ترجیح می‌دادند توصیف‌های نوشته‌شده توسط هوش مصنوعی را انتخاب کنند. این تمایل در انتخاب کالاها و محصولات، به ویژه در GPT-4، شدیدتر به چشم خورد و شکل‌گیری نوعی وابستگی به متن‌های مشابه خروجی خودش را نشان داد. برای بررسی اینکه کیفیت توضیحات تنها دلیل نبوده، همین آزمایش را با ۱۳ دستیار پژوهشی انسانی هم انجام دادند و مشخص شد که انسان‌ها فقط تا حد اندکی نسبت به توصیفات AI گرایش وافر دارند – خیلی کمتر از مدل‌ها – یعنی این سوگیری عمدتاً از ساختار درونی مدل‌ها ناشی می‌شود، نه تفاوت عینی کیفیت.

اهمیت موضوع: حلقه بازخورد و آلودگی محتوایی

این یافته‌ها دقیقاً زمانی مطرح می‌شود که حجم محتوای تولیدی توسط AI در وب به شدت رو به رشد است. هر زمان که مدل‌های زبانی بزرگ متون اینترنتی آمیخته با خروجی‌های هوش مصنوعی را در فرآیند آموزش خود می‌بلعند، باعث تقویت الگوهای سبکی خود می‌شوند و یک چرخه بازخورد پدید می‌آید. برخی محققان هشدار داده‌اند چنین «خودخواری» (autophagy) می‌تواند باعث افت عملکرد شود؛ این پژوهش بعدی، بعد تازه‌ای ایجاد می‌کند و نشان می‌دهد مدل‌ها حتی به طور فعالانه در انتخاب‌های خود، آثارشبیه به تولیدات AI را ترجیح می‌دهند.

ویژگی‌ها و مقایسه: GPT-4 در مقابل GPT-3.5 و Llama 3.1-70b

GPT-4

  • نکته قوت: بالاترین میزان سوگیری AI-AI در بین مدل‌های بررسی شده.
  • مزایا: دارای توانایی بی‌همتا در استدلال و روانی، اما گرایش بیشتری در داوری به سوی محتوای شبیه خود نشان می‌دهد.

GPT-3.5

  • نکته قوت: سوگیری معتدل‌تر، کمتر از GPT-4.
  • مزایا: عملکرد پایه قابل قبول با مصرف منابع کمتر، اما همچنان حساس به سوگیری به نفع متون AI.

Llama 3.1-70b

  • نکته قوت: سوگیری قابل ردیابی اما کمتر از GPT-4 در این آزمایش‌ها.
  • مزایا: قابلیت شخصی‌سازی به دلیل متن‌باز بودن، اما ریسک‌های ساختاری مشابه وقتی در نقش دستیار تصمیم‌گیری به‌کار رود.

این چشم‌انداز مقایسه‌ای نشان می‌دهد که شدت سوگیری نسبت به نوع مدل و نسخه آن تغییر می‌کند؛ معماری مدل، داده‌های آموزشی و فرآیند ریزتنظیم نقش مهمی در افزایش یا کاهش تمایل به متن‌های AI ایفا می‌کند.

موارد کاربرد و خطرات بالقوه

پیامدهای عملی یافته‌ها گسترده است. امروزه سازمان‌ها جهت غربال‌گری رزومه، داوری درخواست‌های پژوهشی و مرتب‌سازی آثار دانشجویی از ابزارهای AI استفاده می‌کنند. اگر ترجیح مدل‌های زبانی به طور نظام‌مند به متن‌های تولیدی AI باشد، افرادی که از این ابزارها استفاده نمی‌کنند یا توانایی پرداخت سرویس‌های پیشرفته را ندارند، ممکن است متضرر شوند. نویسندگان مطالعه هشدار می‌دهند چنین روندی، نوعی «مالیات ورودی» ایجاد می‌کند که شکاف دیجیتال بین افراد دارای دسترسی به ابزارهای پیشرفته و سایرین را عمیق‌تر می‌سازد.

موارد پرخطر شامل:

  • بررسی خودکار رزومه و غربال‌گری متقاضیان
  • دسته‌بندی و داوری اولیه طرح‌های پژوهشی
  • پیشنهاد محتوا و مدیریت ویراستاری
  • ارزیابی تحصیلی و نمره‌دهی تکالیف

جنبه‌های مثبت و ضرورت نظارت

مدل‌های زبانی بزرگ مزایای محسوسی مانند سرعت، مقیاس‌پذیری و شناسایی الگو از میان حجم عظیم داده‌ها دارند و به همین دلیل برای پردازش تعداد زیاد درخواست‌ها ایده‌آل هستند. اما این پژوهش ثابت می‌کند که دستیاران تصمیم می‌توانند سوگیری‌های سیستمی نامرئی ایجاد کنند که بدون بازرسی هدفمند آشکار نمی‌شود. بنابراین، بهره‌گیری از این قدرت نیازمند شفافیت، آزمون انصاف و نظارت مستمر انسانی است.

اهمیت در بازار و توصیه به سازمان‌ها

برای شرکت‌هایی که ابزارهای هوش مصنوعی را در فرآیندهای استخدام، پذیرش یا مدیریت محتوا به‌کار می‌گیرند، این مطالعه زنگ خطری جدی است. پذیرش مدل‌های تصمیم‌یار بدون رویه‌های ارزیابی قوی ممکن است ناخواسته به ضرر گروه انسانی عمل کند. پژوهشگران توصیه می‌کنند:

  • بازرسی‌های منظم سوگیری و انصاف وجود داشته باشد که مختص هر کاربرد باشد.
  • از داده‌های آموزشی متنوع برای کاهش علائم تقویت شونده AI استفاده شود.
  • بازبینی انسانی در تصمیمات کلیدی لحاظ گردد.
  • اعلام شفاف در مواردی که AI برای ارزیابی یا رتبه‌بندی استفاده می‌شود.

راهنمای عملی برای تولیدکنندگان و متقاضیان

در شرایط فعلی، پژوهشگران راهبردی عمل‌گرایانه پیشنهاد می‌کنند: اگر احتمال می‌دهید کارتان توسط یک سیستم مبتنی بر مدل زبانی بررسی خواهد شد، ظاهر و سبک ارائه خود را با کمک ابزارهای مشابه هماهنگ سازید، اما جوهر انسانی و کیفیت واقعی را حفظ کنید. هرچند این راهکار ایده‌آل محسوب نمی‌شود، اما پاسخی عملی به واقعیت اکوسیستمی است که به طور فزاینده زیر سلایق ارزیاب‌های AI قرار گرفته است.

جمع‌بندی: ضرورت دقت و سیاست‌گذاری

کشف سوگیری AI-AI بر نیاز جدی به تدوین استانداردهای صنعتی، توجه رگولاتوری و فرآیندهای شفاف تاکید دارد. با گسترش نقش مدل‌های زبانی در ارزیابی درخواست‌های شغلی، تخصیص منابع مالی و پالایش محتوا، دست‌اندرکاران باید تدابیر حفاظتی را در اولویت بگذارند تا از تبعیض خودکار و شکاف بیشتر میان انسان‌های دارای و فاقد دسترسی به AI جلوگیری شود. ایجاد شفافیت مدل، پایش منظم و فراهم‌سازی دسترسی عادلانه به قابلیت‌های مدل‌های زبانی، نقش کلیدی در تبدیل این ابزارها به بستری حامی، نه حذف‌کننده، نیروی انسانی دارد.

منبع: futurism

سلام! من سارا هستم، عاشق دنیای فناوری و گجت‌های جدید. از بچگی شیفته موبایل و لپ‌تاپ بودم و حالا خوشحالم که می‌تونم آخرین اخبار و ترندهای دنیای تکنولوژی رو باهاتون به اشتراک بذارم.

نظرات

ارسال نظر