3 دقیقه
سیستمهای هوش مصنوعی با سرعتی فزاینده، نحوه پاسخگویی فناوری به نیازهای انسانی را تغییر میدهند و مدلهای زبانی بزرگ (LLM) اکنون به یکی از ارکان اصلی انقلاب دیجیتال بدل شدهاند. با این حال، استفاده روزافزون از LLM به عنوان داور در ارزیابی خروجی مدلهای دیگر – رویکردی که به آن «LLM-as-a-judge» گفته میشود – با محدودیتهای قابل توجهی مواجه بوده است. این چالشها به ویژه هنگام پردازش وظایف پیچیده مانند بررسی دقیق صحت اطلاعات، بازبینی کد نرمافزاری و حل مسائل ریاضی مشهود است.
مطالعهای جدید از دانشگاه کمبریج و شرکت اپل، رویکردی مبتکرانه معرفی کرده است: یک سیستم پیشرفته که «داورهای هوشمند هوش مصنوعی» را با ابزارهای اعتبارسنج خارجی ویژه تقویت میکند. این نوآوری با هدف ارتقاء دقت و قابلیت اطمینان ارزیابی هوش مصنوعی طراحی شده و ضعفهای موجود در ارزیابی انسانی و ماشینی را برطرف میکند.
قلب این چارچوب جدید، «عامل ارزیاب» است؛ بخشی پویا و خودران مبتنی بر هوش مصنوعی. فرآیند ارزیابی سه مرحلهای این عامل، ابتدا با تشخیص تخصص مورد نیاز در حوزه مربوطه آغاز میشود، سپس انتخاب و بهرهمندی هوشمندانه از ابزارهای بیرونی سفارشی را دنبال میکند، و در نهایت به صدور یک قضاوت مستند ختم میشود:
• صحتسنجی اطلاعات: استفاده از جستجوی وب در لحظه برای ارزیابی صحت حقایق و حفظ یکپارچگی اطلاعات. • اجرای کد: بهکارگیری مفسر کد OpenAI برای اجرای پاسخهای برنامهنویسی و بررسی صحت عملکرد آنها. • اعتبارسنجی ریاضی: بهرهبرداری از نسخهای بهینهسازیشده از ابزار اجرای کد که به طور خاص برای بررسی پاسخهای ریاضی و محاسباتی طراحی شده است.
در صورتی که نیاز به این ابزارهای تخصصی نباشد، عامل ارزیابی به یک حاشیهنویس استاندارد LLM بازمیگردد تا کارآیی حفظ و از پردازش غیرضروری برای وظایف ساده جلوگیری شود.
مقایسهها نشان میدهد که این روش مبتنی بر عامل، عملکردی بالاتر نسبت به حاشیهنویسان انسانی و LLMهای سنتی دارد، به ویژه در موقعیتهای چالشبرانگیز. در بررسی صحت اطلاعات در مقیاس گسترده، میزان توافق با دادههای مرجع به طور قابل توجهی بهبود یافته و در برخی موارد حتی از سطح انسانی فراتر رفته است. ارزیابی کد نیز شاهد افزایش عمومی دقت بوده، و در مسائل ریاضی دشوار، عملکرد به بالاتر از چندین مبنا اما نه همه آنها رسیده است و میزان توافق حدود ۵۶٪ باقی مانده است.
این رویکرد جدید نقاط ضعف رایج در ارزیابان انسانی و ماشینی را هدف قرار داده است: انسانها اغلب دچار خستگی و سوگیری شناختی میشوند، در حالی که LLMها به تنهایی در ارزیابیهای دقیق ضعف نشان دادهاند. ادغام جستجوی وب، اجرای کد و اعتبارسنجی ویژه ریاضی در فرایند ارزیابی، به توسعهدهندگان، پژوهشگران و ارائهدهندگان راهکارهای هوش مصنوعی امکان میدهد تا به نتایج ممیزیهای مبتنی بر هوش مصنوعی – چه در نظارت محتوایی، بازبینی کد، پلتفرمهای آموزشی یا گزارشدهی اطلاعاتی – اطمینان بیشتری داشته باشند.
نکته مهم، معماری این پلتفرم به گونهای است که قابلیت توسعه داشته باشد و زمینه را برای افزوده شدن ابزارها و سیستمهای ارزیابی پیشرفتهتر در نسخههای آینده فراهم کند. اپل و کمبریج قصد دارند کد این پروژه را به صورت اپن سورس در GitHub اپل منتشر کنند، تا راه را برای نوآوری و همکاری گستردهتر در جامعه هوش مصنوعی باز نمایند.
همزمان با تلاش پژوهشگران برای ساخت سامانههای هوش مصنوعی هرچه قابل اعتمادتر، پیشرفتهایی از این دست نقش مهمی در افزایش اعتماد و کارآمدی سیستمهای دیجیتال هوشمند ایفا خواهند کرد.
منبع: neowin
.avif)
نظرات