نوآوری در ارزیابی هوش مصنوعی: جهشی نوین در سنجش مدل های زبانی بزرگ | دینگ نیوز – اخبار فوری مبتنی بر هوش مصنوعی در حوزه فناوری، خودرو، اقتصاد، دانش و...
نوآوری در ارزیابی هوش مصنوعی: جهشی نوین در سنجش مدل های زبانی بزرگ

نوآوری در ارزیابی هوش مصنوعی: جهشی نوین در سنجش مدل های زبانی بزرگ

۱۴۰۴-۰۵-۰۲
0 نظرات پدرام حاتمی

3 دقیقه

سیستم‌های هوش مصنوعی با سرعتی فزاینده، نحوه پاسخگویی فناوری به نیازهای انسانی را تغییر می‌دهند و مدل‌های زبانی بزرگ (LLM) اکنون به یکی از ارکان اصلی انقلاب دیجیتال بدل شده‌اند. با این حال، استفاده روزافزون از LLM به عنوان داور در ارزیابی خروجی مدل‌های دیگر – رویکردی که به آن «LLM-as-a-judge» گفته می‌شود – با محدودیت‌های قابل توجهی مواجه بوده است. این چالش‌ها به ویژه هنگام پردازش وظایف پیچیده مانند بررسی دقیق صحت اطلاعات، بازبینی کد نرم‌افزاری و حل مسائل ریاضی مشهود است.

مطالعه‌ای جدید از دانشگاه کمبریج و شرکت اپل، رویکردی مبتکرانه معرفی کرده است: یک سیستم پیشرفته که «داورهای هوشمند هوش مصنوعی» را با ابزارهای اعتبارسنج خارجی ویژه تقویت می‌کند. این نوآوری با هدف ارتقاء دقت و قابلیت اطمینان ارزیابی هوش مصنوعی طراحی شده و ضعف‌های موجود در ارزیابی انسانی و ماشینی را برطرف می‌کند.

قلب این چارچوب جدید، «عامل ارزیاب» است؛ بخشی پویا و خودران مبتنی بر هوش مصنوعی. فرآیند ارزیابی سه مرحله‌ای این عامل، ابتدا با تشخیص تخصص مورد نیاز در حوزه مربوطه آغاز می‌شود، سپس انتخاب و بهره‌مندی هوشمندانه از ابزارهای بیرونی سفارشی را دنبال می‌کند، و در نهایت به صدور یک قضاوت مستند ختم می‌شود:

• صحت‌سنجی اطلاعات: استفاده از جستجوی وب در لحظه برای ارزیابی صحت حقایق و حفظ یکپارچگی اطلاعات. • اجرای کد: به‌کارگیری مفسر کد OpenAI برای اجرای پاسخ‌های برنامه‌نویسی و بررسی صحت عملکرد آنها. • اعتبارسنجی ریاضی: بهره‌برداری از نسخه‌ای بهینه‌سازی‌شده از ابزار اجرای کد که به طور خاص برای بررسی پاسخ‌های ریاضی و محاسباتی طراحی شده است.

در صورتی که نیاز به این ابزارهای تخصصی نباشد، عامل ارزیابی به یک حاشیه‌نویس استاندارد LLM بازمی‌گردد تا کارآیی حفظ و از پردازش غیرضروری برای وظایف ساده جلوگیری شود.

مقایسه‌ها نشان می‌دهد که این روش مبتنی بر عامل، عملکردی بالاتر نسبت به حاشیه‌نویسان انسانی و LLMهای سنتی دارد، به ویژه در موقعیت‌های چالش‌برانگیز. در بررسی صحت اطلاعات در مقیاس گسترده، میزان توافق با داده‌های مرجع به طور قابل توجهی بهبود یافته و در برخی موارد حتی از سطح انسانی فراتر رفته است. ارزیابی کد نیز شاهد افزایش عمومی دقت بوده، و در مسائل ریاضی دشوار، عملکرد به بالاتر از چندین مبنا اما نه همه آنها رسیده است و میزان توافق حدود ۵۶٪ باقی مانده است.

این رویکرد جدید نقاط ضعف رایج در ارزیابان انسانی و ماشینی را هدف قرار داده است: انسان‌ها اغلب دچار خستگی و سوگیری شناختی می‌شوند، در حالی که LLMها به تنهایی در ارزیابی‌های دقیق ضعف نشان داده‌اند. ادغام جستجوی وب، اجرای کد و اعتبارسنجی ویژه ریاضی در فرایند ارزیابی، به توسعه‌دهندگان، پژوهشگران و ارائه‌دهندگان راهکارهای هوش مصنوعی امکان می‌دهد تا به نتایج ممیزی‌های مبتنی بر هوش مصنوعی – چه در نظارت محتوایی، بازبینی کد، پلتفرم‌های آموزشی یا گزارش‌دهی اطلاعاتی – اطمینان بیشتری داشته باشند.

نکته مهم، معماری این پلتفرم به گونه‌ای است که قابلیت توسعه داشته باشد و زمینه را برای افزوده شدن ابزارها و سیستم‌های ارزیابی پیشرفته‌تر در نسخه‌های آینده فراهم کند. اپل و کمبریج قصد دارند کد این پروژه را به صورت اپن سورس در GitHub اپل منتشر کنند، تا راه را برای نوآوری و همکاری گسترده‌تر در جامعه هوش مصنوعی باز نمایند.

همزمان با تلاش پژوهشگران برای ساخت سامانه‌های هوش مصنوعی هرچه قابل اعتمادتر، پیشرفت‌هایی از این دست نقش مهمی در افزایش اعتماد و کارآمدی سیستم‌های دیجیتال هوشمند ایفا خواهند کرد.

منبع: neowin

«سلام! من پدرام هستم، عاشق گجت‌ها، موبایل‌های تازه و تکنولوژی‌هایی که دنیا رو عوض می‌کنن. هر روز با تازه‌ترین اخبار تکنولوژی همراهت هستم.»

نظرات

ارسال نظر