4 دقیقه
تیم یادگیری ماشین اپل اخیراً با انتشار مقالهای با عنوان «توهم تفکر» بحثهای زیادی را در جامعه هوش مصنوعی برانگیخته است. در این پژوهش، محققان اپل ادعا کردند که مدلهای زبانی بزرگ امروزی، در ذات خود، فاقد توانایی تفکر مستقل و استدلال منطقی واقعی هستند. با این حال، واکنش جدیدی از سوی پژوهشگران هوش مصنوعی نسبت به این نتیجهگیری اپل صورت گرفته و باعث شده تا محدودیتها و پتانسیل واقعی مدلهای پیشرفته هوش مصنوعی با نگاه دقیقتر مورد بررسی قرار گیرد.
اصلیترین محورهای بحث: آیا مدلهای هوش مصنوعی واقعاً محدودند؟ الن لِیسِن، پژوهشگر بنیاد Open Philanthropy، مقالهای با عنوان «توهمِ توهم تفکر» منتشر کرده و به طور مستقیم دیدگاههای اپل را به چالش کشیده است. به گفته لیسن، با استناد به مدل پیشرفته Claude Opus از شرکت Anthropic، یافتههای اپل بیشتر منعکسکننده ضعفهای طراحی و پیکربندی مدلهاست و نه محدودیتهای بنیادین در قابلیت استدلال هوش مصنوعی. او معتقد است مشکلات فنی و محدودیتهای تنظیمات، نقش اصلی در عملکرد ضعیف مدلهای هوش مصنوعی ذکرشده توسط اپل ایفا کردهاند.
انتقادات کلیدی به روششناسی اپل لیسن سه ایراد عمده به ارزیابیهای اپل وارد دانست:
- نادیده گرفتن محدودیتهای توکن: به ادعای لیسن، مدلهای اپل برخی معماهای منطقی را نه به دلیل نبود استدلال، بلکه به خاطر محدودیت شدید خروجی (تعداد توکن) نتوانستند حل کنند و پاسخها پیش از اتمام قطع شدند.
- شمارش موارد غیرقابلحل به عنوان شکست مدل: در پازلهایی مانند «عبور از رودخانه»، بعضی موارد ذاتاً غیرقابلحل بودند، اما اپل این موارد را هم به عنوان ضعف مدل هوش مصنوعی ثبت کرده و ارزیابی را غیرمنصفانه نموده است.
- محدودیتهای سیستم ارزیابی: سیستم ارزیابی خودکار اپل فقط پاسخهایی که بهطور کامل و مرحله به مرحله ارائه شوند را درست تلقی میکرد و جوابهای جزئی یا راهبردهای صحیح اما ناقص را شکست خورده منظور کرد، بدون اینکه تفاوت میان ضعف واقعی در استدلال و محدودیت خروجی را قائل شود.
برای اثبات دیدگاه خود، لیسن همان آزمونهای اپل را بدون محدودیتهای خروجی تکرار کرد. نتایج نشان داد که مدلهای آزمایششده هوش مصنوعی میتوانند مسائل پیچیده منطقی را حل کنند؛ اگر محدودیت مصنوعی حذف شود، توانایی reasoning واقعی پدیدار میشود.
آزمون مدلهای هوش مصنوعی با معماهای کلاسیک منطقی پژوهش اصلی اپل برای سنجش توان تحلیل هوش مصنوعی، از چهار معمای منطقی کلاسیک استفاده کرد: برج هانوی، دنیای بلوکها، عبور از رودخانه (تصویر بالا) و پرش مهرههای چکرز. این معماها که از ابزارهای متداول در علوم شناختی و پژوهشهای هوش مصنوعی هستند، با افزودن مراحل و محدودیتهای بیشتر دشوارتر شده و مستلزم برنامهریزی چندمرحلهای قوی توسط مدلهاست.
گروه اپل از مدلها خواست تا علاوه بر ارائه پاسخ صحیح، زنجیره تفکر گامبهگام خود را نیز به وضوح بیان کنند؛ موضوعی که معیار ارزیابی را دقیقتر و سختگیرانهتر کرد.
کاهش کارایی با افزایش پیچیدگی پژوهش اپل نشان داد که با افزایش دشواری معماها، دقت مدلهای زبانی بهسرعت افت کرده و در سختترین آزمونها به صفر میرسد. اپل این موضوع را نشانهای از فروپاشی بنیادی در توانایی استدلال سیستمهای هوش مصنوعی پیشرفته برشمرد.
واکنش جامعه پژوهشی: آیا مشکل در استدلال مدلهاست یا خروجی محدود؟ اعضای جامعه پژوهشی و فعالان شبکههای اجتماعی، ایراداتی به تفسیر اپل وارد دانستند. منتقدان بیان کردند که ناتوانی مدلها در تولید خروجی کامل به دلیل محدودیت توکن ارتباط مستقیمی با ضعف در استدلال منطقی ندارد. در واقع، بسیاری مواقع مدلها راهبرد صحیح ارائه دادهاند اما خروجی آنها پیش از کامل شدن قطع شده است. همچنین لحاظ کردن موارد غیرقابلحل به عنوان ناکامی مدل، اعتبار ارزیابی اپل را زیر سؤال برد.
پیامدها و اهمیت در بازار هوش مصنوعی این مناظره تاثیر مستقیمی بر روند توسعه هوش مصنوعی مولد، مدلهای زبانی بزرگ و دستیارهای هوشمند دارد. شرکتهای فعال در حوزه فناوری برای ساخت سیستمهایی با توان تحلیل، برنامهریزی چندمرحلهای و حل مسائل واقعی رقابت میکنند؛ قابلیتی که برای موتورهای جستجوی هوشمند، کدنویسی خودکار و سیستمهای مستقل حیاتی است. بنابراین، درک عمیق نقاط قوت و ضعف مدلهای زبانی اهمیت بالایی دارد.
نتایج پژوهش اپل و پاسخ لیسن، هر دو بر اهمیت روش ارزیابی و طراحی محیط آزمایش هوش مصنوعی تأکید میکنند. با پیشرفت هوش مصنوعی مولد، ایجاد معیارهای عادلانه، شفاف و دقیق برای سنجش توان حل مسئله AI، نقش اساسی در توسعه آینده این فناوری خواهد داشت.
منبع: arxiv
.avif)
نظرات