رمزگشایی گفتار درونی: تبدیل اندیشه به گفتار با رابط مغز-کامپیوتر

رمزگشایی گفتار درونی: تبدیل اندیشه به گفتار با رابط مغز-کامپیوتر

۱۴۰۴-۰۶-۰۲
0 نظرات نگار بابایی

5 دقیقه

تبدیل اندیشه به گفتار

محققان در چندین مؤسسه در ایالات متحده یک رمزگشا (decoder) گفتار درونی — یک رابط مغز-کامپیوتر (BCI) — توسعه داده‌اند که کلمات تصورشده را به متن یا گفتار قابل شنیدن تبدیل می‌کند. در یک آزمایش بالینی کوچک با چهار داوطلب دارای فلج شدید، این سامانه در تبدیل گفتار درونی به خروجی صوتی به دقت اوج ۷۴ درصد دست یافت. داده‌های منتشرشده (Kunz et al., Cell, 2025) و تفسیر عصب‌شناسان دانشگاه استنفورد نشان می‌دهد این رویکرد رابط‌های مغز-کامپیوتر را از رمزگشایی سیگنال‌های مرتبط با تلاش برای صحبت کردن به سمت رمزگشایی مستقیم اندیشه‌ها نزدیک‌تر می‌کند.

پیش‌زمینه علمی و فناوری

این رمزگشا از یک کاشت عصبی برای ثبت فعالیت الکتریکی قشر حرکتی استفاده می‌کند؛ ناحیه‌ای از مغز که در برنامه‌ریزی و اجرای حرکات نقش دارد — از جمله حرکات لازم برای صحبت کردن. به‌جای انتظار برای رسیدن فرمان‌های حرکتی به عضلات، این کاشت الگوهای عصبی مرتبط با فونم‌ها، واحدهای صوتی پایه زبان، را تشخیص می‌دهد. سپس مدل‌های یادگیری ماشین آموزش داده می‌شوند تا آن الگوها را به فونم‌ها نگاشت کنند و آنها را به کلمات و جملات مونتاژ کنند.

این جابه‌جایی از رابط‌های مغز-کامپیوتر مبتنی بر تلاش برای گفتار به سمت رمزگشایی گفتار درونی یک محدودیت کلیدی را برای افراد مبتلا به سندرم قفل‌شدگی یا ناتوانی حرکتی شدید رفع می‌کند: ممکن است این افراد نتوانند تلاش‌های عضلانی برای صحبت کردن تولید کنند، اما هنوز می‌توانند نمایش‌های ذهنی کلمات را ایجاد کنند. همان‌طور که عصب‌شناس استنفورد، Benyamin Meschede-Krasa، اشاره می‌کند: «اگر فقط لازم باشد به گفتار فکر کنید به جای اینکه واقعاً تلاش کنید صحبت کنید، این کار برای افراد بالقوه آسان‌تر و سریع‌تر است.»

جزئیات آزمایش و نتایج کلیدی

در مطالعه گزارش‌شده، چهار شرکت‌کننده با فلج عمیق تصور کردند که کلمات و عبارات مشخصی را بیان می‌کنند، در حالی که الکترودهای کاشته‌شده فعالیت قشر حرکتی را نمونه‌برداری می‌کردند. الگوریتم‌های یادگیری ماشین روابط آماری بین الگوهای عصبی و واحدهای گفتاری را شناسایی کردند. محققان فعالیت هم‌پوشان اما قابل‌تفکیک بین تلاش برای صحبت و گفتار صرفاً درونی را یافتند؛ سیگنال‌های گفتار درونی به‌نظر می‌رسید «نسخه کوچکتری» از الگوهای تلاش برای گفتار باشند، مطابق با توضیح عصب‌شناس استنفورد Frank Willett.

با استفاده از مدل‌های زبانی احتمالاتی برای وزن‌دهی به اینکه کدام فونم‌ها و کلمات معمولاً با هم رخ می‌دهند، سامانه پتانسیل شناسایی واژگانی تا ۱۲۵٬۰۰۰ کلمه را تنها از گفتار درونی نشان داد. عملکرد اوج رمزگشایی در برخی شرایط به ۷۴ درصد رسید، هرچند دقت میانگین در سراسر آزمایش‌ها اغلب کمتر بود. مطالعه همچنین یک اقدام حفاظتی برای حریم خصوصی را آزمایش کرد: کاربران به‌صورت ذهنی یک «رمزعبور» خاص را فراخوانی کردند تا رمزگشایی را فعال یا غیرفعال کنند که در تکلیف آزمایشی ۹۸ درصد قابلیت اطمینان به‌دست آمد.

محدودیت‌ها، حریم خصوصی و چشم‌انداز بالینی

چالش‌های مهمی همچنان باقی است. اندازه نمونه کوچک بود (چهار داوطلب) و عملکرد بین شرکت‌کنندگان و کیفیت ضبط متغیر بود. دقت هنوز فاصله زیادی با روانی مکالمه‌ای در زمان واقعی دارد و فناوری در حال حاضر نیازمند کاشت‌های تهاجمی و تنظیمات شخصی‌شده مدل‌های یادگیری ماشین است. همچنین نگرانی‌های اخلاقی و حریم خصوصی مطرح است: دستگاهی که گفتار درونی را رمزگشایی می‌کند ممکن است به‌طور ناخواسته افکار خصوصی را ضبط کند. راهکارهای پیشنهادی شامل سیگنال‌های ذهنی صریح برای شروع/توقف، عبارات احراز هویت و کنترل‌های مبتنی بر دستگاه برای جلوگیری از ثبت مداوم است.

محققان خوش‌بین‌اند که پیشرفت در آرایه‌های حسگر، نقشه‌برداری وسیع‌تر قشری و الگوریتم‌های رمزگشایی بهبودیافته می‌تواند دقت را افزایش دهد و مدل‌ها را سریع‌تر از توسعه‌های قبلی BCI شخصی‌سازی کند. مطالعات مرتبط در اوایل سال نیز رمزگشایی فکر به‌صورت زمان واقعی و ویژه هر فرد را نشان داده‌اند که پیشرفت شتابان در رمزگشایی عصبی و رابط‌های گفتار-BCI را تأکید می‌کند.

دیدگاه کارشناسان

دکتر Aisha Patel، مهندس عصبی و پژوهشگر بالینی در حوزه BCI، اظهار می‌دارد: «این کار نمایانگر یک اثبات مفهوم مهم است. ترکیب ثبت‌های عصبی با وضوح بالا و یادگیری ماشین آگاه به زبان امیدوارکننده است. اما برای گذر از نمایش‌های آزمایشگاهی به استفاده بالینی روزمره، به آزمون‌های بزرگ‌تر، حفاظت‌های محکم برای حریم خصوصی و رابط‌هایی نیاز داریم که بتوانند به‌سرعت به ویژگی عصبی منحصربه‌فرد هر کاربر یاد بگیرند و سازگار شوند.»

نتیجه‌گیری

رمزگشای جدید گفتار درونی گامی مهم به‌سوی رابط‌های مغز-کامپیوتر است که می‌توانند ارتباط طبیعی را برای افراد با ناتوانی شدید در گفتار و حرکت بازگردانند. هرچند سطوح اوج عملکرد در آزمایش‌های اولیه امیدوارکننده است، اعتبارسنجی گسترده‌تر، فناوری کاشت بهبود‌یافته و حفاظت‌های قوی حریم خصوصی پیش از آنکه سیستم‌های تبدیل فکر به گفتار به ابزارهای بالینی امن و قابل‌اطمینان تبدیل شوند، ضروری هستند. کار میان‌رشته‌ای مداوم در علوم اعصاب، یادگیری ماشین و اخلاق تعیین خواهد کرد که این قابلیت با چه سرعت و مسئولیتی به بیماران برسد.

منبع: sciencealert

من نگارم، عاشق آسمون و کشف ناشناخته‌ها! اگر مثل من از دیدن تلسکوپ و کهکشان‌ها ذوق‌زده می‌شی، مطالب من رو از دست نده!

نظرات

ارسال نظر