10 دقیقه
پژوهشگران یک سیستم جدید هوش مصنوعی توسعه دادهاند که خودروهای خودران را فراتر از صرفاً دیدن عابران هدایت میکند و قادر است اقدامات بعدی آنها را پیشبینی کند.
تیمی از دانشگاه Texas A&M و Korea Advanced Institute of Science and Technology مدل جدیدی به نام OmniPredict را معرفی کردهاند که فراتر از تشخیص اشیاء عمل میکند و رفتار انسان را در زمان واقعی پیشبینی میکند. با ترکیب دادههای تصویری و نشانههای محیطی، OmniPredict تنها به حرکت فرد واکنش نشان نمیدهد؛ بلکه درباره گامهای بعدی محتمل استدلال میکند. آزمایشهای اولیه دقت قابلتوجهی نشان دادهاند که مسیر جدیدی برای سیستمهای رانندگی خودران ایمنتر و شهودیتر در محیطهای پیچیده شهری ارائه میدهد.
چرا پیشبینی برای ایمنی خودروهای خودران اهمیت دارد
سیستمهای سنتی رانندگی خودران عمدتاً متکی بر بینایی ماشین هستند: دوربینها عابر را میبینند، لیدار فاصله را نقشهبرداری میکند و خودرو واکنش نشان میدهد. اما خیابانهای شهری فضاهایی بینظم و پویا هستند. عابران اغلب رفتارهای غیرقابلپیشبینی دارند — مکث، تغییر نگاه یا جلو آمدن از پشت موانع. زمانی که یک سیستم خودکار فقط میتواند حرکت را ثبت کند، ممکن است دیگر خیلی دیر باشد و نتوان از برخورد یا موقعیت خطرناک جلوگیری کرد.
OmniPredict یک لایه استدلال رفتاری را معرفی میکند. با استفاده از معماری مدل زبان بزرگ چندرسانهای (Multimodal Large Language Model — MLLM)، سیستم تصاویر، جعبههای محدودکننده، نماهای بزرگنمایی شده و تلهمتری خودرو را ترکیب میکند تا قصد را استنتاج کند — برای مثال اینکه آیا شخصی در لبه پیادهرو قصد عبور دارد، میخواهد روی پیادهرو بماند یا توسط یک شیء پوشیده شده است. بهجای پرسش باینری «آیا عابر وجود دارد؟»، OmniPredict نتایج محتمل و بازه زمانی آنها را ارزیابی میکند و به خودرو این امکان را میدهد که سرعت یا مسیر خود را زودتر و با ظرافت بیشتری تنظیم کند.
«شهرها غیرقابلپیشبینی هستند. عابران هم میتوانند غیرقابلپیشبینی باشند،» دکتر Srinkanth Saripalli، پژوهشگر ارشد پروژه و مدیر مرکز وسایل نقلیه خودران و سیستمهای حسگر، گفت. «مدل جدید ما نگاهی به آیندهای است که ماشینها نه تنها میبینند چه اتفاقی میافتد، بلکه پیشبینی میکنند انسانها احتمالاً چه خواهند کرد.»

Dr. Srinkanth Saripalli and the Texas A&M University research team’s new breakthrough AI pedestrian system.
نحوه عملکرد OmniPredict: استدلال چندرسانهای در لبه پیادهرو
در هسته خود، OmniPredict از همان تکنیکهای استدلال چندرسانهای استفاده میکند که موتور بسیاری از چتباتها و تحلیلهای تصویری مدرن را تقویت میکنند، اما این تکنیکها را به سمت پیشبینی رفتار هدایت میکند. مدل مجموعهای غنی از ورودیها را میگیرد: تصاویر صحنه با وضوح پایین و بالا، نماهای بزرگنماییشده عابر، جعبههای محدودکننده که افراد را در فریمها دنبال میکنند، و سرعت خودرو. از این دادهها رفتارها را در چهار دسته اصلی طبقهبندی میکند — عبور (crossing)، پوشیدگی یا پنهانشدن (occlusion)، اعمال یا حرکات (actions)، و نگاه (gaze) — و احتمالهای مرتبط با نتایج کوتاهمدت را تخصیص میدهد.
این معماری دو قابلیت مهم را ممکن میسازد. اول اینکه مدل میتواند در بسترهای مختلف تعمیم یابد: یعنی میتواند آموختههای خود را از یک صحنه خیابانی به صحنه دیگر اعمال کند بدون نیاز به آموزش مجدد جامع برای هر موقعیت. دوم، مدل نشانههایی را که انسانها بهطور شهودی استفاده میکنند — جهت بدن، زاویه سر، تردید، و شرایط محیطی — را در نظر میگیرد و آنها را به پیشبینیهای عملیاتی تبدیل میکند که میتوانند به سامانه کنترل خودرو ارسال شوند.
از منظر فنی، این یعنی ادغام جریانهای داده متفاوت (تصویری، ناحیهای، و تلهمتری) و سپس اعمال لایههای توجه و مدل زبان بزرگ برای استدلال علّی-احتمالی. مدل برای تولید خروجیهای احتمالاتی آموزش داده شده است تا به سامانههای تصمیمگیری امکان داده شود عدمقطعیت را کمّیسازی و بر اساس آن سیاستهای کنترلی محافظهکارانه یا تهاجمی اتخاذ کنند. این موضوع برای امنیت سیستمهای خودران و انطباق آنها با استانداردهای ایمنی ضروری است.

An overview of OmniPredict: GPT-4o-powered system that blends scene images, close-up views, bounding boxes, and vehicle speed to understand what pedestrians might do next. By analyzing this rich mix of inputs, the model sorts behavior into four key categories—crossing, occlusion, actions, and gaze—to make smarter, safer predictions. Credit: Dr. Srinkanth Saripalli Texas A&M University College of Engineering. https://doi.org/10.1016/j.compeleceng.2025.110741
آزمایش مدل: بنچمارکها و عملکرد
تیم پژوهشی OmniPredict را در برابر مجموعههای داده سختگیرانه رفتار عابران مانند JAAD و WiDEVIEW ارزیابی کردند؛ مجموعههایی که تنوعهای دنیای واقعی را شبیهسازی میکنند: پیادهروهای شلوغ، پوشیدگی جزئی پشت خودروهای پارکشده، و عابری که قبل از حرکت به سمت خودرو نگاه میکند. بهطور قابلتوجهی، OmniPredict در این بنچمارکها حدود 67٪ دقت پیشبینی ثبت کرد — تقریباً 10٪ بالاتر از مدلهای مبتنی بر بینایی صرف — بدون آموزش اختصاصی برای این وظایف.
علاوه بر دقت خام، مدل تأخیر پاسخ سریعتر و تعمیم قویتری در میان زمینههای جادهای مختلف نشان داد. هنگام اضافه کردن پیچیدگیهای متنی — یک فرد تا حدی پنهان، چرخش ناگهانی سر یا تغییر ناگهانی در شرایط جوی — OmniPredict عملکردی مقاوم حفظ کرد. این ویژگیها برای استقرار در دنیای واقعی حیاتیاند، جایی که اتفاقات نادر و موارد لبهای اغلب بزرگترین چالش هستند.
در لایه فنیتر، پژوهشگران زمانبندی پردازش، میزان فریمها بر ثانیه، و استفاده از شتابدهندههای سختافزاری را برای اطمینان از لاتنسی پایین و سازگاری در خودروهای عملی مورد بهینهسازی قرار دادند. همچنین روی نحوه خروجی احتمالاتی مدل کار شد تا با ماژولهای برنامهریزی مسیر و کنترل حرکت خودرو (motion planning and control) به شکلی ایمن تعامل داشته باشد. بهعنوان مثال، خروجیهای با عدمقطعیت بالا میتوانند باعث فعال شدن سیاستهای ایمنمحور مانند کاهش سرعت تدریجی یا ریفریمینگ مجدد مسیریابی شوند.
«این درها را برای عملکرد ایمنتر وسایل نقلیه خودران، کاهش حوادث مرتبط با عابر پیاده و انتقال از واکنش به پیشگیری از خطر باز میکند،» Saripalli گفت.
از گذرگاههای عابر تا عملیات اضطراری: پیامدهای گسترده
پیامدها محدود به خودروهای مسافربری نیست. توانایی OmniPredict در خواندن ریزابرازهای حرکت — تغییرات وضعیت بدن، تردید، تغییرات نگاه و علائم استرس — میتواند در پاسخ به حوادث اضطراری، لجستیک نظامی یا پایش ایمنی جمعیت کاربرد داشته باشد. برای امدادگران که در صحنههای آشفته حرکت میکنند، هوش مصنوعی که اقدامات احتمالی انسانها را برجسته کند میتواند آگاهی از موقعیت را بهبود بخشد و تصمیمگیریهای حیاتی را تسریع کند.
«ما در را برای کاربردهای هیجانانگیزی باز میکنیم،» Saripalli افزود. «برای نمونه، امکان اینکه ماشینی بهطور توانمند الگوهای تهدیدآمیز را شناسایی، تشخیص و نتایج احتمالیِ یک فرد دارای نشانههای تهدیدآمیز را پیشبینی کند، میتواند پیامدهای مهمی داشته باشد.»
تیم پژوهشی بهصراحت OmniPredict را ابزار افزودهسازی توصیف میکند، نه جایگزینی انسان. هدف فراهم کردن لایهای اضافی از پیشآگاهی برای رانندهها، اپراتورها و سامانههای خودکار است که قضاوت و کنترل انسانی را تکمیل کند. این چشمانداز شامل رابطهای کاربرپسند برای اطلاعرسانی به راننده، و همچنین مکانیسمهای بازخورد برای اپراتورهای ناوگان است تا تصمیمگیری نهایی بر مبنای اطلاعات بهروز و معتبر انجام شود.
چالشهای فنی و ملاحظات اخلاقی
علیرغم نتایج امیدوارکننده، OmniPredict همچنان یک نمونه پژوهشی است. موانع کلیدی شامل تضمین قابلیت اطمینان در میان جمعیتها و محیطهای متنوع، رفع سوگیریها در دادههای آموزشی و ادغام امن خروجیهای پیشبینی در حلقههای کنترل خودرو است. اعتماد بیش از حد به یک پیشبینی میتواند خطرناک باشد؛ یک سیستم باید عدمقطعیت را کمّی کند و هنگام ابهام بالا به اقدامات محافظهکارانه واگذار کند.
سؤالات اخلاقی و حریم خصوصی نیز هرگاه سیستمها قصد را استنتاج میکنند مطرح میشوند. دادهها چگونه ذخیره میشوند؟ چه کسانی میتوانند به پیشبینیها دسترسی داشته باشند؟ و طراحان چگونه از پروفایلینگ یا طبقهبندی نادرست که بهطور نامتناسب بر گروههای آسیبپذیر تأثیر میگذارد، جلوگیری میکنند؟ این نگرانیها به همان اندازه عملکرد فنی بر پذیرش در دنیای واقعی تأثیر خواهند گذاشت. برای پاسخ به این مسائل، تیم پیشنهاد میکند چارچوبهای شفافیت مدل، بررسیهای تضاد و بازرسی مستقل دادهها و الگوریتمها، و سیاستهای دسترسی محدود و لاگینگ (logging) برای مدیریت دسترسی به پیشبینیها اعمال شود.
همچنین ملاحظات استانداردسازی و ایمنی وجود دارد: همسو شدن با استانداردهایی مانند ISO 26262 برای ایمنی عملکردی و SAE J3016 برای سطوح خودران، و توسعه متدولوژیهای اعتبارسنجی برای آزمونهای میدان واقعی و سناریوهای لبهای ضروری است. بدون این سازوکارها، انتقال از نمونه پژوهشی به محصول تجاری با ریسکهای قانونی و عملی روبهرو خواهد بود.
بینش کارشناسان
«پیشبینی حلقه گمشده بین ادراک و اقدام محتاطانه در سیستمهای خودران است،» الینا ریورا، یک مهندس نماینده سامانههای خودران، اظهار داشت. «استدلال چندرسانهای OmniPredict گام مهمی است: این روش نحوه ترکیب نگاه، وضعیت بدن و زمینه را تقلید میکند تا تصمیمات لحظهای گرفته شود. چالش اکنون ادغام این پیشبینیها با سیاستهای کنترلی محافظهکار است تا امنیت همواره اولویت باشد.»
گامهای بعدی برای خودرانِ پیشبین
کارهای آینده احتمالاً بر ادغام نزدیکتر با سیستمهای برنامهریزی خودرو، آزمایشهای میدانی گسترده در محیطهای شهری متنوع و آزمایشهای فراملیتی برای اطمینان از اینکه مدل اشارهها و نگاهها را در میان جمعیتهای مختلف بهطور سازگار میخواند، متمرکز خواهند بود. ترکیب OmniPredict با سایر حسگرها — مانند تصویربرداری حرارتی یا ادغام بهبودیافته رادار — میتواند ابهام در شرایط دید کم را بیشتر کاهش دهد.
از منظر عملیاتی، مسیر توسعه شامل فازهای آزمایش شهری محدود، جمعآوری بازخورد از رانندگان و ناظران انسانی، و ایجاد خطمشیهای کنارگذاشتن (fallback) است که در صورت خطا یا عدمقطعیت بالا وارد عمل شوند. آزمایشهای میدانی باید شامل موقعیتهای مختلف نوری، جوی و فرهنگی باشند تا دادههای آموزشی و ارزیابیها نماینده شرایط واقعی شهرها در سراسر جهان شوند.
اگر سیستمهای خودران فقط بیاموزند که ببینند بلکه توانایی پیشبینی نیز پیدا کنند، منطق حملونقل شهری تغییر میکند: توقفهای ناگهانی کمتر، درگیریهای تنشآمیز کمتر در گذرگاهها و روانی بیشتر جریان ترافیک که تقلیدی از شهود انسانی است اما بدون کاستیهای انسانی. مسیر پیش رو هوشمندتر است نه فقط بهخاطرِ تقویت حسگری، بلکه بهخاطر شروع به فهمیدن چرایی رفتارهای انسانی.
در جمعبندی، OmniPredict نمونهای از ترکیب هوش مصنوعی چندرسانهای، یادگیری عمیق و مهندسی سیستمهای کنترل برای افزایش ایمنی و قابلیت اتکا در خودروهای خودران است. با اینکه موانع فنی و اخلاقی جدی وجود دارد، چشمانداز پیشبینی رفتار عابران میتواند نقطه عطفی در حرکت بهسمت سیستمهای حملونقل شهری امنتر و هوشمندتر باشد.
منبع: scitechdaily
نظرات
علی.ف
اگر واقعا بتونه نگاه و تردید آدمارو بخونه، آینده متفاوتیه اما نگران سوءاستفاده و حریم خصوصیام.
کیوان
احساس میکنم یه کم اغراق شده؛ 67% خوبه اما 10% بهتر آیا واقعا کافییه؟
شهریاب
تصور جریان ترافیک روانتر خوشاینده ولی اجرای واقعی پر از جزئیات و دردسره
لابکور
تو تحقیق دانشگاهی با دادههای محلی مشکل داشتم، سوگیری واقعا مسئلهس، امیدوارم تیم روی این موضوع جدی باشه
وی۸رایدر
این علمیه؟ یا تبلیغه؟ لاتنسی و حریم خصوصی رو چطور مدیریت میکنن؟
کوینپالس
منطقیه، ولی نگرانم که تو میدان واقعی چقدر پایدار بمونه.
رودایکس
وای این واقعاً یه جهشه، ماشینها دیگه فقط نمی بینن شروع به حدس زدن هم میکنن! عجیب ولی هیجانانگیز
ارسال نظر