پیش بینی رفتار عابران با هوش مصنوعی برای سیستم های خودران

OmniPredict، مدل هوش مصنوعی چندرسانه‌ای که توسط دانشگاه Texas A&M و KAIST توسعه یافته، رفتار عابران را در زمان واقعی پیش‌بینی می‌کند تا ایمنی خودروهای خودران و تصمیم‌گیری در محیط‌های شهری پیچیده بهبود یابد.

7 نظرات
پیش بینی رفتار عابران با هوش مصنوعی برای سیستم های خودران

10 دقیقه

پژوهشگران یک سیستم جدید هوش مصنوعی توسعه داده‌اند که خودروهای خودران را فراتر از صرفاً دیدن عابران هدایت می‌کند و قادر است اقدامات بعدی آن‌ها را پیش‌بینی کند.

تیمی از دانشگاه Texas A&M و Korea Advanced Institute of Science and Technology مدل جدیدی به نام OmniPredict را معرفی کرده‌اند که فراتر از تشخیص اشیاء عمل می‌کند و رفتار انسان را در زمان واقعی پیش‌بینی می‌کند. با ترکیب داده‌های تصویری و نشانه‌های محیطی، OmniPredict تنها به حرکت فرد واکنش نشان نمی‌دهد؛ بلکه درباره گام‌های بعدی محتمل استدلال می‌کند. آزمایش‌های اولیه دقت قابل‌توجهی نشان داده‌اند که مسیر جدیدی برای سیستم‌های رانندگی خودران ایمن‌تر و شهودی‌تر در محیط‌های پیچیده شهری ارائه می‌دهد.

چرا پیش‌بینی برای ایمنی خودروهای خودران اهمیت دارد

سیستم‌های سنتی رانندگی خودران عمدتاً متکی بر بینایی ماشین هستند: دوربین‌ها عابر را می‌بینند، لیدار فاصله را نقشه‌برداری می‌کند و خودرو واکنش نشان می‌دهد. اما خیابان‌های شهری فضاهایی بی‌نظم و پویا هستند. عابران اغلب رفتارهای غیرقابل‌پیش‌بینی دارند — مکث، تغییر نگاه یا جلو آمدن از پشت موانع. زمانی که یک سیستم خودکار فقط می‌تواند حرکت را ثبت کند، ممکن است دیگر خیلی دیر باشد و نتوان از برخورد یا موقعیت خطرناک جلوگیری کرد.

OmniPredict یک لایه استدلال رفتاری را معرفی می‌کند. با استفاده از معماری مدل زبان بزرگ چندرسانه‌ای (Multimodal Large Language Model — MLLM)، سیستم تصاویر، جعبه‌های محدودکننده، نماهای بزرگنمایی شده و تله‌متری خودرو را ترکیب می‌کند تا قصد را استنتاج کند — برای مثال اینکه آیا شخصی در لبه پیاده‌رو قصد عبور دارد، می‌خواهد روی پیاده‌رو بماند یا توسط یک شیء پوشیده شده است. به‌جای پرسش باینری «آیا عابر وجود دارد؟»، OmniPredict نتایج محتمل و بازه زمانی آن‌ها را ارزیابی می‌کند و به خودرو این امکان را می‌دهد که سرعت یا مسیر خود را زودتر و با ظرافت بیشتری تنظیم کند.

«شهرها غیرقابل‌پیش‌بینی هستند. عابران هم می‌توانند غیرقابل‌پیش‌بینی باشند،» دکتر Srinkanth Saripalli، پژوهشگر ارشد پروژه و مدیر مرکز وسایل نقلیه خودران و سیستم‌های حسگر، گفت. «مدل جدید ما نگاهی به آینده‌ای است که ماشین‌ها نه تنها می‌بینند چه اتفاقی می‌افتد، بلکه پیش‌بینی می‌کنند انسان‌ها احتمالاً چه خواهند کرد.»

Dr. Srinkanth Saripalli and the Texas A&M University research team’s new breakthrough AI pedestrian system. 

نحوه عملکرد OmniPredict: استدلال چندرسانه‌ای در لبه پیاده‌رو

در هسته خود، OmniPredict از همان تکنیک‌های استدلال چندرسانه‌ای استفاده می‌کند که موتور بسیاری از چت‌بات‌ها و تحلیل‌های تصویری مدرن را تقویت می‌کنند، اما این تکنیک‌ها را به سمت پیش‌بینی رفتار هدایت می‌کند. مدل مجموعه‌ای غنی از ورودی‌ها را می‌گیرد: تصاویر صحنه با وضوح پایین و بالا، نماهای بزرگنمایی‌شده عابر، جعبه‌های محدودکننده که افراد را در فریم‌ها دنبال می‌کنند، و سرعت خودرو. از این داده‌ها رفتارها را در چهار دسته اصلی طبقه‌بندی می‌کند — عبور (crossing)، پوشیدگی یا پنهان‌شدن (occlusion)، اعمال یا حرکات (actions)، و نگاه (gaze) — و احتمال‌های مرتبط با نتایج کوتاه‌مدت را تخصیص می‌دهد.

این معماری دو قابلیت مهم را ممکن می‌سازد. اول اینکه مدل می‌تواند در بسترهای مختلف تعمیم یابد: یعنی می‌تواند آموخته‌های خود را از یک صحنه خیابانی به صحنه دیگر اعمال کند بدون نیاز به آموزش مجدد جامع برای هر موقعیت. دوم، مدل نشانه‌هایی را که انسان‌ها به‌طور شهودی استفاده می‌کنند — جهت بدن، زاویه سر، تردید، و شرایط محیطی — را در نظر می‌گیرد و آن‌ها را به پیش‌بینی‌های عملیاتی تبدیل می‌کند که می‌توانند به سامانه کنترل خودرو ارسال شوند.

از منظر فنی، این یعنی ادغام جریان‌های داده متفاوت (تصویری، ناحیه‌ای، و تله‌متری) و سپس اعمال لایه‌های توجه و مدل زبان بزرگ برای استدلال علّی-احتمالی. مدل برای تولید خروجی‌های احتمالاتی آموزش داده شده است تا به سامانه‌های تصمیم‌گیری امکان داده شود عدم‌قطعیت را کمّی‌سازی و بر اساس آن سیاست‌های کنترلی محافظه‌کارانه یا تهاجمی اتخاذ کنند. این موضوع برای امنیت سیستم‌های خودران و انطباق آن‌ها با استانداردهای ایمنی ضروری است.

An overview of OmniPredict: GPT-4o-powered system that blends scene images, close-up views, bounding boxes, and vehicle speed to understand what pedestrians might do next. By analyzing this rich mix of inputs, the model sorts behavior into four key categories—crossing, occlusion, actions, and gaze—to make smarter, safer predictions. Credit: Dr. Srinkanth Saripalli Texas A&M University College of Engineering. https://doi.org/10.1016/j.compeleceng.2025.110741

آزمایش مدل: بنچمارک‌ها و عملکرد

تیم پژوهشی OmniPredict را در برابر مجموعه‌های داده سختگیرانه رفتار عابران مانند JAAD و WiDEVIEW ارزیابی کردند؛ مجموعه‌هایی که تنوع‌های دنیای واقعی را شبیه‌سازی می‌کنند: پیاده‌روهای شلوغ، پوشیدگی جزئی پشت خودروهای پارک‌شده، و عابری که قبل از حرکت به سمت خودرو نگاه می‌کند. به‌طور قابل‌توجهی، OmniPredict در این بنچمارک‌ها حدود 67٪ دقت پیش‌بینی ثبت کرد — تقریباً 10٪ بالاتر از مدل‌های مبتنی بر بینایی صرف — بدون آموزش اختصاصی برای این وظایف.

علاوه بر دقت خام، مدل تأخیر پاسخ سریع‌تر و تعمیم قوی‌تری در میان زمینه‌های جاده‌ای مختلف نشان داد. هنگام اضافه کردن پیچیدگی‌های متنی — یک فرد تا حدی پنهان، چرخش ناگهانی سر یا تغییر ناگهانی در شرایط جوی — OmniPredict عملکردی مقاوم حفظ کرد. این ویژگی‌ها برای استقرار در دنیای واقعی حیاتی‌اند، جایی که اتفاقات نادر و موارد لبه‌ای اغلب بزرگ‌ترین چالش هستند.

در لایه فنی‌تر، پژوهشگران زمان‌بندی پردازش، میزان فریم‌ها بر ثانیه، و استفاده از شتاب‌دهنده‌های سخت‌افزاری را برای اطمینان از لاتنسی پایین و سازگاری در خودروهای عملی مورد بهینه‌سازی قرار دادند. همچنین روی نحوه خروجی احتمالاتی مدل کار شد تا با ماژول‌های برنامه‌ریزی مسیر و کنترل حرکت خودرو (motion planning and control) به شکلی ایمن تعامل داشته باشد. به‌عنوان مثال، خروجی‌های با عدم‌قطعیت بالا می‌توانند باعث فعال شدن سیاست‌های ایمن‌محور مانند کاهش سرعت تدریجی یا ری‌فریمینگ مجدد مسیریابی شوند.

«این درها را برای عملکرد ایمن‌تر وسایل نقلیه خودران، کاهش حوادث مرتبط با عابر پیاده و انتقال از واکنش به پیشگیری از خطر باز می‌کند،» Saripalli گفت.

از گذرگاه‌های عابر تا عملیات اضطراری: پیامدهای گسترده

پیامدها محدود به خودروهای مسافربری نیست. توانایی OmniPredict در خواندن ریزابرازهای حرکت — تغییرات وضعیت بدن، تردید، تغییرات نگاه و علائم استرس — می‌تواند در پاسخ به حوادث اضطراری، لجستیک نظامی یا پایش ایمنی جمعیت کاربرد داشته باشد. برای امدادگران که در صحنه‌های آشفته حرکت می‌کنند، هوش مصنوعی که اقدامات احتمالی انسان‌ها را برجسته کند می‌تواند آگاهی از موقعیت را بهبود بخشد و تصمیم‌گیری‌های حیاتی را تسریع کند.

«ما در را برای کاربردهای هیجان‌انگیزی باز می‌کنیم،» Saripalli افزود. «برای نمونه، امکان اینکه ماشینی به‌طور توانمند الگوهای تهدیدآمیز را شناسایی، تشخیص و نتایج احتمالیِ یک فرد دارای نشانه‌های تهدیدآمیز را پیش‌بینی کند، می‌تواند پیامدهای مهمی داشته باشد.»

تیم پژوهشی به‌صراحت OmniPredict را ابزار افزوده‌سازی توصیف می‌کند، نه جایگزینی انسان. هدف فراهم کردن لایه‌ای اضافی از پیش‌آگاهی برای راننده‌ها، اپراتورها و سامانه‌های خودکار است که قضاوت و کنترل انسانی را تکمیل کند. این چشم‌انداز شامل رابط‌های کاربرپسند برای اطلاع‌رسانی به راننده، و همچنین مکانیسم‌های بازخورد برای اپراتورهای ناوگان است تا تصمیم‌گیری نهایی بر مبنای اطلاعات به‌روز و معتبر انجام شود.

چالش‌های فنی و ملاحظات اخلاقی

علیرغم نتایج امیدوارکننده، OmniPredict همچنان یک نمونه پژوهشی است. موانع کلیدی شامل تضمین قابلیت اطمینان در میان جمعیت‌ها و محیط‌های متنوع، رفع سوگیری‌ها در داده‌های آموزشی و ادغام امن خروجی‌های پیش‌بینی در حلقه‌های کنترل خودرو است. اعتماد بیش از حد به یک پیش‌بینی می‌تواند خطرناک باشد؛ یک سیستم باید عدم‌قطعیت را کمّی کند و هنگام ابهام بالا به اقدامات محافظه‌کارانه واگذار کند.

سؤالات اخلاقی و حریم خصوصی نیز هرگاه سیستم‌ها قصد را استنتاج می‌کنند مطرح می‌شوند. داده‌ها چگونه ذخیره می‌شوند؟ چه کسانی می‌توانند به پیش‌بینی‌ها دسترسی داشته باشند؟ و طراحان چگونه از پروفایلینگ یا طبقه‌بندی نادرست که به‌طور نامتناسب بر گروه‌های آسیب‌پذیر تأثیر می‌گذارد، جلوگیری می‌کنند؟ این نگرانی‌ها به همان اندازه عملکرد فنی بر پذیرش در دنیای واقعی تأثیر خواهند گذاشت. برای پاسخ به این مسائل، تیم پیشنهاد می‌کند چارچوب‌های شفافیت مدل، بررسی‌های تضاد و بازرسی مستقل داده‌ها و الگوریتم‌ها، و سیاست‌های دسترسی محدود و لاگینگ (logging) برای مدیریت دسترسی به پیش‌بینی‌ها اعمال شود.

همچنین ملاحظات استانداردسازی و ایمنی وجود دارد: همسو شدن با استانداردهایی مانند ISO 26262 برای ایمنی عملکردی و SAE J3016 برای سطوح خودران، و توسعه متدولوژی‌های اعتبارسنجی برای آزمون‌های میدان واقعی و سناریوهای لبه‌ای ضروری است. بدون این سازوکارها، انتقال از نمونه پژوهشی به محصول تجاری با ریسک‌های قانونی و عملی روبه‌رو خواهد بود.

بینش کارشناسان

«پیش‌بینی حلقه گمشده بین ادراک و اقدام محتاطانه در سیستم‌های خودران است،» الینا ریورا، یک مهندس نماینده سامانه‌های خودران، اظهار داشت. «استدلال چندرسانه‌ای OmniPredict گام مهمی است: این روش نحوه ترکیب نگاه، وضعیت بدن و زمینه را تقلید می‌کند تا تصمیمات لحظه‌ای گرفته شود. چالش اکنون ادغام این پیش‌بینی‌ها با سیاست‌های کنترلی محافظه‌کار است تا امنیت همواره اولویت باشد.»

گام‌های بعدی برای خودرانِ پیش‌بین

کارهای آینده احتمالاً بر ادغام نزدیک‌تر با سیستم‌های برنامه‌ریزی خودرو، آزمایش‌های میدانی گسترده در محیط‌های شهری متنوع و آزمایش‌های فراملیتی برای اطمینان از اینکه مدل اشاره‌ها و نگاه‌ها را در میان جمعیت‌های مختلف به‌طور سازگار می‌خواند، متمرکز خواهند بود. ترکیب OmniPredict با سایر حسگرها — مانند تصویربرداری حرارتی یا ادغام بهبود‌یافته رادار — می‌تواند ابهام در شرایط دید کم را بیشتر کاهش دهد.

از منظر عملیاتی، مسیر توسعه شامل فازهای آزمایش شهری محدود، جمع‌آوری بازخورد از رانندگان و ناظران انسانی، و ایجاد خط‌مشی‌های کنارگذاشتن (fallback) است که در صورت خطا یا عدم‌قطعیت بالا وارد عمل شوند. آزمایش‌های میدانی باید شامل موقعیت‌های مختلف نوری، جوی و فرهنگی باشند تا داده‌های آموزشی و ارزیابی‌ها نماینده شرایط واقعی شهرها در سراسر جهان شوند.

اگر سیستم‌های خودران فقط بیاموزند که ببینند بلکه توانایی پیش‌بینی نیز پیدا کنند، منطق حمل‌ونقل شهری تغییر می‌کند: توقف‌های ناگهانی کمتر، درگیری‌های تنش‌آمیز کمتر در گذرگاه‌ها و روانی بیشتر جریان ترافیک که تقلیدی از شهود انسانی است اما بدون کاستی‌های انسانی. مسیر پیش رو هوشمندتر است نه فقط به‌خاطرِ تقویت حسگری، بلکه به‌خاطر شروع به فهمیدن چرایی رفتارهای انسانی.

در جمع‌بندی، OmniPredict نمونه‌ای از ترکیب هوش مصنوعی چندرسانه‌ای، یادگیری عمیق و مهندسی سیستم‌های کنترل برای افزایش ایمنی و قابلیت اتکا در خودروهای خودران است. با اینکه موانع فنی و اخلاقی جدی وجود دارد، چشم‌انداز پیش‌بینی رفتار عابران می‌تواند نقطه عطفی در حرکت به‌سمت سیستم‌های حمل‌ونقل شهری امن‌تر و هوشمندتر باشد.

منبع: scitechdaily

ارسال نظر

نظرات

علی.ف

اگر واقعا بتونه نگاه و تردید آدمارو بخونه، آینده متفاوتیه اما نگران سوء‌استفاده و حریم خصوصی‌ام.

کیوان

احساس میکنم یه کم اغراق شده؛ 67% خوبه اما 10% بهتر آیا واقعا کافی‌یه؟

شهریاب

تصور جریان ترافیک روان‌تر خوشاینده ولی اجرای واقعی پر از جزئیات و دردسره

لابکور

تو تحقیق دانشگاهی با داده‌های محلی مشکل داشتم، سوگیری واقعا مسئله‌س، امیدوارم تیم روی این موضوع جدی باشه

وی۸رایدر

این علمیه؟ یا تبلیغه؟ لاتنسی و حریم خصوصی رو چطور مدیریت میکنن؟

کوین‌پالس

منطقیه، ولی نگرانم که تو میدان واقعی چقدر پایدار بمونه.

رودایکس

وای این واقعاً یه جهشه، ماشین‌ها دیگه فقط نمی بینن شروع به حدس زدن هم میکنن! عجیب ولی هیجان‌انگیز

مطالب مرتبط