10 دقیقه
گوگل مدل جدیدی به نام Gemini 2.5 Computer Use معرفی کرده که هدفش تقلید تعامل انسان با وبسایتها و برنامههای تحت وب است. این مدل اکنون در حالت پیشنمایش عمومی از طریق Gemini API در Google AI Studio و Vertex AI در دسترس قرار گرفته و برای خودکارسازی کارهای مرورگری با تأخیر کمتر و درک بصری قویتر طراحی شده است.
چه کاری انجام میدهد و چرا اهمیت دارد
Gemini 2.5 Computer Use در واقع گام بعدیِ درک بصری مدل Gemini 2.5 Pro را برداشته و آن را به انجام عملیات عملی در مرورگرها مجهز میکند: کلیک کردن، تایپ، اسکرول کردن، هاور کردن، باز کردن منوهای کشویی و پیمایش آدرسها. برخلاف رویکردهایی که مستقیماً از وباپی آیها (Web APIs) استفاده میکنند، این عامل (agent) صفحه را با گرفتن اسکرینشات تحلیل میکند و اقدامهای رابط کاربری (UI) مشخصی را بازمیگرداند تا رابط را هدایت کند—به عبارت دیگر، مدل به AI میآموزد وب را همانطور که یک انسان استفاده میکند، بهکار ببرد.
چرا این مهم است؟ چون بسیاری از وبسایتها و برنامههای تحت وب رابطهای پویا و قابل تغییر دارند که دسترسی به API سطحی یا استاندارد را دشوار میکند. یک عامل که بتواند از روی ظاهر صفحه و وضعیت فعلی رابط، تصمیم منطقی بگیرد و عمل مناسب را انجام دهد، امکان خودکارسازی وظایف پیچیده مانند انتقال داده بین سرویسها، تکمیل فرمهای پویا یا اجرای تستهای واقعگرایانه UI را فراهم میآورد. این یعنی کاهش هزینه توسعه، افزایش سرعت تست و توانمندسازی ابزارهای دستیار هوشمند که با تجربه کاربری واقعی و نه صرفاً با کالبکهای API کار میکنند.
چطور کار میکند: اسکرینشاتها، حلقههای عملیاتی و اجرای سمت کاربر
هستهٔ فرآیند ساده ولی قدرتمند است: مدل سه ورودی اصلی دریافت میکند — یک دستور یا شرحِ کاری که باید انجام شود (task prompt)، یک اسکرینشات از رابط کاربری فعلی و سابقهٔ کوتاهی از آخرین عملها. سپس مدل ساختار بصری صفحه را تفسیر میکند و تنها یک عمل UI پیشنهادی تولید مینماید؛ مثلاً «روی این دکمه کلیک کن» یا «متن را در این فیلد وارد کن». آن عمل روی کلاینت اجرا میشود و یک اسکرینشات تازه به مدل بازگردانده میشود تا حلقه تا تکمیل کار ادامه یابد.
این طراحی چند مزیت فنی دارد: اول، تصمیمگیری مدل مبتنی بر واقعیتِ بصری است، نه دادههای متادیتا یا فراخوانیهای API که همیشه هماهنگ نیستند. دوم، با ارسال فقط یک اقدام در هر چرخه، احتمال خطا و اعمال ناخواسته کاهش مییابد و کنترل بهتر حفظ میشود. و سوم، اجرای واقعی روی کلاینت به توسعهدهندگان اجازه میدهد سیاستهای امنیتی و تأییدهای لازم را محلیسازی کنند—برای مثال هر عمل میتواند پیش از اجرا توسط یک سرویس ایمنی بررسی شود.
تصور کنید دستیار دیجیتالی دارید که با دیدن صفحهٔ جاری میداند کدام فیلد را پر کند، کدام گزینه را باز کند و چگونه فرمهای چندصفحهای را کامل نماید؛ همهٔ اینها بدون نیاز به نوشتن اسکریپتهای هاردکد شده یا تغییر در بکاند انجام میشود.

بنچمارکها، دموها و چه چیزی در ویدیوها میبینیم
گوگل اعلام کرده Gemini 2.5 Computer Use در بنچمارکهایی مانند Online-Mind2Web، WebVoyager و AndroidWorld عملکرد بهتری نسبت به ابزارهای دیگر دارد و در عین حال تأخیر (latency) را پایین نگه میدارد. ویدیوهای دمویی که گوگل منتشر کرده معمولاً با سرعت افزایش یافته نمایش داده میشوند تا جریان کامل کارها در زمان کوتاهتری نشان داده شود؛ اما وقتی با دقت نگاه کنید، نمونههایی مثل مرتبسازی یادداشتهای چسبان روی یک وایتبرد دیجیتال یا انتقال سوابق حیوانات خانگی از یک سایت به CRM، نشان میدهند چگونه تعدادی گام ساده رابط کاربری در هم ترکیب شده و یک فرآیند پیچیده را شکل میدهند.
این دموها دو نکتهٔ مهم را برجسته میکنند: یکی توانایی مدل در شناسایی و تعامل با اجزای بصری متنوع (برای مثال عناصر جاوااسکریپتی که بعد از بارگذاری ظاهر میشوند) و دیگری قابلیت زنجیرهسازی عملها به طوری که حاصل، یک گردش کار قابل اتکا و مؤثر باشد. به عبارت دیگر، تمرکز تنها بر روی یک عمل ساده نیست؛ بلکه هنر در کنار هم قراردادن این اعمال برای حل مسائل دنیای واقعی است.
قابلیتها، محدودیتها و مناسببودن پلتفرم
در حال حاضر مدل از 13 نوع اقدام مشخص رابط کاربری پشتیبانی میکند که شامل کلیک، تایپ، اسکرول، انتخاب آیتم از منوها و موارد مشابه میشود. بهترین عملکرد آن در مرورگرهای وب دیده شده است؛ گوگل هشدار میدهد که مدل هنوز برای اتوماسیون سطح سیستمعامل دسکتاپ (OS-level automation) کاملاً بهینه نشده است؛ با این حال نتایج اولیهٔ بنچمارک موبایل امیدوارکننده هستند.
برای چه سناریوهایی مناسب است؟ اگر محصول شما یک اپ وب پیچیده با تعامل انسانی زیاد دارد، یا لازم است دادهها بین چند سرویس تحت وب بدون تغییر API منتقل شوند، Gemini 2.5 Computer Use میتواند بهعنوان یک لایهٔ خودکارسازی مفید عمل کند. تیمهای داخلی گوگل نیز از آن برای تست رابط کاربری و اتوماسیون در سرویسهایی مثل Search و Firebase استفاده کردهاند—یعنی این تکنولوژی به سرعت وارد چرخهٔ کاری واقعی شده است.
اما محدودیتها را نباید نادیده گرفت: تعامل مبتنی بر تصویر ممکن است در صفحات با طراحی بسیار متغیر یا زمانی که عناصر بصری بهطور مداوم جابهجا میشوند، به خطا بخورد. همچنین کار با محتواهای رمزنگاریشده یا آیتمهایی که نیاز به احراز هویت پیچیده دارند ممکن است به پیادهسازی کنترلهای اضافی و تأییدهای کاربر نیاز داشته باشد.
طراحی ایمنی و کنترلهای توسعهدهنده
مسئلهٔ ایمنی در خودکارسازی مرورگر بسیار حساس است، چون یک عامل میتواند عملیاتی را انجام دهد که پیامدهای جدی—مثلاً مالی یا امنیتی—داشته باشد. برای کاهش سوءاستفادهها، هر اقدام پیشنهادی ابتدا توسط یک سرویس امنیتی بررسی میشود قبل از این که اجرا گردد. توسعهدهندگان میتوانند اقدامات مشخصی را غیرفعال کنند یا برای گامهای حساس مانند تراکنشهای مالی، تأیید صریح کاربر را اجباری نمایند.
بهعلاوه، برنامههای دسترسی اولیه نشان دادهاند که مدل در خودکارسازی گردشکارها، ساخت ابزارهای دستیار و اجرای تستهای CI-style برای رابط کاربری کاربردی است. این کنترلها به تیمها اجازه میدهد سطح ریسک را مدیریت کنند و همزمان از مزایای اتوماسیون بهره ببرند؛ برای مثال میتوان اجرای خودکار ورود به سیستمی که اطلاعات مالی را نمایش میدهد را محدود به محیط تست نمود یا یک دیالوگ تأیید برای انتقال پول ایجاد کرد.

چطور امروز آن را امتحان کنید
- دسترسی از طریق Gemini API در Google AI Studio یا Vertex AI را فعال کنید.
- با محیط دموی Browserbase که گوگل برای تست فراهم کرده، آزمایشهای اولیه انجام دهید.
- در برنامههای دسترسی زودهنگام ثبتنام کنید تا بتوانید دستیارها یا ابزارهای اتوماسیون مبتنی بر استدلال تصویری روی صفحه بسازید.
چه کسانی باید این خبر را دنبال کنند
تیمهای محصول که به دنبال ساخت دستیارهای مبتنی بر مرورگر هستند، مهندسان QA که دنبال تستهای رابط کاربری هوشمندتر میگردند و توسعهدهندگانی که میخواهند گردشکارهای تکراری وب را خودکار کنند، از Gemini 2.5 Computer Use بیشترین بهره را خواهند برد. اگر اپلیکیشن شما نیاز به تعامل شبیه انسان با رابطهای وب پیچیده دارد—مثلاً پرکردن فرمهای نامنظم، انتقال داده بین داشبوردهای مختلف یا مدیریت تجربیات کاربری غیرقطعی—این مدل شایستهٔ بررسیِ جدی است.
نکات فنی و توصیههای عملی برای پیادهسازی
اگر قصد دارید Gemini 2.5 Computer Use را در محصول خود بهکار بگیرید، چند نکتهٔ فنی میتواند به موفقیت شما کمک کند:
- طراحی حلقه بازخورد: مطمئن شوید کلاینت شما طوری پیادهسازی شده که پس از اجرای هر عمل، اسکرینشات جدید را سریع و مطمئن به مدل ارسال کند تا حالت سیستم دقیق بماند.
- سیستم پالیسیها: فهرستی از عملیاتِ حساس تعریف کنید و آنها را یا غیرفعال نمایید یا پشت تائید کاربر قرار دهید تا ریسک کاهش یابد.
- مشخصسازی اهداف کوتاهمدت: به جای واگذاری کارهای بزرگ یکباره به مدل، وظایف را به گامهای کوچک تقسیم کنید تا احتمال خطا کمتر و امکان بازیابی وضعیت سادهتر باشد.
- آموزش و نظارت: برای کارهای پیچیده، ترکیب مدل با منطق سنتی (rule-based) و نظارت انسانی در حلقهٔ ابتدا و انتها میتواند اطمینان را افزایش دهد.
علاوه بر اینها، برای تست و اعتبارسنجی رفتار مدل روی مجموعهای از صفحات نمونه و شرایط لبه (edge cases) وقت بگذارید؛ بهخصوص در صفحاتی که محتوای داینامیک یا المانهای جاوااسکریپتی سنگین دارند. با ثبت تصویری از گامها و لاگهای عملیاتی میتوانید پس از بروز خطا، تشخیص و رفع اشکال را سادهتر کنید.
چشمانداز و تأثیر بلندمدت
تکامل مدلهایی مانند Gemini 2.5 Computer Use میتواند نحوهٔ تعامل نرمافزارها با وب را تغییر دهد. زمانی که مدلها بهخوبی توانایی «دیدن» رابط و انجام عمل مناسب را کسب کنند، توسعهدهندگان و کسبوکارها میتوانند فرایندهای تکراری را سریعتر خودکار کنند، تجربهٔ کاربری را یکسانتر پیادهسازی نمایند و بار انسانی روی وظایف روتین را کم کنند. در بلندمدت این فناوری میتواند به ایجاد دستیارهای همهمنظورهتر منجر شود که در محیطهای وبِ متنوع از مدیریت ایمیل و فرمها تا تنظیم پیکربندیهای پیچیدهٔ مدیریت سرویسها مفید باشند.
مسیر پیش رو شامل بهبود پایداری در شرایط بصری متغیر، بهینهسازی برای محیطهای دسکتاپ و موبایل و ترکیب بهتر با ابزارهای امنیتی و حریم خصوصی است. اگرچه چالشها و ریسکهایی وجود دارد، اما پتانسیل برای تسریع توسعهٔ محصولات و افزایش کیفیت تستهای رابط کاربری بسیار مشهود است.
منبع: gizmochina
ارسال نظر