ویژگی مارکاپ جدید Gemini برای ویرایش سریع تصاویر

گوگل در حال افزودن «مارکاپ» به Gemini است تا کاربران بتوانند مستقیماً روی تصاویر تولیدشده ترسیم یا متن اضافه کنند و نسخهٔ حاشیه‌نویسی‌شده را برای اصلاحات سریع بازارسال نمایند؛ این روش ویرایش تصویری، چرخهٔ بازخورد را کوتاه‌تر و کنترل بصری را تسهیل می‌کند.

6 نظرات
ویژگی مارکاپ جدید Gemini برای ویرایش سریع تصاویر

10 دقیقه

گوگل در حال توسعهٔ ویژگی جدیدی با نام «مارکاپ» برای Gemini است که به کاربران اجازه می‌دهد مستقیماً روی تصاویر تولیدشده ترسیم کنند یا متن اضافه کنند و سپس همان تصاویر حاشیه‌نویسی‌شده را برای اصلاحات سریع بازارسال نمایند. هدف این قابلیت، دادن کنترل مستقیم‌تر به کاربران روی خروجی‌های هوش مصنوعی و تسریع ویرایش‌های کوچک بدون نیاز به بازنویسی کامل پرامپت است. این ایده می‌تواند روند تولید محتوای تصویری را برای طراحان، تیم‌های محصول و کاربران عادی ساده‌تر و قابل‌پیش‌بینی‌تر کند.

ترسیم، تایپ، تنظیم: روشی عملی‌تر برای ویرایش تصاویر هوش مصنوعی

تصاویر و گزارش‌های لو رفته نشان می‌دهند رابط کاربری مارکاپ Gemini شامل یک پالت رنگ افقی و دو ابزار اصلی است: یک قلم با خط موجی برای طراحی آزاد و یک آیکون «T» برای درج متن. به‌جای اصلاح یک پرامپت و تولید دوبارهٔ کامل تصویر، کاربران می‌توانند خروجی را حاشیه‌نویسی کنند — روی ناحیه‌ای نقاشی کنند، یادداشتی بنویسند یا دقیقاً مشخص کنند چه چیزی باید تغییر کند — و سپس آن تصویر حاشیه‌نویسی‌شده را دوباره به Gemini ارسال کنند تا مدل بر اساس نشانه‌ها تنظیمات لازم را اعمال نماید.

این روش ویرایش تصویری، شیوهٔ تعامل با مدل‌های تولید تصویر را به شکل لمسی و بصری‌تری تغییر می‌دهد: به‌جای توضیح مفصل با متن، می‌توان با یک فلش، دایره یا متن کوتاه روی عنصر موردنظر، منظور را منتقل کرد. برای تیم‌هایی که در چرخهٔ بازبینی بصری کار می‌کنند، چنین روشی می‌تواند زمان بازگشت به مرحلهٔ اصلاح را به‌طور محسوسی کاهش دهد و ابهامات در درخواست‌های متنی را کمتر کند.

علاوه بر کاربرد در تولید تصاویر جدید، مارکاپ می‌تواند در ویرایش عکس‌های کاربران نیز کاربردی باشد؛ به‌عنوان مثال، کاربر می‌تواند بخشی از پس‌زمینه را علامت‌گذاری کند یا متنی دقیق روی یک المان اضافه کند تا مدل آن بخش را حذف، جابه‌جا یا بازطراحی کند. این رویکرد با تمرکز بر تعامل بصری، به‌ویژه برای کاربران غیرتخصصی که در بیان دقیق پرامپت مشکل دارند، مفید است.

چگونه جریان بازارسال روند کار را تسریع می‌کند

تست‌کنندگان اولیه یک حلقهٔ ساده را توصیف کرده‌اند: تصویر تولیدشده را دانلود کنید، طرح‌ها یا دستورالعمل‌های متنی را روی آن اضافه کنید، سپس فایل حاشیه‌نویسی‌شده را آپلود یا بازارسال کنید تا مدل بتواند تغییرات را تفسیر و اعمال کند. این جریان به این معناست که اصلاحات کوچک — مانند جابه‌جایی یک شی، تغییر رنگ، یا یک اصلاح جزئی در چهره — می‌تواند مستقیماً روی تصویر انجام شود، بدون بازسازی یک پرامپت طولانی یا شروع از ابتدا.

فرآیند بازارسال معمولاً شامل چند مرحلهٔ مشخص است: (1) دریافت تصویر تولیدشده، (2) اعمال حاشیه‌نویسی یا نشانه‌گذاری بصری، (3) ارسال تصویر حاشیه‌نویسی‌شده به مدل، و (4) بررسی و دریافت نسخهٔ ویرایش‌شده. این چرخهٔ کوتاه باعث می‌شود تیم‌ها سریع‌تر به نمونه‌های موردنظر دست یابند و نسخه‌های میانی بیشتری را در زمان کمتر بررسی کنند.

از منظر فنی، مدل باید قادر باشد نشانه‌های بصری را کنار متادیتا یا متن موجود در فایل تصویر تفسیر کند؛ برای مثال، تشخیص فلش‌ها، دایره‌ها یا متن‌های اضافه‌شده و تعیین اینکه این نشانه‌ها به کدام عملیات تبدیل شوند (مانند انتقال، تغییر رنگ، حذف یا تقویت جزئیات). پشتیبانی مناسب از فرمت‌های تصویری، حفظ رزولوشن و توجه به لایه‌بندی یا ماسک‌ها می‌تواند به دقت بالاتر در اجرای تغییرات کمک کند.

  1. دانلود یا تولید تصویر اولیه توسط Gemini.
  2. حاشیه‌نویسی یا ترسیم روی نقاط موردنظر با ابزار مارکاپ.
  3. ارسال دوباره تصویر حاشیه‌نویسی‌شده به مدل برای تفسیر نشانه‌ها.
  4. دریافت تصویر اصلاح‌شده و تکرار در صورت نیاز برای بهینه‌سازی نهایی.

این گردش کار به‌خصوص وقتی کار روی مجموعه‌ای از تصاویر مشابه است کارآمدی بیشتری نشان می‌دهد، زیرا می‌توان الگوهای نشانه‌گذاری را تکرار کرد و تغییرات همگن را بدون نوشتن پرامپت‌های تکراری اعمال نمود.

چرا این برای سازندگان و تیم‌ها اهمیت دارد

تصور کنید در حال تکرار روی تصاویر تبلیغاتی یا نمونه‌های محصول هستید. به‌جای نوشتن «لوگو را کوچکتر کن و به چپ منتقل کن»، می‌توانید به‌سرعت با یک پیکان نشان دهید، لوگو را دایره کنید، یا کلمهٔ «کوچکتر» را دقیقاً روی آن بنویسید. این روش سریع‌تر، کمابهتاتر و نزدیک‌تر به شیوه‌ای است که طراحان هنگام بازبینی دارایی‌ها استفاده می‌کنند.

برای تیم‌های بازاریابی، طراحی محصول و تولید محتوا، کاهش زمان بین بازخورد و نتیجهٔ اصلاح‌شده اهمیت راهبردی دارد. مارکاپ می‌تواند به‌عنوان یک واسط بصری عمل کند که شکاف بین زبان روزمرهٔ کاربران و فرمت‌های دستوری مدل را پر می‌کند. همچنین کاهش خطاهای تفسیر مدل می‌تواند کیفیت خروجی‌ها را بالاتر برده و نیاز به مرورهای مکرر را کم کند.

در محیط‌های همکاری، امکان حاشیه‌نویسی سریع روی تصاویر باعث می‌شود بازخورد صریح‌تر و قابل استنادتر باشد؛ افرادی که در تیم مستقیماً توانایی نوشتن پرامپت دقیق را ندارند نیز می‌توانند با کشیدن و نوشتن، خواستهٔ خود را منتقل کنند. این باعث می‌شود فرایند طراحی مشارکتی سریع‌تر و کم‌هزینه‌تر شود و زمان عرضهٔ پروژه‌ها کاهش یابد.

  • تسریع تکرارها: بازنویسی‌های کمتر در پرامپت و بازخورد تصویری سریع‌تر.
  • نیت روشن‌تر: نشانه‌گذاری‌های بصری ابهام تفسیر را نسبت به دستورهای متنی تنها کاهش می‌دهد.
  • ویرایش در دسترس‌تر: کاربران غیرتکنیکی نیز می‌توانند با کشیدن یا نوشتن دستورالعمل‌های ساده، مدل را هدایت کنند.

علاوه بر این مزایا، مارکاپ می‌تواند در حفظ انسجام برند یاری‌رسان باشد؛ با امکان نشانه‌گذاری دقیق رنگ‌ها، نسبت‌ها و موقعیت‌ها، تیم‌ها می‌توانند استانداردهای بصری را راحت‌تر اعمال کنند. برای نمونه، در پروژه‌های چند مرحله‌ای یا چند نفره، یک حاشیه‌نویسی واحد می‌تواند به‌عنوان مرجع برای ویرایش‌های بعدی مورد استفاده قرار گیرد.

با این حال، پیاده‌سازی موفق این قابلیت نیازمند توجه به تجربهٔ کاربری (UX) است تا ابزارها ساده، پاسخگو و قابل‌دسترسی باشند. طراحی پالت رنگی مناسب، اندازهٔ قلم‌های قابل تنظیم، گزینه‌های لغو/بازگردانی، و نمایش شفاف از تغییرات پیشنهادی از مواردی است که باعث خواهد شد کاربران با اعتماد بیشتری از مارکاپ استفاده کنند.

بر پایهٔ مجموعه ابزار تصویری در حال گسترش Gemini

گوگل پیش از این در سال جاری ویرایش تصویر درون‌برنامه‌ای را داخل Gemini عرضه کرده است. آن ابزار تصاویر کاربران و تصاویر تولیدشده توسط هوش مصنوعی را مدیریت می‌کند و امکاناتی مانند تغییر پس‌زمینه، افزودن یا حذف شیء و ترکیب چند تصویر را ارائه می‌دهد. قابلیت مارکاپ این توانایی را گسترش می‌دهد که خروجی خود به‌عنوان ورودی قابل ویرایش برای گردش‌های بعدی به کار رود.

ادغام مارکاپ با سایر ابزارهای تصویری Gemini می‌تواند یک زنجیرهٔ کاری قدرتمند ایجاد کند: مثلاً ابتدا با ابزار اصلاح پس‌زمینه کار کنید، سپس با تولید تصویر جدید جزئیات را اضافه کنید، و در نهایت با مارکاپ تغییرات ظریف را تعیین کنید. این ترکیب از ابزارها امکان ایجاد تصاویر با کیفیت بالاتر و کنترل دقیق‌تر روی عناصر بصری را فراهم می‌آورد.

از منظر فنی، اتصال میان اجزای مختلف این اکوسیستم نیازمند استانداردسازی فرمت‌های حاشیه‌نویسی و پروتکل‌های ارسال تصویر است تا اطلاعات مربوط به موقعیت، رنگ، متن افزوده‌شده و لایه‌ها بدون از دست رفتن کیفیت منتقل شوند. همچنین نگاشت نشانه‌های بصری به دستورات ویرایشی (مثلاً فلش به معنی جابه‌جایی یا دایره به معنی تمرکز)، باید در مدل به‌صورت تعریف‌شده قابل فهم باشد.

برای توسعه‌دهندگان و تیم‌های فنی، ارائهٔ API یا کیت توسعه (SDK) که از فایل‌های حاشیه‌نویسی پشتیبانی کند می‌تواند امکان یکپارچه‌سازی مارکاپ با ابزارهای مدیریت دارایی دیجیتال (DAM)، سیستم‌های بازخورد تیمی و گردش‌های کاری سازمانی را فراهم سازد. این سطح از یکپارچگی به کسب‌وکارها اجازه می‌دهد قابلیت‌های پیشرفتهٔ تولید تصویر را در فرآیندهای موجود خود جای دهند.

نانو بنانا پرو: تصاویر دقیق‌تر و متن خواناتر

توانایی‌های بصری Gemini با مدل Nano Banana Pro تقویت شده است. گوگل اعلام کرده که این نسخه محتوای غنی‌تری با جزئیات بهتر و قابلیت خوانایی بالاتر فونت‌ها و متن داخل تصاویر تولید می‌کند. وقتی مارکاپ با مدلی که در تفسیر متن داخل تصویر بهتر عمل می‌کند ترکیب شود، نتیجه می‌تواند اصلاحاتی سریع‌تر و تمیزتر باشد که هم دستورهای ترسیمی و هم پوشش‌های متنی را با اطمینان بیشتری تفسیر می‌کند.

Nano Banana Pro به‌طور خاص برای بهبود رندرینگ متن، حفظ هارمونی رنگ و ظرافت در جزئیات طراحی شده است. این به آن معناست که وقتی کاربر متنی کوتاه روی تصویر می‌نویسد — مانند «کوچکتر»، «روشن‌تر» یا «جابه‌جا کن» — مدل شانس بیشتری دارد که منظور را درست تفسیر کرده و اعمال نماید. همچنین خوانایی بهتر متن داخل تصاویر برای تولید محتوای تبلیغاتی یا نمونه‌های محصول که نیاز به درج توضیحات یا برچسب دارند، اهمیت زیادی دارد.

از منظر کاربردی، ترکیب یک مدل با توانایی‌های بالای تفسیر تصویر و ابزار مارکاپ می‌تواند مراحل بازخورد و اصلاح را کاهش دهد، کیفیت نهایی را بهبود دهد و امکان حذف برخی از مراحل میانی تولید را فراهم کند. این تغییرات می‌توانند در پروژه‌های با حجم بالا و نیاز به استانداردسازی بصری، مزیت رقابتی ایجاد کنند.

علاوه بر این، توجه به مسائل مرتبط با حفظ حریم خصوصی و ایمنی محتوا نیز ضروری است: هرچند ابزارهای ویرایشی پیشرفته مفید هستند، اما باید مکانیزم‌هایی برای کنترل دسترسی، ثبت تغییرات و جلوگیری از سوءاستفاده فراهم گردد. برای سازمان‌ها، سیاست‌های مدیریت داده و ذخیره‌سازی نسخه‌های اولیه و اصلاح‌شده باید مشخص و امن باشند.

برای طراحان، تیم‌های محصول و سازندگان محتوای غیرحرفه‌ای، مارکاپ تصویر می‌تواند نحوهٔ تعامل با هوش مصنوعی تولیدی را تغییر دهد: کمتر تکیه بر پرامپت‌های بلند و پیچیده، کنترل مستقیم و لمسی بیشتر روی نتیجهٔ نهایی، و گردش‌های کاری سریع‌تر بین بازخورد انسانی و اصلاحات خودکار. به نظر می‌رسد گوگل در حال حرکت به سمت انتقال‌های نرم‌تر بین نیت انسانی و تصفیهٔ هوش مصنوعی است، تا کاری که آغاز شده ساده‌تر به نتیجهٔ مطلوب برسد.

منبع: smarti

ارسال نظر

نظرات

آرمین

احتمالا پرکاربرده ولی یه نکته؛ خوانایی متن دستی و خطاهای تفسیر مدل میتونه اذیت کنه، امیدوارم Nano Banana Pro واقعا قوی باشه

سیتی

ایده ساده و کاربردی، مخصوصا برای کاربران غیرحرفه‌ای. UX مهمه، ابزار باید روان و قابل‌اعتماد باشه

بیونیکس

من تو پروژه‌هام دیدم همین حواشی بصری خیلی وقتا گره‌گشا بوده؛ اگر SDK و فرمت‌ها استاندارد باشن، یعنی تکرار کمتر، تحویل سریعتر

توربو

واقعاً بدون بازنویسی پرامپت میشه دقیق تغییر داد؟ یعنی مدل میفهمه فلش یا دایره رو، یا باز کلی تفسیر میشه؟

کوینپ

معقول به‌نظر میاد، سرعت خیلی مهمه و این کمک میکنه، البته همه چیز بستگی داره به پیاده‌سازی

پالس

وای، این مارکاپ می‌تونه معجزه کنه برا طراحی‌های سریع... ولی خب نگران حریم خصوصی هم هستم، باید کنترل باشه

مطالب مرتبط