10 دقیقه
گوگل در حال توسعهٔ ویژگی جدیدی با نام «مارکاپ» برای Gemini است که به کاربران اجازه میدهد مستقیماً روی تصاویر تولیدشده ترسیم کنند یا متن اضافه کنند و سپس همان تصاویر حاشیهنویسیشده را برای اصلاحات سریع بازارسال نمایند. هدف این قابلیت، دادن کنترل مستقیمتر به کاربران روی خروجیهای هوش مصنوعی و تسریع ویرایشهای کوچک بدون نیاز به بازنویسی کامل پرامپت است. این ایده میتواند روند تولید محتوای تصویری را برای طراحان، تیمهای محصول و کاربران عادی سادهتر و قابلپیشبینیتر کند.
ترسیم، تایپ، تنظیم: روشی عملیتر برای ویرایش تصاویر هوش مصنوعی
تصاویر و گزارشهای لو رفته نشان میدهند رابط کاربری مارکاپ Gemini شامل یک پالت رنگ افقی و دو ابزار اصلی است: یک قلم با خط موجی برای طراحی آزاد و یک آیکون «T» برای درج متن. بهجای اصلاح یک پرامپت و تولید دوبارهٔ کامل تصویر، کاربران میتوانند خروجی را حاشیهنویسی کنند — روی ناحیهای نقاشی کنند، یادداشتی بنویسند یا دقیقاً مشخص کنند چه چیزی باید تغییر کند — و سپس آن تصویر حاشیهنویسیشده را دوباره به Gemini ارسال کنند تا مدل بر اساس نشانهها تنظیمات لازم را اعمال نماید.
این روش ویرایش تصویری، شیوهٔ تعامل با مدلهای تولید تصویر را به شکل لمسی و بصریتری تغییر میدهد: بهجای توضیح مفصل با متن، میتوان با یک فلش، دایره یا متن کوتاه روی عنصر موردنظر، منظور را منتقل کرد. برای تیمهایی که در چرخهٔ بازبینی بصری کار میکنند، چنین روشی میتواند زمان بازگشت به مرحلهٔ اصلاح را بهطور محسوسی کاهش دهد و ابهامات در درخواستهای متنی را کمتر کند.
علاوه بر کاربرد در تولید تصاویر جدید، مارکاپ میتواند در ویرایش عکسهای کاربران نیز کاربردی باشد؛ بهعنوان مثال، کاربر میتواند بخشی از پسزمینه را علامتگذاری کند یا متنی دقیق روی یک المان اضافه کند تا مدل آن بخش را حذف، جابهجا یا بازطراحی کند. این رویکرد با تمرکز بر تعامل بصری، بهویژه برای کاربران غیرتخصصی که در بیان دقیق پرامپت مشکل دارند، مفید است.
چگونه جریان بازارسال روند کار را تسریع میکند
تستکنندگان اولیه یک حلقهٔ ساده را توصیف کردهاند: تصویر تولیدشده را دانلود کنید، طرحها یا دستورالعملهای متنی را روی آن اضافه کنید، سپس فایل حاشیهنویسیشده را آپلود یا بازارسال کنید تا مدل بتواند تغییرات را تفسیر و اعمال کند. این جریان به این معناست که اصلاحات کوچک — مانند جابهجایی یک شی، تغییر رنگ، یا یک اصلاح جزئی در چهره — میتواند مستقیماً روی تصویر انجام شود، بدون بازسازی یک پرامپت طولانی یا شروع از ابتدا.
فرآیند بازارسال معمولاً شامل چند مرحلهٔ مشخص است: (1) دریافت تصویر تولیدشده، (2) اعمال حاشیهنویسی یا نشانهگذاری بصری، (3) ارسال تصویر حاشیهنویسیشده به مدل، و (4) بررسی و دریافت نسخهٔ ویرایششده. این چرخهٔ کوتاه باعث میشود تیمها سریعتر به نمونههای موردنظر دست یابند و نسخههای میانی بیشتری را در زمان کمتر بررسی کنند.
از منظر فنی، مدل باید قادر باشد نشانههای بصری را کنار متادیتا یا متن موجود در فایل تصویر تفسیر کند؛ برای مثال، تشخیص فلشها، دایرهها یا متنهای اضافهشده و تعیین اینکه این نشانهها به کدام عملیات تبدیل شوند (مانند انتقال، تغییر رنگ، حذف یا تقویت جزئیات). پشتیبانی مناسب از فرمتهای تصویری، حفظ رزولوشن و توجه به لایهبندی یا ماسکها میتواند به دقت بالاتر در اجرای تغییرات کمک کند.
- دانلود یا تولید تصویر اولیه توسط Gemini.
- حاشیهنویسی یا ترسیم روی نقاط موردنظر با ابزار مارکاپ.
- ارسال دوباره تصویر حاشیهنویسیشده به مدل برای تفسیر نشانهها.
- دریافت تصویر اصلاحشده و تکرار در صورت نیاز برای بهینهسازی نهایی.
این گردش کار بهخصوص وقتی کار روی مجموعهای از تصاویر مشابه است کارآمدی بیشتری نشان میدهد، زیرا میتوان الگوهای نشانهگذاری را تکرار کرد و تغییرات همگن را بدون نوشتن پرامپتهای تکراری اعمال نمود.
چرا این برای سازندگان و تیمها اهمیت دارد
تصور کنید در حال تکرار روی تصاویر تبلیغاتی یا نمونههای محصول هستید. بهجای نوشتن «لوگو را کوچکتر کن و به چپ منتقل کن»، میتوانید بهسرعت با یک پیکان نشان دهید، لوگو را دایره کنید، یا کلمهٔ «کوچکتر» را دقیقاً روی آن بنویسید. این روش سریعتر، کمابهتاتر و نزدیکتر به شیوهای است که طراحان هنگام بازبینی داراییها استفاده میکنند.
برای تیمهای بازاریابی، طراحی محصول و تولید محتوا، کاهش زمان بین بازخورد و نتیجهٔ اصلاحشده اهمیت راهبردی دارد. مارکاپ میتواند بهعنوان یک واسط بصری عمل کند که شکاف بین زبان روزمرهٔ کاربران و فرمتهای دستوری مدل را پر میکند. همچنین کاهش خطاهای تفسیر مدل میتواند کیفیت خروجیها را بالاتر برده و نیاز به مرورهای مکرر را کم کند.
در محیطهای همکاری، امکان حاشیهنویسی سریع روی تصاویر باعث میشود بازخورد صریحتر و قابل استنادتر باشد؛ افرادی که در تیم مستقیماً توانایی نوشتن پرامپت دقیق را ندارند نیز میتوانند با کشیدن و نوشتن، خواستهٔ خود را منتقل کنند. این باعث میشود فرایند طراحی مشارکتی سریعتر و کمهزینهتر شود و زمان عرضهٔ پروژهها کاهش یابد.

- تسریع تکرارها: بازنویسیهای کمتر در پرامپت و بازخورد تصویری سریعتر.
- نیت روشنتر: نشانهگذاریهای بصری ابهام تفسیر را نسبت به دستورهای متنی تنها کاهش میدهد.
- ویرایش در دسترستر: کاربران غیرتکنیکی نیز میتوانند با کشیدن یا نوشتن دستورالعملهای ساده، مدل را هدایت کنند.
علاوه بر این مزایا، مارکاپ میتواند در حفظ انسجام برند یاریرسان باشد؛ با امکان نشانهگذاری دقیق رنگها، نسبتها و موقعیتها، تیمها میتوانند استانداردهای بصری را راحتتر اعمال کنند. برای نمونه، در پروژههای چند مرحلهای یا چند نفره، یک حاشیهنویسی واحد میتواند بهعنوان مرجع برای ویرایشهای بعدی مورد استفاده قرار گیرد.
با این حال، پیادهسازی موفق این قابلیت نیازمند توجه به تجربهٔ کاربری (UX) است تا ابزارها ساده، پاسخگو و قابلدسترسی باشند. طراحی پالت رنگی مناسب، اندازهٔ قلمهای قابل تنظیم، گزینههای لغو/بازگردانی، و نمایش شفاف از تغییرات پیشنهادی از مواردی است که باعث خواهد شد کاربران با اعتماد بیشتری از مارکاپ استفاده کنند.
بر پایهٔ مجموعه ابزار تصویری در حال گسترش Gemini
گوگل پیش از این در سال جاری ویرایش تصویر درونبرنامهای را داخل Gemini عرضه کرده است. آن ابزار تصاویر کاربران و تصاویر تولیدشده توسط هوش مصنوعی را مدیریت میکند و امکاناتی مانند تغییر پسزمینه، افزودن یا حذف شیء و ترکیب چند تصویر را ارائه میدهد. قابلیت مارکاپ این توانایی را گسترش میدهد که خروجی خود بهعنوان ورودی قابل ویرایش برای گردشهای بعدی به کار رود.
ادغام مارکاپ با سایر ابزارهای تصویری Gemini میتواند یک زنجیرهٔ کاری قدرتمند ایجاد کند: مثلاً ابتدا با ابزار اصلاح پسزمینه کار کنید، سپس با تولید تصویر جدید جزئیات را اضافه کنید، و در نهایت با مارکاپ تغییرات ظریف را تعیین کنید. این ترکیب از ابزارها امکان ایجاد تصاویر با کیفیت بالاتر و کنترل دقیقتر روی عناصر بصری را فراهم میآورد.
از منظر فنی، اتصال میان اجزای مختلف این اکوسیستم نیازمند استانداردسازی فرمتهای حاشیهنویسی و پروتکلهای ارسال تصویر است تا اطلاعات مربوط به موقعیت، رنگ، متن افزودهشده و لایهها بدون از دست رفتن کیفیت منتقل شوند. همچنین نگاشت نشانههای بصری به دستورات ویرایشی (مثلاً فلش به معنی جابهجایی یا دایره به معنی تمرکز)، باید در مدل بهصورت تعریفشده قابل فهم باشد.
برای توسعهدهندگان و تیمهای فنی، ارائهٔ API یا کیت توسعه (SDK) که از فایلهای حاشیهنویسی پشتیبانی کند میتواند امکان یکپارچهسازی مارکاپ با ابزارهای مدیریت دارایی دیجیتال (DAM)، سیستمهای بازخورد تیمی و گردشهای کاری سازمانی را فراهم سازد. این سطح از یکپارچگی به کسبوکارها اجازه میدهد قابلیتهای پیشرفتهٔ تولید تصویر را در فرآیندهای موجود خود جای دهند.
نانو بنانا پرو: تصاویر دقیقتر و متن خواناتر
تواناییهای بصری Gemini با مدل Nano Banana Pro تقویت شده است. گوگل اعلام کرده که این نسخه محتوای غنیتری با جزئیات بهتر و قابلیت خوانایی بالاتر فونتها و متن داخل تصاویر تولید میکند. وقتی مارکاپ با مدلی که در تفسیر متن داخل تصویر بهتر عمل میکند ترکیب شود، نتیجه میتواند اصلاحاتی سریعتر و تمیزتر باشد که هم دستورهای ترسیمی و هم پوششهای متنی را با اطمینان بیشتری تفسیر میکند.
Nano Banana Pro بهطور خاص برای بهبود رندرینگ متن، حفظ هارمونی رنگ و ظرافت در جزئیات طراحی شده است. این به آن معناست که وقتی کاربر متنی کوتاه روی تصویر مینویسد — مانند «کوچکتر»، «روشنتر» یا «جابهجا کن» — مدل شانس بیشتری دارد که منظور را درست تفسیر کرده و اعمال نماید. همچنین خوانایی بهتر متن داخل تصاویر برای تولید محتوای تبلیغاتی یا نمونههای محصول که نیاز به درج توضیحات یا برچسب دارند، اهمیت زیادی دارد.
از منظر کاربردی، ترکیب یک مدل با تواناییهای بالای تفسیر تصویر و ابزار مارکاپ میتواند مراحل بازخورد و اصلاح را کاهش دهد، کیفیت نهایی را بهبود دهد و امکان حذف برخی از مراحل میانی تولید را فراهم کند. این تغییرات میتوانند در پروژههای با حجم بالا و نیاز به استانداردسازی بصری، مزیت رقابتی ایجاد کنند.
علاوه بر این، توجه به مسائل مرتبط با حفظ حریم خصوصی و ایمنی محتوا نیز ضروری است: هرچند ابزارهای ویرایشی پیشرفته مفید هستند، اما باید مکانیزمهایی برای کنترل دسترسی، ثبت تغییرات و جلوگیری از سوءاستفاده فراهم گردد. برای سازمانها، سیاستهای مدیریت داده و ذخیرهسازی نسخههای اولیه و اصلاحشده باید مشخص و امن باشند.
برای طراحان، تیمهای محصول و سازندگان محتوای غیرحرفهای، مارکاپ تصویر میتواند نحوهٔ تعامل با هوش مصنوعی تولیدی را تغییر دهد: کمتر تکیه بر پرامپتهای بلند و پیچیده، کنترل مستقیم و لمسی بیشتر روی نتیجهٔ نهایی، و گردشهای کاری سریعتر بین بازخورد انسانی و اصلاحات خودکار. به نظر میرسد گوگل در حال حرکت به سمت انتقالهای نرمتر بین نیت انسانی و تصفیهٔ هوش مصنوعی است، تا کاری که آغاز شده سادهتر به نتیجهٔ مطلوب برسد.
منبع: smarti
نظرات
آرمین
احتمالا پرکاربرده ولی یه نکته؛ خوانایی متن دستی و خطاهای تفسیر مدل میتونه اذیت کنه، امیدوارم Nano Banana Pro واقعا قوی باشه
سیتی
ایده ساده و کاربردی، مخصوصا برای کاربران غیرحرفهای. UX مهمه، ابزار باید روان و قابلاعتماد باشه
بیونیکس
من تو پروژههام دیدم همین حواشی بصری خیلی وقتا گرهگشا بوده؛ اگر SDK و فرمتها استاندارد باشن، یعنی تکرار کمتر، تحویل سریعتر
توربو
واقعاً بدون بازنویسی پرامپت میشه دقیق تغییر داد؟ یعنی مدل میفهمه فلش یا دایره رو، یا باز کلی تفسیر میشه؟
کوینپ
معقول بهنظر میاد، سرعت خیلی مهمه و این کمک میکنه، البته همه چیز بستگی داره به پیادهسازی
پالس
وای، این مارکاپ میتونه معجزه کنه برا طراحیهای سریع... ولی خب نگران حریم خصوصی هم هستم، باید کنترل باشه
ارسال نظر