برند OpenAI بهتازگی اعلام کرده است که هوش مصنوعی تولید تصویر GPT‑4o بهعنوان پیشرفتهترین مدل تولید تصویر خود را منتشر کرده است. هدف این مدل که در GPT-4o یکپارچه شده است، ایجاد تصاویری است که «هم زیبا و هم کاربردی» باشند.
هوش مصنوعی تولید تصویر GPT‑4o

هوش مصنوعی GPT‑4o Image Generation
دقت در نمایش متن
GPT-4o بهگونهای طراحی شده است که میتواند نمادها و متن را بهصورت هماهنگ در تصاویر جایگذاری کند. این ویژگی به کاربران اجازه میدهد اطلاعات را با شفافیت و دقت بیشتری منتقل کنند.
بهبود تعاملی
کاربران میتوانند در تعاملات چندمرحلهای شرکت کنند و تصاویر را ازطریق مکالمه بهینه کنند. بهعنوانمثال، در طراحی شخصیت یک بازی ویدیویی، GPT-4o اطمینان میدهد که ویژگیها و مشخصات شخصیت در تمامی تکرارها یکسان باقی بمانند.
دنبالکردن دقیق دستورالعملها
OpenAI اشاره کرد که سیستمهای قبلی در نمایش حدود ۵ تا ۸ شیء دچار مشکل میشدند، اما GPT-4o میتواند بهطور دقیق دستورالعملهایی شامل ۱۰ تا ۲۰ شیء را پردازش کند. این امر کنترل بهتری بر روی ویژگیها، روابط و جزئیات فراهم میکند.
آگاهی از زمینه
این سیستم قادر است تصاویر بارگذاریشده توسط کاربران را تحلیل کند و از جزئیات آنها برای بهبود و افزایش کیفیت تصاویر تولیدشده استفاده کند.
تنوع سبکی و واقعگرایی
با آموزش بر روی طیف گستردهای از سبکها، GPT-4o میتواند تصاویر واقعگرایانه تولید کند یا تصاویر را به نمایشهای هنری تبدیل کند که با ترجیحات کاربران هماهنگ باشند.

هوش مصنوعی تولید تصویر GPT‑4o
بررسی محدودیتها
با وجود پیشرفتهای قابلتوجه، OpenAI به برخی از نقاط ضعف GPT-4o Image Generation نیز اشاره کرده است. بهعنوانمثال، این مدل گاهی تصاویر بلندتر، مانند پوسترها، را بهصورت بیش از حد تنگ برش میدهد، بهویژه در بخش پایینی. OpenAI تأکید میکند که برنامهریزی برای حل این مشکلات ازطریق بهروزرسانیهای بعدی در دست اقدام است.
OpenAI متعهد به استفاده اخلاقی و مسئولانه از هوش مصنوعی است و اقدامات زیر را اجرا کرده است:
- متادیتا C2PA: تمامی تصاویر تولیدشده شامل متادیتا C2PA هستند تا با علامتگذاری بهعنوان تصاویر تولیدشده توسط هوش مصنوعی، شفافیت فراهم شود.
- ابزارهای جستجوی داخلی: ابزارهای اختصاصی برای تأیید منشأ محتوا با استفاده از ویژگیهای فنی در دسترس هستند.
- اجرای سیاستهای سختگیرانه: OpenAI درخواستهای مرتبط با محتوای خشونتآمیز، تصاویر صریح یا دیپفیکهای مضر را مسدود میکند. اقدامات ایمنی تقویتشدهای برای تصاویر شامل افراد واقعی وجود دارد.
- یکپارچهسازی مدل زبانی مبتنیبر استدلال: یک مدل زبانی مبتنیبر استدلال در طول توسعه استفاده شده است تا ابهامات موجود در سیاستهای ایمنی را حل کند و تأیید شود که مطابق با استانداردهای اخلاقی OpenAI عمل میکند.
این شرکت همچنین توضیح میدهد که انسانها از دیرباز از ابزارهای بصری، از نقاشیهای غاری تا انفوگرافیکهای مدرن، برای ارتباط و تحلیل اطلاعات استفاده کردهاند. GPT-4o شکاف بین بیان هنری و کاربرد عملی را پر میکند و امکان ایجاد تصاویری مانند لوگو، نمودارها و طرحهای اطلاعاتی را فراهم میکند که معانی دقیق را منتقل میکنند.
دسترسی و در دسترس بودن
انتشار این قابلیت از تاریخ ۲۵ مارس ۲۰۲۵ (۵ فروردین ۱۴۰۴) برای کاربران Plus ،Pro ،Team و Free در ChatGPT آغاز شده است. دسترسی برای کاربران Enterprise و Edu نیز بهزودی ارائه خواهد شد. همچنین، کاربران Sora اکنون میتوانند از قابلیتهای تولید تصویر GPT-4o استفاده کنند. OpenAI اعلام کرده است که توسعهدهندگان در هفتههای آینده به API دسترسی خواهند داشت.
کاربران میتوانند با توصیف ساده نیازهای خود ازطریق GPT-4o، تصاویر سفارشی تولید کنند. این سیستم از مشخصات دقیقی مانند نسبتهای ابعاد، کدهای رنگ HEX و پسزمینههای شفاف پشتیبانی میکند. بااینحال، OpenAI تأکید کرد که تولید این تصاویر پیچیده ممکن است تا یک دقیقه زمان ببرد.
سخن پایانی
GPT-4o Image Generation با ترکیب دقت، تعامل و تنوع سبکی، یک ابزار قدرتمند برای تولید تصاویر زیبا و کاربردی است. این قابلیت نهتنها به کاربران اجازه میدهد خلاقیت خود را بیان کنند، بلکه در حوزههای مختلفی مانند طراحی، آموزش و ارتباطات کاربردی قابلتوجهی دارد. با توجه به تلاشهای OpenAI برای بهبود ایمنی و اخلاقی بودن این فناوری، انتظار میرود که این ابزار بهسرعت محبوبیت پیدا کند.
بفرست برای دوستات
source