بهترین ابزارهای هوش مصنوعی برای ساخت تصویر در سال 2023
ابزارهای هوش مصنوعی برای ساخت تصویر بیش از یک سال است که در این زمینه طوفان ایجاد کردهاند. اگر در رسانههای اجتماعی بودهاید، برنامههای خبری پربیننده را تماشا کردهاید، یا مجلهای خواندهاید، حتما تصاویر تولید شده توسط هوش مصنوعی را دیدهاید. آنها همه جا هستند زیرا ابزارهای لازم برای ایجاد این تصاویر اکنون در دسترس عموم هستند. اگر میخواهید سرگرم شوید یا برخی از ویژگیهای مبتنی بر هوش مصنوعی را به گردشهای کاری تجارت خود اضافه کنید، اپلیکیشنهای معرفی شده در این مقاله آنچه را که به دنبال آن هستید به شما ارائه میدهند.
ابزار ساخت تصویر هوش مصنوعی چگونه کار میکنند؟
همه این ابزارها یک پیام متنی را دریافت میکنند و سپس آن را – تا جایی که میتوانند – به یک تصویر منطبق تبدیل میکنند. برخی احتمالات نیز وجود دارد که تصاویر ایجاد شده تا حدودی ناشیانه باشند؛ زیرا درخواست شما میتواند هر چیزی باشد، از نقاشی رنگ روغن امپرسیونیستی از یک مرد کانادایی که سوار بر گوزن در میان جنگلی از درختان افرا است تا نقاشی به سبک ورمیر از یک سگ گرگی بزرگ ایرلندی یا عکس الاغی روی ماه.
تصاویر به دست آمده با ابزار هوش مصنوعی DALL·E 2 با استفاده از دستور یک نقاشی رنگ روغن امپرسیونیستی از یک مرد کانادایی سوار بر گوزن در میان جنگلی از درختان افرا.
در این ابزار تنها محدودیتهای موجود، تخیل شما، توانایی ابزار هوش مصنوعی برای ایجاد تصویر بر اساس درکی از درخواست شما و هرگونه فیلتر محتوایی برای محتواهای بد و خشونت آمیز یا سایر محتوای NSFW هستند.
بیشتر مولدهای تصویر هوش مصنوعی به روشی تقریباً مشابه کار میکنند. میلیاردها جفت تصویر-متن برای آموزش یک شبکه عصبی (که اساساً یک الگوریتم کامپیوتری است که بر اساس مغز انسان مدل شده است) استفاده میشود. با پردازش تصاویر بیشمار، میآموزد که سگها، رنگ قرمز، ورمیر و هر چیز دیگری چیست. پس از انجام این کار، شما یک هوش مصنوعی دارید که میتواند تقریباً هر درخواستی را تفسیر کند.
گام بعدی این است که تصویر تولید شده توسط هوش مصنوعی را رندر کنید. آخرین نسل از سازندههای تصویر هوش مصنوعی این کار را با استفاده از فرآیندی به نام diffusion انجام میدهند. در اصل، آنها با یک طرح احتمالی شروع میکنند و سپس آن را در یک سری مراحل ویرایش میکنند تا با تفسیر آنها مطابقت داشته باشد. مثل این است که به آسمان ابری نگاه کنید، ابری را پیدا کنید که شبیه یک سگ است و سپس بتوانید با یک بشکن زدن آن را بیشتر و بیشتر شبیه سگ کنید.
ابری به شکل سگ که در آسمان آبی شفاف شناور است (از بالا به چپ، در جهت عقربههای ساعت)
بهترین ابزار ایجاد تصویر بر پایه هوش مصنوعی
ابزار هوش مصنوعی DALL·E 2
مزایایDALL·E 2: کاربری فوق العاده آسان، نسبتاً مقرون به صرفه (فقط 0.13 دلار برای هر درخواست).
معایبDALL·E 2: بسیار پایهای. به طور کلی کمترین نتایج فوتورئالیستی را ایجاد میکند. نسخه آزمایشی رایگان ندارد.
DALL·E 2 مسلماً شناخته شده ترین نام در میان ابزارهای هوش مصنوعی تولید تصویر است و دلیل خوبی هم برای این امر وجود دارد. این ابزار اولین تولید کننده تصویر مبتنی بر هوش مصنوعی بود که در زمان خود به اندازه کافی خوب بود و به طور گسترده در دسترس افراد زیادی قرار گرفت و وایرال شد. البته این نکته را نیز باید بخاطر داشت که اولین بودن لزوماً به معنای بهترین نیست.
جالب ترین موضوع این است که استفاده از DALL·E 2 بسیار ساده است. آنچه را که میخواهید ببینید، تایپ کنید، روی Generate کلیک کنید و در عرض چند ثانیه، چهار نوع تصویر ایجاد شده توسط هوش مصنوعی را برای انتخاب خواهید داشت. متأسفانه، DALL·E 2 برای آزمایش رایگان نیست، اما با قیمت 15 دلار برای 115 اعتبار (که حدود 0.13 دلار در هر درخواست یا 0.0325 دلار برای هر تغییر تصویر است) هنوز هم ارزش بررسی دارد.
DALL·E 2 دارای برخی ویژگیهای قدرتمند است. ویرایشگر تصویر (که در نسخه بتا نیز میباشد) به شما امکان میدهد فریمهای تولید شده بیشتری اضافه کنید، بنابراین میتوانید یک تصویر را بزرگ کنید، چه آن را با استفاده از DALL·E 2 ایجاد کرده باشید و چه آن را آپلود کرده باشید. این تکنیک که out-painting نامیده میشود، به این معنی است که میتوانید آثار بزرگتری را ایجاد کنید. همچنین یک پاککن وجود دارد که با استفاده از آن میتوانید تکههایی از یک تصویر را حذف کرده و آنها را با عناصر تولید شده توسط هوش مصنوعی جایگزین کنید (به این تکنیک in-painting میگویند).
علاوه بر برنامه وب DALL·E 2، OpenAI یک API ارائه میدهد که به توسعه دهندگان اجازه میدهد برنامههایی بسازند که با DALL·E 2 ادغام شوند. به همین دلیل، میتوانید DALL·E 2 را به Zapier متصل کنید تا کارهایی مانند ایجاد خودکار تصاویر را از Google Forms یا HubSpotیا هر برنامه دیگری که استفاده میکنید، انجام دهید.
ابزار هوش مصنوعی Midjourney
مزایای Midjourney: همواره بهترین تصاویر را تولید میکند. در این ابزار جامعه راهی عالی برای الهام گرفتن است.
معایب Midjourney: فقط از طریق Discord قابل استفاده است. تصاویری که تولید میکنید به طور پیش فرض public هستند. نسخه رایگان در حال حاضر به حالت تعلیق درآمده است.
تصاویری که Midjourney ایجاد میکند منسجمتر به نظر میرسند، با بافتها و رنگهای بهتر و در کل نتایج جالبتر و از نظر بصری جذابتر هستند. به طور خاص، افراد و اشیاء دنیای واقعی نسبت به سایر تولیدکنندههای تصویر هوش مصنوعی، واقعیتر و طبیعیتر به نظر میرسند.
متأسفانه در موردMidjourney یک ویژگی نه چندان جالب وجود دارد و آن این است که بتا فقط از طریق Discord قابل دسترسی است. هنگامی که به سرور Midjourney’s Discord ملحق شدید یا با استفاده از ربات Midjourney میتوانید با تایپ کردن یا imagine هر چیزی که میخواهید ببینید یک اعلان وارد کنید. سپس ربات چهار نوع از درخواست شما را تولید میکند، که میتوانید آنها را دانلود کنید، ارتقا دهید، دوباره ویرایش کنید و موارد دیگر.
بهطور پیشفرض، هر تصویری که ایجاد میکنید بهطور عمومی در Midjourney’s Discord پست میشود. اگرچه لزوماً برای هنرمندان مشکلی نیست، اما اگر به دنبال استفاده از Midjourney برای اهداف تجاری هستید، ممکن است این یک مشکل برای شما تلقی شود.
شاید در نگاه اول همه اینها گیج کننده به نظر برسند، نگران نباشید. اسناد کمکی Midjourney شما را در شروع کار و همچنین آشنایی با تمام ویژگیهای پیشرفته آن مانند نسخههای مختلف مدل، ارتقاء مقیاس تصاویر، ترکیب چندین تصویر و استفاده از پارامترهای مختلف برای کنترل برخی موارد راهنمایی میکنند. هنگامی که گزینههای مختلف را درک کردید، نتایجی که بدست میآورید واقعا شگفت انگیز هستند.
نسخه رایگان Midjourney در حال حاضر به دلیل تعداد زیادی افرادی که تلاش میکنند از آن استفاده کنند، به حالت تعلیق درآمده است، اما گهگاه برای چند روز بازگردانده میشوند. طرح Basic از 10 دلار در ماه شروع میشود و با 3.3 ساعت زمان GPU در ماه یا حدود 200 تصویر ارائه میشود. شما همچنین میتوانید زمان بیشتری برای GPU خریداری کنید و میتوانید از تصاویر خود به صورت تجاری استفاده کنید.
ابزار هوش مصنوعی DreamStudio (Stable Diffusion)
مزایای DreamStudio: تنها مولد تصویر هوش مصنوعی است که هنوز اعتبار رایگان ارائه میدهد. فوق العاده مقرون به صرفه و قابل تنظیم؛ فوق العاده قدرتمند با نتایج به طور کلی عالی.
معایب DreamStudio: منحنی یادگیری بیشتر از سایر مولدهای هوش مصنوعی، ابزارهای ویرایش خیلی بصری نیستند.
بر خلاف DALL·E 2 و Midjourney، Stable Diffusion اپن سورس است. این بدان معناست که هر کسی که مهارتهای فنی لازم را داشته باشد میتواند آن را دانلود کرده و در رایانه شخصی خود اجرا کند. همچنین به این معنی است که میتوانید مدل را برای اهداف خاصی آموزش دهید و تنظیم کنید. تقریباً تمام سرویسهایی که از هوش مصنوعی برای تولید پرترههای هنری، پرترههای تاریخی، رندرهای معماری و هر چیز دیگری استفاده میکنند، از Stable Diffusion استفاده میکنند. اگر مهارتهای لازم را دارید و میخواهید چیزی عالی با هوش مصنوعی بسازید، در حال حاضرStable Diffusion بهترین ابزار برای انجام آن است. حتی یک API و سرویسی به نام ClipDrop وجود دارد که آن را به یک سری ابزار تقسیم میکند.
Stable Diffusion نیز در یک اپلیکیشن عمومی قدرتمند به نام DreamStudio که توسط توسعه دهندگان آن، Stability AI ساخته شده است، موجود است.
DreamStudio به شما کنترل زیادی بر جنبههای مختلف تولید تصویر با هوش مصنوعی میدهد. هنگامی که درخواست خود را تایپ میکنید، اسلایدرهایی وجود دارد که به شما امکان میدهد تعیین کنید که تصویر نهایی چقدر بزرگ باشد، چقدر با درخواستی که میدهید مطابقت دارد، مدل diffusion چند مرحله طی میکند و چند تصویر تولید میشود. همچنین میتوانید نسخهای از الگوریتم مورد استفاده را انتخاب کنید (آخرین آن SDXL 0.9 است).DreamStudio همچنین دارای in-painting و out-painting است، اگرچه برای دسترسی به آنها باید از Chrome استفاده کنید و ظاهراً به زودی ویژگیهای ویرایش بیشتری ارائه میشود.
DreamStudio مبتنی بر یک سیستم اعتباری است. وقتی ثبت نام میکنید، 25 اعتبار رایگان دریافت میکنید که برای حدود 30 درخواست یا 120 تصویر با تنظیمات پیش فرض خوب است. استفاده از یک مدل قدرتمندتر، تولید تصاویر بزرگتر یا بیشتر، یا تکرار آنها در مراحل بیشتر، اعتبار شما را سریعتر مصرف میکند. وقتی کارتان تمام شد، باید بیشتر بخرید، از 10 دلار برای 1000 اعتبار شروع کنید.
در مجموع، DreamStudio و Stable Diffusion بیشترین سفارشی سازی و کنترل را روی کل فرآیند تولید تصویر توسط هوش مصنوعی به شما میدهند.
ابزار هوش مصنوعی Firefly (Adobe Photoshop)
در حالی که Adobe بیش از 15 سال است که ابزارهای هوش مصنوعی را در برنامههای خود بکار میبرد؛ یک سال است که این شرکت یک تولید کننده متن به تصویر را – حداقل در بتا – منتشر کرد. میتوانید این ابزار را در وب به صورت رایگان یا از طریق Adobe Express امتحان کنید، اما در آخرین نسخه بتا فتوشاپ در بهترین حالت خود قرار دارد، که برای بررسی آن باید یک مشترک Creative Cloud باشید.
مدل هوش مصنوعی Adobe که Firefly نام دارد، چند قابلیت دارد. علاوه بر توانایی تولید تصاویر جدید از توضیحات متنی دقیق، میتواند جلوههای متنی را از یک دستور نوشته شده ایجاد کند (فکر کنید، کلمه «TOAST» با حروفی که به نظر میرسد از نان تست ساخته شده نوشته شده است)، vector artwork را دوباره رنگآمیزی کند، یا عناصر تولید شده توسط هوش مصنوعی را به تصاویر خود اضافه کند. میتوانید همه اینها را از طریق برنامه وب آزمایش کنید.
اگر صرفاً به عنوان یک مولد متن به تصویر در نظر گرفته شود، نتایج Firefly میتواند بسیار خوب باشد. برای برخی از درخواستها میتواند با DALL·E 2 یا Stable Diffusion هم سطح باشد یا بهتر از آنها باشد، اما برای برخی دیگر نه.
یک ویژگی دیگر در این ابزار Generative Fill نامیده میشود. به این صورت که از ابزارهای معمولی فتوشاپ برای انتخاب ناحیهای از تصویر خود استفاده کنید و سپس، فقط با کلیک کردن روی یک دکمه و تایپ یک دستور، میتوانید آن را با چیز دیگری جایگزین کنید. بسیار مهم است که Generative Fill زمینه تصویر شما را درک میکند. در تصویر بالا، میبینید که فتوشاپ با تاری عمق میدان و رنگهای قلعهای که با استفاده از Generative Fill اضافه کردم، مطابقت دارد و تصویر منسجم به نظر میرسد.
شایان ذکر است که Firefly در نسخه بتا است، تصاویری که تولید میکند قرار نیست برای مقاصد تجاری استفاده شوند.