همه چیز درباره Google Gemini پلتفرم جدید هوش مصنوعی مولد

بوسیله لیلا سلطانی در 18 دی 1402 به روز رسانی شده در 18 دی 1402

گوگل در تلاش است تا با Google Gemini، پلتفرم جدید هوش مصنوعی مولد خود که اخیراً اولین کار خود را آغاز کرده است، در زمینه هوش مصنوعی تحول ایجاد کند. اما در حالی که به نظر می‌رسد Gemini از چند جنبه امیدوارکننده است، اما در برخی جنبه ها نیز نقص هایی دارد.

بنر بعد از x پاراگراف در هر مقاله- دسکتاب

بنر بعد از x پاراگراف در هر مقاله-موبایل

برای اینکه راحت‌تر با آخرین پیشرفت‌های Gemini همراه شوید، این راهنمای مفید را گردآوری کرده‌ایم که با انتشار مدل‌ها و ویژگی‌های جدید Gemini آن را به‌روزرسانی خواهیم کرد. همچنین دیگر مقالات و اخبار هوش مصنوعی را می توانید در بخش هوش مصنوعی ایموجو مطالعه کنید.

Gemini چیست؟

حتما ببینید

9 روش ساده برای تشخیص تصاویر هوش مصنوعی در سال 2024

26 فروردین 1403

هوش مصنوعی Google Photos توسط گوگل برای همه کاربران

24 فروردین 1403

چت بات جدید هوش مصنوعی مایکروسافت برای ایکس باکس

15 فروردین 1403

قابلیت AI message summaries در Android Auto اکنون در دسترس…

13 اسفند 1402

Gemini، نسل بعدی از مدل‌های هوش مصنوعی مولد گوگل است که مدت‌ها بود که وعده داده بود، توسط آزمایشگاه‌های تحقیقاتی هوش مصنوعی گوگل DeepMind و Google Research توسعه یافته است. در سه مدل موجود است:

مدل پرچمدار Gemini: Gemini Ultra
مدل لایت Gemini: Gemini Pro
مدل فشرده که روی دستگاههای تلفن همراه مانند Pixel 8 Pro اجرا می شود: Gemini Nano

همه مدل‌های Gemini طوری آموزش داده شده‌اند که «به‌طور بومی چندوجهی» باشند؛ به عبارت دیگر، قادر به کار و استفاده بیشتر از متن هستند. آنها از قبل آموزش دیده اند و روی انواع صدا، تصاویر و ویدئوها، مجموعه بزرگی از پایگاه های کد و متن به زبان های مختلف تنظیم شده اند. این موضوع Gemini را از مدل‌هایی مانند مدل LaMDA زبان بزرگ خود گوگل که فقط بر روی داده‌های متنی آموزش داده شده بود، متمایز می‌کند. LaMDA نمی تواند چیزی غیر از متن را بفهمد یا تولید کند (مثلاً مقاله، پیش نویس ایمیل و غیره)؛ اما در مدل های Gemini اینطور نیست. توانایی آنها برای درک تصاویر، صدا و سایر روش ها هنوز محدود است، اما بهتر از هیچ است.

تفاوت Bard و Gemini چیست؟

گوگل که بار دیگر ثابت کرد که در برندسازی مهارت ندارد، از همان ابتدا مشخص نکرد که Gemini از چت بات Bard جدا و متمایز است. Bard یک رابط است که از طریق آن می توان به برخی از مدل های Gemini دسترسی داشت؛ بارد را به عنوان یک اپ یا کلایننت برای Gemini و سایر مدل های هوش مصنوعی در نظر بگیرید. از سوی دیگر، Gemini خانواده ای از مدل‌ها است نه یک اپلیکیشن یا فرانت‌اند. هیچ تجربه مستقلی از Gemini وجود ندارد و احتمالاً هرگز وجود نخواهد داشت. اگر بخواهید با محصولات OpenAI مقایسه کنید،Bard با ChatGPT (برنامه محبوب هوش مصنوعی مکالمه OpenAI) مربوط است و Gemini مطابق با مدل زبانی است که آن را تقویت می کند، که در مورد ChatGPT این مورد GPT-3.5 یا 4 است.

اتفاقاً،Gemini از Imagen-2 نیز کاملاً مستقل است. Imagen-2 یک مدل متن به تصویر است که ممکن است در استراتژی کلی هوش مصنوعی شرکت قرار بگیرد یا نباشد.

Gemini چه کاری می تواند انجام دهد؟

از آنجایی که مدل‌های Gemini چندوجهی هستند، در تئوری می‌توانند طیف وسیعی از وظایف را انجام دهند، از رونویسی گفتار گرفته تا زیرنویس تصاویر و ویدیوها و تولید آثار هنری. تعداد کمی از این قابلیت‌ها هنوز به مرحله محصول رسیده‌اند اما گوگل بیشتر آنها را در آینده‌ای نه چندان دور وعده می‌دهد.

البته، پذیرفتن وعده های گوگل کمی سخت است.

گوگل در مورد Bard نیز به طور جدی به وعده های خود عمل نکرد. اخیراً با ویدئویی که ادعا می‌کرد توانایی‌های Gemini را نشان می‌دهد، کم و بیش بلند پروازانه رفتار کرده است. Gemini امروزه به شکلی نسبتا محدود در دسترس است.

با این حال، با فرض اینکه گوگل کم و بیش در ادعاهای خود صادق است، در اینجا آنچه که مدل‌های مختلف Gemini پس از عرضه می‌توانند انجام دهند، آورده شده است:

مدل Gemini Ultra

تعداد کمی از مردم تاکنون به Gemini Ultra، مدل «پایه ای» که سایرین بر اساس آن ساخته شده اند، دسترسی داشته اند یعنی فقط «مجموعه ای منتخب» از مشتریان اپلیکیشن ها و خدمات گوگل. بیشتر اطلاعات در مورد Ultra از نسخه‌های نمایشی محصول به رهبری Google گرفته شده است.

گوگل می گوید که Gemini Ultra می تواند برای کمک به مواردی مانند تکالیف فیزیک، حل گام به گام مسائل در یک کاربرگ و اشاره به اشتباهات احتمالی در پاسخ های از قبل پر شده استفاده شود. گوگل می‌گوید Gemini Ultra همچنین می‌تواند برای کارهایی مانند شناسایی مقالات علمی مرتبط با یک مشکل خاص، استخراج اطلاعات از آن مقالات و «به‌روزرسانی» نمودار مقالات با ایجاد فرمول‌های لازم برای ایجاد مجدد نمودار با داده‌های جدیدتر اعمال شود.

همانطور که قبلاً اشاره شد،Gemini Ultra از نظر فنی از تولید تصویر پشتیبانی می کند. اما به گفته گوگل، این قابلیت به نسخه تولید شده این مدل در زمان راه اندازی راه پیدا نمی کند؛ شاید به این دلیل که مکانیسم پیچیده تر از نحوه تولید تصاویر برنامه هایی مانند ChatGPT است. Geminiتصاویر را به‌صورت «بومی» و بدون مرحله‌ای میانجی خروجی می‌دهد.

مدل Gemini Pro

برخلاف Gemini Ultraمدل Gemini Pro به صورت عمومی در دسترس است. اما به طرز گیج کننده ای، قابلیت های آن به محل استفاده آن بستگی دارد.

گوگل می گوید در Bard، جایی که Gemini Pro برای اولین بار به صورت متنی راه اندازی شد، این مدل نسبت به LaMDA در قابلیت های استدلال، برنامه ریزی و درک آن پیشرفت کرده است. یک مطالعه مستقل توسط محققان Carnegie Mellon و BerriAI نشان داد که Gemini Pro در مدیریت زنجیره های استدلال طولانی تر و پیچیده تر از GPT-3.5 مربوط به OpenAI بهتر است.

اما این مطالعه همچنین نشان داد که مانند همه مدل‌های زبانی بزرگ،Gemini Pro به‌ویژه با مشکلات ریاضی مربوط به تعداد رقم ها دست و پنجه نرم می‌کند و کاربران نمونه‌های زیادی از استدلال و اشتباهات بد را در این زمینه یافته‌اند. برای پرسش های ساده ای مانند اینکه چه کسی آخرین جایزه اسکار را برده است، اشتباهات واقعی زیادی ایجاد کرد. گوگل قول بهبودهایی را داده است، اما مشخص نیست که چه زمانی این قول ها به سرانجام برسند.

Gemini Pro همچنین از طریق API در Vertex AI، پلتفرم توسعه‌دهنده هوش مصنوعی کاملاً مدیریت شده گوگل، که متن را به عنوان ورودی می‌پذیرد و متن را به عنوان خروجی تولید می‌کند، در دسترس است. Gemini Pro Vision، می‌تواند متن و تصاویر از جمله عکس‌ها و ویدیوها را پردازش کند و متن را مطابق با مدل OpenAI GPT-4 با مدل Vision تولید کند.

استفاده از Gemini Pro در Vertex AI.

در Vertex AI، توسعه‌دهندگان می‌توانند Gemini Pro را در زمینه‌های خاص سفارشی کنند و از قابلیت ها با استفاده از فرآیند تنظیم دقیق یا grounding استفاده کنند. Gemini Pro همچنین می تواند به API های خارجی و شخص ثالث برای انجام اقدامات خاص متصل شود.

در اوایل سال 2024 مشتریان Vertex می‌توانند از Gemini Pro استفاده کنند تا به عواملی صوتی و چت صدای مکالمه سفارشی (مانند ربات‌های چت) کمک کند. Gemini Pro همچنین به گزینه‌ای برای هدایت ویژگی‌های خلاصه‌سازی جستجو، توصیه‌ها و تولید پاسخ در Vertex AI تبدیل می‌شود و از اسناد در تمام اشکال مانند PDF، تصاویر از منابع مختلف مانند OneDrive،Salesforce استفاده می‌کند تا درخواست‌ها را برآورده کند.

در AI Studioکه یک ابزار مبتنی بر وب گوگل برای توسعه دهندگان برنامه و پلتفرم است ورک فلوهایی برای ایجاد درخواست های چت با استفاده از Gemini Pro وجود دارد. توسعه دهندگان به هر دو اند پوئینت Gemini Pro و Gemini Pro Vision دسترسی دارند.

مدل Gemini Nano

Gemini Nano نسخه بسیار کوچک‌تری از مدل‌های Gemini Pro و Ultra است و به اندازه کافی کارآمد است که به‌جای ارسال کار به یک سرور در جایی، مستقیماً روی (برخی) تلفن‌ها اجرا شود. تاکنون دو ویژگی را در Pixel 8 Pro ارائه می‌کند: خلاصه سازی در Recorder و پاسخ هوشمند در Gboard.

برنامه Recorder که به کاربران امکان می‌دهد دکمه‌ای را برای ضبط و رونویسی صدا فشار دهند، شامل خلاصه‌ای از مکالمات، مصاحبه‌ها، ارائه‌ها و سایر قطعه‌های ضبط‌شده شما با پشتیبانی از Gemini است. کاربران حتی اگر سیگنال یا اتصال Wi-Fi در دسترس نداشته باشند، این خلاصه‌ها را دریافت می‌کنند و از نظر پایبندی به حریم خصوصی، هیچ داده‌ای از تلفن آن‌ها خارج نمی‌شود.

Gemini Nano همچنین درGboard، برنامه صفحه کلید Google، به صورت developer preview است. در آنجا، قابلیتی به نام Smart Reply را تقویت می‌کند که به شما کمک می‌کند تا مورد بعدی را که می‌خواهید هنگام مکالمه در یک برنامه پیام‌رسانی بگویید، پیشنهاد دهید. گوگل می‌گوید این ویژگی در ابتدا فقط با واتس‌اپ کار می‌کند، اما در سال ۲۰۲۴ به اپلیکیشن‌های بیشتری خواهد آمد.

آیا Gemini بهتر از GPT-4 OpenAI است؟

هیچ راهی وجود ندارد که بدانیم خانواده Gemini واقعاً چگونه هستند تا زمانی که گوگل Ultra را در اواخر امسال منتشر کند، اما این شرکت ادعا کرده است که پیشرفت‌هایی در زمینه پیشرفت‌های هنری که معمولاً OpenAI’s GPT-4 است، ارائه می‌کند.

گوگل چندین بار برتری Gemini را در معیارها تبلیغ کرده است و ادعا کرده است که Gemini Ultra در «30 معیار از 32 معیار آکادمیک پرکاربرد مورد استفاده در تحقیق و توسعه مدل های زبانی بزرگ، از نتایج پیشرفته فعلی فراتر رفته است». این شرکت می گوید که Gemini Pro، در عین حال، در کارهایی مانند خلاصه کردن محتوا، طوفان فکری و نوشتن از GPT-3.5 توانایی بیشتری دارد.

اما با کنار گذاشتن این سوال که آیا معیارها واقعاً مدل بهتری را نشان می‌دهند، امتیازاتی که گوگل به آن اشاره می‌کند به نظر می‌رسد تا حدی بهتر از مدل‌های متناظر OpenAI است و همانطور که قبلاً ذکر شد برخی برداشت‌های اولیه از این پلتفرم عالی نبوده‌اند؛ کاربران و دانشگاهیان اشاره می‌کنند که Gemini Pro تمایل دارد حقایق اساسی را اشتباه دریافت کند، با ترجمه‌ها مشکل دارد و پیشنهادات کدنویسی ضعیفی ارائه می‌دهد.

قیمت Gemini چقدر خواهد بود؟

Gemini Pro برای استفاده در Bard و در حال حاضر، AI Studio و Vertex AI رایگان است.

با این حال، هنگامی که Gemini Pro از پیش‌نمایش در Vertex خارج می‌شود، قیمت این مدل 0.0025 دلار برای هر کاراکتر خواهد بود در حالی که هزینه خروجی 0.00005 دلار برای هر کاراکتر خواهد بود. مشتریان Vertex به ازای هر 1000 کاراکتر (حدود 140 تا 250 کلمه) و در مورد مدل هایی مانند Gemini Pro Vision، به ازای هر تصویر (0.0025 دلار) پرداخت می کنند.

فرض کنید یک مقاله 500 کلمه ای شامل 2000 کاراکتر است. خلاصه کردن آن مقاله با Gemini Pro حدود 5 دلار هزینه دارد. در همین حال، تولید مقاله ای با طول مشابه 0.1 دلار هزینه دارد.