همه چیز درباره Google Gemini پلتفرم جدید هوش مصنوعی مولد
گوگل در تلاش است تا با Google Gemini، پلتفرم جدید هوش مصنوعی مولد خود که اخیراً اولین کار خود را آغاز کرده است، در زمینه هوش مصنوعی تحول ایجاد کند. اما در حالی که به نظر میرسد Gemini از چند جنبه امیدوارکننده است، اما در برخی جنبه ها نیز نقص هایی دارد.
برای اینکه راحتتر با آخرین پیشرفتهای Gemini همراه شوید، این راهنمای مفید را گردآوری کردهایم که با انتشار مدلها و ویژگیهای جدید Gemini آن را بهروزرسانی خواهیم کرد. همچنین دیگر مقالات و اخبار هوش مصنوعی را می توانید در بخش هوش مصنوعی ایموجو مطالعه کنید.
Gemini چیست؟
Gemini، نسل بعدی از مدلهای هوش مصنوعی مولد گوگل است که مدتها بود که وعده داده بود، توسط آزمایشگاههای تحقیقاتی هوش مصنوعی گوگل DeepMind و Google Research توسعه یافته است. در سه مدل موجود است:
- مدل پرچمدار Gemini: Gemini Ultra
- مدل لایت Gemini: Gemini Pro
- مدل فشرده که روی دستگاههای تلفن همراه مانند Pixel 8 Pro اجرا می شود: Gemini Nano
همه مدلهای Gemini طوری آموزش داده شدهاند که «بهطور بومی چندوجهی» باشند؛ به عبارت دیگر، قادر به کار و استفاده بیشتر از متن هستند. آنها از قبل آموزش دیده اند و روی انواع صدا، تصاویر و ویدئوها، مجموعه بزرگی از پایگاه های کد و متن به زبان های مختلف تنظیم شده اند. این موضوع Gemini را از مدلهایی مانند مدل LaMDA زبان بزرگ خود گوگل که فقط بر روی دادههای متنی آموزش داده شده بود، متمایز میکند. LaMDA نمی تواند چیزی غیر از متن را بفهمد یا تولید کند (مثلاً مقاله، پیش نویس ایمیل و غیره)؛ اما در مدل های Gemini اینطور نیست. توانایی آنها برای درک تصاویر، صدا و سایر روش ها هنوز محدود است، اما بهتر از هیچ است.
تفاوت Bard و Gemini چیست؟
گوگل که بار دیگر ثابت کرد که در برندسازی مهارت ندارد، از همان ابتدا مشخص نکرد که Gemini از چت بات Bard جدا و متمایز است. Bard یک رابط است که از طریق آن می توان به برخی از مدل های Gemini دسترسی داشت؛ بارد را به عنوان یک اپ یا کلایننت برای Gemini و سایر مدل های هوش مصنوعی در نظر بگیرید. از سوی دیگر، Gemini خانواده ای از مدلها است نه یک اپلیکیشن یا فرانتاند. هیچ تجربه مستقلی از Gemini وجود ندارد و احتمالاً هرگز وجود نخواهد داشت. اگر بخواهید با محصولات OpenAI مقایسه کنید،Bard با ChatGPT (برنامه محبوب هوش مصنوعی مکالمه OpenAI) مربوط است و Gemini مطابق با مدل زبانی است که آن را تقویت می کند، که در مورد ChatGPT این مورد GPT-3.5 یا 4 است.
اتفاقاً،Gemini از Imagen-2 نیز کاملاً مستقل است. Imagen-2 یک مدل متن به تصویر است که ممکن است در استراتژی کلی هوش مصنوعی شرکت قرار بگیرد یا نباشد.
Gemini چه کاری می تواند انجام دهد؟
از آنجایی که مدلهای Gemini چندوجهی هستند، در تئوری میتوانند طیف وسیعی از وظایف را انجام دهند، از رونویسی گفتار گرفته تا زیرنویس تصاویر و ویدیوها و تولید آثار هنری. تعداد کمی از این قابلیتها هنوز به مرحله محصول رسیدهاند اما گوگل بیشتر آنها را در آیندهای نه چندان دور وعده میدهد.
البته، پذیرفتن وعده های گوگل کمی سخت است.
گوگل در مورد Bard نیز به طور جدی به وعده های خود عمل نکرد. اخیراً با ویدئویی که ادعا میکرد تواناییهای Gemini را نشان میدهد، کم و بیش بلند پروازانه رفتار کرده است. Gemini امروزه به شکلی نسبتا محدود در دسترس است.
با این حال، با فرض اینکه گوگل کم و بیش در ادعاهای خود صادق است، در اینجا آنچه که مدلهای مختلف Gemini پس از عرضه میتوانند انجام دهند، آورده شده است:
-
مدل Gemini Ultra
تعداد کمی از مردم تاکنون به Gemini Ultra، مدل «پایه ای» که سایرین بر اساس آن ساخته شده اند، دسترسی داشته اند یعنی فقط «مجموعه ای منتخب» از مشتریان اپلیکیشن ها و خدمات گوگل. بیشتر اطلاعات در مورد Ultra از نسخههای نمایشی محصول به رهبری Google گرفته شده است.
گوگل می گوید که Gemini Ultra می تواند برای کمک به مواردی مانند تکالیف فیزیک، حل گام به گام مسائل در یک کاربرگ و اشاره به اشتباهات احتمالی در پاسخ های از قبل پر شده استفاده شود. گوگل میگوید Gemini Ultra همچنین میتواند برای کارهایی مانند شناسایی مقالات علمی مرتبط با یک مشکل خاص، استخراج اطلاعات از آن مقالات و «بهروزرسانی» نمودار مقالات با ایجاد فرمولهای لازم برای ایجاد مجدد نمودار با دادههای جدیدتر اعمال شود.
همانطور که قبلاً اشاره شد،Gemini Ultra از نظر فنی از تولید تصویر پشتیبانی می کند. اما به گفته گوگل، این قابلیت به نسخه تولید شده این مدل در زمان راه اندازی راه پیدا نمی کند؛ شاید به این دلیل که مکانیسم پیچیده تر از نحوه تولید تصاویر برنامه هایی مانند ChatGPT است. Geminiتصاویر را بهصورت «بومی» و بدون مرحلهای میانجی خروجی میدهد.
-
مدل Gemini Pro
برخلاف Gemini Ultraمدل Gemini Pro به صورت عمومی در دسترس است. اما به طرز گیج کننده ای، قابلیت های آن به محل استفاده آن بستگی دارد.
گوگل می گوید در Bard، جایی که Gemini Pro برای اولین بار به صورت متنی راه اندازی شد، این مدل نسبت به LaMDA در قابلیت های استدلال، برنامه ریزی و درک آن پیشرفت کرده است. یک مطالعه مستقل توسط محققان Carnegie Mellon و BerriAI نشان داد که Gemini Pro در مدیریت زنجیره های استدلال طولانی تر و پیچیده تر از GPT-3.5 مربوط به OpenAI بهتر است.
اما این مطالعه همچنین نشان داد که مانند همه مدلهای زبانی بزرگ،Gemini Pro بهویژه با مشکلات ریاضی مربوط به تعداد رقم ها دست و پنجه نرم میکند و کاربران نمونههای زیادی از استدلال و اشتباهات بد را در این زمینه یافتهاند. برای پرسش های ساده ای مانند اینکه چه کسی آخرین جایزه اسکار را برده است، اشتباهات واقعی زیادی ایجاد کرد. گوگل قول بهبودهایی را داده است، اما مشخص نیست که چه زمانی این قول ها به سرانجام برسند.
Gemini Pro همچنین از طریق API در Vertex AI، پلتفرم توسعهدهنده هوش مصنوعی کاملاً مدیریت شده گوگل، که متن را به عنوان ورودی میپذیرد و متن را به عنوان خروجی تولید میکند، در دسترس است. Gemini Pro Vision، میتواند متن و تصاویر از جمله عکسها و ویدیوها را پردازش کند و متن را مطابق با مدل OpenAI GPT-4 با مدل Vision تولید کند.
استفاده از Gemini Pro در Vertex AI.
در Vertex AI، توسعهدهندگان میتوانند Gemini Pro را در زمینههای خاص سفارشی کنند و از قابلیت ها با استفاده از فرآیند تنظیم دقیق یا grounding استفاده کنند. Gemini Pro همچنین می تواند به API های خارجی و شخص ثالث برای انجام اقدامات خاص متصل شود.
در اوایل سال 2024 مشتریان Vertex میتوانند از Gemini Pro استفاده کنند تا به عواملی صوتی و چت صدای مکالمه سفارشی (مانند رباتهای چت) کمک کند. Gemini Pro همچنین به گزینهای برای هدایت ویژگیهای خلاصهسازی جستجو، توصیهها و تولید پاسخ در Vertex AI تبدیل میشود و از اسناد در تمام اشکال مانند PDF، تصاویر از منابع مختلف مانند OneDrive،Salesforce استفاده میکند تا درخواستها را برآورده کند.
در AI Studioکه یک ابزار مبتنی بر وب گوگل برای توسعه دهندگان برنامه و پلتفرم است ورک فلوهایی برای ایجاد درخواست های چت با استفاده از Gemini Pro وجود دارد. توسعه دهندگان به هر دو اند پوئینت Gemini Pro و Gemini Pro Vision دسترسی دارند.
-
مدل Gemini Nano
Gemini Nano نسخه بسیار کوچکتری از مدلهای Gemini Pro و Ultra است و به اندازه کافی کارآمد است که بهجای ارسال کار به یک سرور در جایی، مستقیماً روی (برخی) تلفنها اجرا شود. تاکنون دو ویژگی را در Pixel 8 Pro ارائه میکند: خلاصه سازی در Recorder و پاسخ هوشمند در Gboard.
برنامه Recorder که به کاربران امکان میدهد دکمهای را برای ضبط و رونویسی صدا فشار دهند، شامل خلاصهای از مکالمات، مصاحبهها، ارائهها و سایر قطعههای ضبطشده شما با پشتیبانی از Gemini است. کاربران حتی اگر سیگنال یا اتصال Wi-Fi در دسترس نداشته باشند، این خلاصهها را دریافت میکنند و از نظر پایبندی به حریم خصوصی، هیچ دادهای از تلفن آنها خارج نمیشود.
Gemini Nano همچنین درGboard، برنامه صفحه کلید Google، به صورت developer preview است. در آنجا، قابلیتی به نام Smart Reply را تقویت میکند که به شما کمک میکند تا مورد بعدی را که میخواهید هنگام مکالمه در یک برنامه پیامرسانی بگویید، پیشنهاد دهید. گوگل میگوید این ویژگی در ابتدا فقط با واتساپ کار میکند، اما در سال ۲۰۲۴ به اپلیکیشنهای بیشتری خواهد آمد.
آیا Gemini بهتر از GPT-4 OpenAI است؟
هیچ راهی وجود ندارد که بدانیم خانواده Gemini واقعاً چگونه هستند تا زمانی که گوگل Ultra را در اواخر امسال منتشر کند، اما این شرکت ادعا کرده است که پیشرفتهایی در زمینه پیشرفتهای هنری که معمولاً OpenAI’s GPT-4 است، ارائه میکند.
گوگل چندین بار برتری Gemini را در معیارها تبلیغ کرده است و ادعا کرده است که Gemini Ultra در «30 معیار از 32 معیار آکادمیک پرکاربرد مورد استفاده در تحقیق و توسعه مدل های زبانی بزرگ، از نتایج پیشرفته فعلی فراتر رفته است». این شرکت می گوید که Gemini Pro، در عین حال، در کارهایی مانند خلاصه کردن محتوا، طوفان فکری و نوشتن از GPT-3.5 توانایی بیشتری دارد.
اما با کنار گذاشتن این سوال که آیا معیارها واقعاً مدل بهتری را نشان میدهند، امتیازاتی که گوگل به آن اشاره میکند به نظر میرسد تا حدی بهتر از مدلهای متناظر OpenAI است و همانطور که قبلاً ذکر شد برخی برداشتهای اولیه از این پلتفرم عالی نبودهاند؛ کاربران و دانشگاهیان اشاره میکنند که Gemini Pro تمایل دارد حقایق اساسی را اشتباه دریافت کند، با ترجمهها مشکل دارد و پیشنهادات کدنویسی ضعیفی ارائه میدهد.
قیمت Gemini چقدر خواهد بود؟
Gemini Pro برای استفاده در Bard و در حال حاضر، AI Studio و Vertex AI رایگان است.
با این حال، هنگامی که Gemini Pro از پیشنمایش در Vertex خارج میشود، قیمت این مدل 0.0025 دلار برای هر کاراکتر خواهد بود در حالی که هزینه خروجی 0.00005 دلار برای هر کاراکتر خواهد بود. مشتریان Vertex به ازای هر 1000 کاراکتر (حدود 140 تا 250 کلمه) و در مورد مدل هایی مانند Gemini Pro Vision، به ازای هر تصویر (0.0025 دلار) پرداخت می کنند.
فرض کنید یک مقاله 500 کلمه ای شامل 2000 کاراکتر است. خلاصه کردن آن مقاله با Gemini Pro حدود 5 دلار هزینه دارد. در همین حال، تولید مقاله ای با طول مشابه 0.1 دلار هزینه دارد.