عملکرد بهتر هوش مصنوعی Chinchilla در فشرده‌سازی داده‌ها

بوسیله لیلا سلطانی در 8 مهر 1402 به روز رسانی شده در 8 مهر 1402

مطالعه‌ای با عنوان Language Modeling Is Compression توسط DeepMind صورت گرفته است که نتیجه آن دستیابی به یک مدل زبانی بزرگ (large language model (LLM)) به نام Chinchilla 70B و توانایی آن در انجام فشرده‌سازی داده‌ها بدون اتلاف و بهتر از FLAC برای صدا و PNG برای تصاویر است.

بنر بعد از x پاراگراف در هر مقاله- دسکتاب

بنر بعد از x پاراگراف در هر مقاله-موبایل

Chinchilla 70B می‌تواند به طور قابل توجهی اندازه پچ‌های تصویر را (از پایگاه داده ImageNet) کوچک کند و آنها را به 43.4٪ از اندازه اصلی خود بدون از دست دادن جزئیات کاهش دهد. این عملکرد بهتر از الگوریتم PNG است که فقط می‌تواند اندازه تصویر را تا 58.5٪ کاهش دهد.

علاوه بر این، Chinchilla داده‌های صوتی (از مجموعه داده صوتی LibriSpeech) را تا 16.4 درصد اندازه واقعی آنها فشرده می‌کند.

حتما ببینید

9 روش ساده برای تشخیص تصاویر هوش مصنوعی در سال 2024

26 فروردین 1403

هوش مصنوعی Google Photos توسط گوگل برای همه کاربران

24 فروردین 1403

چت بات جدید هوش مصنوعی مایکروسافت برای ایکس باکس

15 فروردین 1403

قابلیت AI message summaries در Android Auto اکنون در دسترس…

13 اسفند 1402

فشرده سازی بدون اتلاف به این معنی است که وقتی داده‌ها در بسته‌های کوچکتر فشرده می‌شوند، چیزی از بین نمی‌رود یا حذف نمی‌شود. این با فشرده سازی با اتلاف، که فرمت فشرده سازی تصویر JPEG از آن استفاده می‌کند، متفاوت است.

یافته‌های این مطالعه نشان می‌دهد که اگرچه Chinchilla 70B بیشتر برای کار با متن ساخته شده است، اما به طرز شگفت‌آوری در کوچک‌تر کردن انواع دیگر داده‌ها نیز مهارت دارد.

شاید بخوانید: بهترین سایت ها و ربات های هوش مصنوعی ساخت عکس

محققان این مطالعه پیشنهاد می‌کنند که پیش‌بینی و فشرده‌سازی داده‌ها به هر دو صورت انجام می‌شود. این بدان معناست که اگر ابزار خوبی برای کوچک‌تر کردن داده‌ها مانند gzip دارید، می‌توانید از آن برای ایجاد اطلاعات جدید بر اساس آنچه در طول کل فرآیند کوچک‌تر کردن داده‌ها یاد گرفته است استفاده کنید.

در بخشی از تحقیقات خود، آنها این ایده را با تلاش برای ایجاد متن، تصاویر و صدای جدید با استفاده از gzip و ابزار دیگری به نام Chinchilla، پس از ارائه نمونه‌ای از داده‌ها، آزمایش کردند. همانطور که انتظار می‌رفت، gzip عالی عمل نکرد.

این نشان می‌دهد که در حالی که gzip می‌تواند داده ایجاد کند، ممکن است این داده‌ها معنادارتر باشند. از سوی دیگر، Chinchilla، که به طور خاص برای پردازش زبان ساخته شده است، در ایجاد نتایج جدید و معنادار بسیار بهتر عمل کرد.

تقریباً 20 سال پیش، محققان استدلال کردند که فشرده‌سازی نوعی هوش عمومی است و می‌گفتند که فشرده‌سازی متن به طور ایده‌آل، در صورت امکان، معادل گذراندن آزمون Turing برای هوش مصنوعی است.

این ایده که کوچک‌تر کردن داده‌ها به هوش مرتبط است موضوعی است که احتمالاً در آینده درباره آن خواهیم شنید.