AD

عملکرد بهتر هوش مصنوعی Chinchilla در فشرده‌سازی داده‌ها

0 155

مطالعه‌ای با عنوان Language Modeling Is Compression توسط DeepMind صورت گرفته است که نتیجه آن دستیابی به یک مدل زبانی بزرگ (large language model (LLM)) به نام Chinchilla 70B و توانایی آن در انجام فشرده‌سازی داده‌ها بدون اتلاف و بهتر از FLAC برای صدا و PNG برای تصاویر است.

Chinchilla 70B می‌تواند به طور قابل توجهی اندازه پچ‌های تصویر را (از پایگاه داده ImageNet) کوچک کند و آنها را به 43.4٪ از اندازه اصلی خود بدون از دست دادن جزئیات کاهش دهد. این عملکرد بهتر از الگوریتم PNG است که فقط می‌تواند اندازه تصویر را تا 58.5٪ کاهش دهد.

علاوه بر این، Chinchilla داده‌های صوتی (از مجموعه داده صوتی LibriSpeech) را تا 16.4 درصد اندازه واقعی آنها فشرده می‌کند.

فشرده سازی بدون اتلاف به این معنی است که وقتی داده‌ها در بسته‌های کوچکتر فشرده می‌شوند، چیزی از بین نمی‌رود یا حذف نمی‌شود. این با فشرده سازی با اتلاف، که فرمت فشرده سازی تصویر JPEG از آن استفاده می‌کند، متفاوت است.

یافته‌های این مطالعه نشان می‌دهد که اگرچه Chinchilla 70B بیشتر برای کار با متن ساخته شده است، اما به طرز شگفت‌آوری در کوچک‌تر کردن انواع دیگر داده‌ها نیز مهارت دارد.

شاید بخوانید: بهترین سایت ها و ربات های هوش مصنوعی ساخت عکس

محققان این مطالعه پیشنهاد می‌کنند که پیش‌بینی و فشرده‌سازی داده‌ها به هر دو صورت انجام می‌شود. این بدان معناست که اگر ابزار خوبی برای کوچک‌تر کردن داده‌ها مانند gzip دارید، می‌توانید از آن برای ایجاد اطلاعات جدید بر اساس آنچه در طول کل فرآیند کوچک‌تر کردن داده‌ها یاد گرفته است استفاده کنید.

در بخشی از تحقیقات خود، آنها این ایده را با تلاش برای ایجاد متن، تصاویر و صدای جدید با استفاده از gzip و ابزار دیگری به نام Chinchilla، پس از ارائه نمونه‌ای از داده‌ها، آزمایش کردند. همانطور که انتظار می‌رفت، gzip عالی عمل نکرد.

این نشان می‌دهد که در حالی که gzip می‌تواند داده ایجاد کند، ممکن است این داده‌ها معنادارتر باشند. از سوی دیگر، Chinchilla، که به طور خاص برای پردازش زبان ساخته شده است، در ایجاد نتایج جدید و معنادار بسیار بهتر عمل کرد.

تقریباً 20 سال پیش، محققان استدلال کردند که فشرده‌سازی نوعی هوش عمومی است و می‌گفتند که فشرده‌سازی متن به طور ایده‌آل، در صورت امکان، معادل گذراندن آزمون Turing برای هوش مصنوعی است.

این ایده که کوچک‌تر کردن داده‌ها به هوش مرتبط است موضوعی است که احتمالاً در آینده درباره آن خواهیم شنید.

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.