عملکرد بهتر هوش مصنوعی Chinchilla در فشردهسازی دادهها
مطالعهای با عنوان Language Modeling Is Compression توسط DeepMind صورت گرفته است که نتیجه آن دستیابی به یک مدل زبانی بزرگ (large language model (LLM)) به نام Chinchilla 70B و توانایی آن در انجام فشردهسازی دادهها بدون اتلاف و بهتر از FLAC برای صدا و PNG برای تصاویر است.
Chinchilla 70B میتواند به طور قابل توجهی اندازه پچهای تصویر را (از پایگاه داده ImageNet) کوچک کند و آنها را به 43.4٪ از اندازه اصلی خود بدون از دست دادن جزئیات کاهش دهد. این عملکرد بهتر از الگوریتم PNG است که فقط میتواند اندازه تصویر را تا 58.5٪ کاهش دهد.
علاوه بر این، Chinchilla دادههای صوتی (از مجموعه داده صوتی LibriSpeech) را تا 16.4 درصد اندازه واقعی آنها فشرده میکند.
فشرده سازی بدون اتلاف به این معنی است که وقتی دادهها در بستههای کوچکتر فشرده میشوند، چیزی از بین نمیرود یا حذف نمیشود. این با فشرده سازی با اتلاف، که فرمت فشرده سازی تصویر JPEG از آن استفاده میکند، متفاوت است.
یافتههای این مطالعه نشان میدهد که اگرچه Chinchilla 70B بیشتر برای کار با متن ساخته شده است، اما به طرز شگفتآوری در کوچکتر کردن انواع دیگر دادهها نیز مهارت دارد.
شاید بخوانید: بهترین سایت ها و ربات های هوش مصنوعی ساخت عکس
محققان این مطالعه پیشنهاد میکنند که پیشبینی و فشردهسازی دادهها به هر دو صورت انجام میشود. این بدان معناست که اگر ابزار خوبی برای کوچکتر کردن دادهها مانند gzip دارید، میتوانید از آن برای ایجاد اطلاعات جدید بر اساس آنچه در طول کل فرآیند کوچکتر کردن دادهها یاد گرفته است استفاده کنید.
در بخشی از تحقیقات خود، آنها این ایده را با تلاش برای ایجاد متن، تصاویر و صدای جدید با استفاده از gzip و ابزار دیگری به نام Chinchilla، پس از ارائه نمونهای از دادهها، آزمایش کردند. همانطور که انتظار میرفت، gzip عالی عمل نکرد.
این نشان میدهد که در حالی که gzip میتواند داده ایجاد کند، ممکن است این دادهها معنادارتر باشند. از سوی دیگر، Chinchilla، که به طور خاص برای پردازش زبان ساخته شده است، در ایجاد نتایج جدید و معنادار بسیار بهتر عمل کرد.
تقریباً 20 سال پیش، محققان استدلال کردند که فشردهسازی نوعی هوش عمومی است و میگفتند که فشردهسازی متن به طور ایدهآل، در صورت امکان، معادل گذراندن آزمون Turing برای هوش مصنوعی است.
این ایده که کوچکتر کردن دادهها به هوش مرتبط است موضوعی است که احتمالاً در آینده درباره آن خواهیم شنید.