Yandex Araştırmaları Yapay Zeka Dağıtım Maliyetlerini 8 Kata Kadar Azalttığını Gösteriyor

Yandex Araştırma ekibi, IST Austria, NeuralMagic ve KAUST araştırmacılarla iş birliği yaparak büyük dil modelleri için 2 yeni sıkıştırma yöntemi geliştirdiğini açıkladı: Dil Modelleri için Eklemeli Niceleme (AQLM) ve PV-Tuning. Bu yöntemler bir araya getirildiğinde model boyutunda 8 kata kadar azalma sağlandığını iddia eden araştırma ekibi, aynı zamanda yanıt kalitesinin yüzde 95 oranında korunduğunu söylüyor. Kaynakları optimize etmeyi ve büyük dil modellerinin çalıştırılmasında verimliliği artırmayı amaçlayan bu yeni yaklaşımın detaylarına dair makale, şu an Viyana, Avusturya'da devam etmekte olan Uluslararası Makine Öğrenimi Konferansı'nda (ICML) yer alıyor.

Peki, araştırma ekibinin bahsettiği Dil Modelleri için Eklemeli Niceleme (AQLM) ve PV-Tuning nedir?

AQLM ve PV-Tuning'in temel özellikleri

AQLM, LLM sıkıştırması için geleneksel olarak bilgi erişiminde kullanılan eklemeli niceleme yönteminden yararlanıyor. Ortaya çıkan yöntem aşırı sıkıştırma altında modelin doğruluğunu koruyup geliştiriyor, böylece LLM'lerin ev bilgisayarları gibi günlük cihazlarda yaygınlaştırılmasını mümkün kılıyor. Bu, bellek tüketiminde önemli bir azalmaya neden oluyor.

PV-Tuning ise model sıkıştırma işlemi sırasında ortaya çıkabilecek hataları gideriyor. AQLM ve PV-Tuning birleştirildiğinde, sınırlı bilgi işlem kaynaklarında bile yüksek kalitede yanıtlar sağlayabilen kompakt bir model eşliğinde optimum sonuçlar sunuyor.

Yöntem değerlendirme ve tanıma

Sunulan yöntemlerin etkinliği, LLama 2, Mistral ve Mixtral gibi popüler açık kaynaklı modeller kullanılarak titizlikle değerlendirilmiş. Araştırmacılar bu büyük dil modellerini sıkıştırarak cevap kalitesini İngilizce karşılaştırma ölçütleri olan WikiText2 ve C4 ile değerlendirdiklerini söylüyorlar. Modeller 8 kat sıkıştırılmalarına rağmen yüzde 95 gibi bir oranda cevap kalitesini korumayı başarmış.

AQLM ve PV-Tuning'den kimler yararlanabilir

Peki, buraya kadar her şey tamam. Ancak AQLM ve PV-Tuning yöntemlerinden kimler yararlanabilir?

Yandex araştırma ekibi, yeni yöntemlerin tescilli dil modellerini ve açık kaynaklı LLM'leri geliştiren ve dağıtan şirketler için önemli ölçüde kaynak tasarrufu sağlayacağını söylüyor. Örneğin sıkıştırma sonrası 13 milyar parametreye sahip Llama 2 modeli artık 4 yerine sadece 1 GPU üzerinde çalışarak donanım maliyetlerinde 8 kata kadar azalma sağlanabilir. Bu da girişimlerin, bireysel araştırmacıların ve LLM meraklılarının Llama gibi gelişmiş LLM'leri günlük kullandıkları bilgisayarlarda çalıştırabilecekleri anlamına geliyor.

Yeni LLM uygulamalarını keşfetmek

AQLM ve PV-Tuning'in, modellerin sınırlı hesaplama kaynaklarına sahip cihazlarda çevrimdışı olarak dağıtılmasını mümkün kılarak, akıllı telefonlar, akıllı hoparlörler ve daha fazlası için yeni kullanım alanları da sağlayabileceğini söyleyen araştırmacılar, bu cihazlara entegre edilen gelişmiş LLM'ler sayesinde, kullanıcıların metin ve görüntü oluşturma, sesli yardım, kişiselleştirilmiş öneriler ve hatta gerçek zamanlı dil çevirisini aktif bir internet bağlantısına ihtiyaç duymadan kullanabileceklerini de belirtiyor.

Uygulama ve erişim

Şu anda Dünya genelindeki geliştiriciler ve araştırmacılar, GitHub'da bulunan AQLM ve PV-Tuning'i kullanabiliyor. Geliştiriciler tarafından sağlanan demo materyalleri, çeşitli uygulamalar için sıkıştırılmış LLM'leri etkili bir şekilde eğitmek için rehberlik sunuyor. Ayrıca geliştiriciler, bu yöntemler kullanılarak sıkıştırılmış popüler açık kaynaklı modelleri indirebiliyorlar.

ICML’de öne çıktı

Yandex Research'ün AQLM sıkıştırma yöntemine ilişkin bilimsel makalesi, dünyanın en prestijli makine öğrenimi konferanslarından biri olan ICML'de yayınlanmış. IST Austria'dan araştırmacılar ve yapay zeka girişimi Neural Magic'ten uzmanlarla birlikte hazırlanan bu çalışma, LLM sıkıştırma teknolojisinde önemli bir ilerleme anlamına geliyor.