Yandex, GPU Kaynaklarında Tasarruf Sağlayan LLM Eğitim Aracını Açık Kaynak Olarak Kullanıma Sundu
Yandex, daha hızlı ve daha verimli büyük dil modeli (LLM) eğitimi için yeni yöntemi YaFSDP'yi tanıttı. İşte detaylar...
Küresel teknoloji şirketi Yandex, büyük dil modellerinin (Large Language Model-LLM) eğitimi için yeni ve açık kaynaklı bir yöntem olan YaFSDP'yi tanıttı.
YaFSDP şu anda GPU iletişimini geliştirmek ve LLM eğitiminde bellek kullanımını azaltmak için en etkili yöntemlerden biri olarak öne çıkıyor. Yöntemin, mimariye ve parametre sayısına bağlı olarak FSDP'ye kıyasla yüzde 26'ya varan hızlanma sunduğu iddia ediliyor. YaFSDP kullanımıyla LLM'lerin eğitim süresinin azaltılması, GPU kaynaklarında yüzde 20'ye varan tasarruf sağlaması hedefleniyor.
Küresel yapay zeka topluluğunun gelişimine bir katkı sunmak amacıyla Yandex, YaFSDP'yi dünya çapındaki LLM geliştiricilerinin ve yapay zeka meraklılarının kullanımına açtı. Yandex'te kıdemli geliştirici olarak görev yapan ve YaFSDP'nin arkasındaki ekibin parçası olan Mikhail Khruschev, konu hakkında şunları söyledi: “Şu anda YaFSDP'nin çok yönlülüğünü genişletmek için çeşitli model mimarileri ve parametre boyutları üzerinde aktif olarak deneyler yapıyoruz. LLM eğitimindeki gelişmelerimizi küresel ML topluluğuyla paylaşmaktan, dünya genelindeki araştırmacılar ve geliştiriciler için erişilebilirliğin ve verimliliğin artmasına katkıda bulunmaktan heyecan duyuyoruz.”
Türkiye’de yer alan çeşitli teknoloji ve finans kuruluşları, Türkçe dil modelleri geliştirerek bu alanda dünya çapında önemli projelere imza atıyor. Yandex, Türkiye’de geliştirilen bu büyük dil modellerinin, Yandex’in sunduğu YaFSDP yöntemi ile önemli avantajlar elde edebileceği belirtiyor. YaFSDP’nin sunduğu GPU tasarrufları ve eğitim hızlandırmalarının, bu projelerin daha verimli ve maliyet etkin bir şekilde gerçekleştirilmesine katkıda bulunabileceği söyleniyor. Yandex, özellikle dil modeli eğitimi sırasında GPU kaynaklarında yüzde 20’ye varan tasarruf sağlanması ve yüzde 26’ya kadar hızlanma elde edilmesinin, bu projelerin hem ekonomik hem de operasyonel açıdan daha sürdürülebilir olmasını sağlayabileceğini iddia ediyor.
LLM’lerin eğitimi zaman alıcı ve yoğun kaynak gerektiren bir süreç olduğundan, kendi LLM'lerini geliştirmek isteyen makine öğrenimi mühendisleri ve şirketler, bu modellerin eğitimi için önemli miktarda zaman ve GPU kaynağı, dolayısıyla para harcamak zorunda kalıyor. Model ne kadar büyükse, eğitimi için gereken zaman ve masraf da o kadar artıyor. Yandex YaFSDP ise GPU iletişimindeki verimsizliği ortadan kaldırarak GPU etkileşimlerini kesintisiz hale getirmeyi ve eğitimin yalnızca gerektiği kadar işlem belleği kullanmasını sağlamayı hedefliyor.
Yandex'in belirttiğine göre, örneğin 70 milyar parametreli bir modeli içeren ön eğitim senaryosunda, YaFSDP kullanmak yaklaşık 150 GPU kaynağına denk tasarruf sağlama potansiyeline sahip. Bu da sanal GPU sağlayıcısına veya platformuna bağlı olarak ayda kabaca 500 bin ila 1,5 milyon dolar tasarruf anlamına geliyor.
Bu konuda fikirlerini beyan eden Mikhail Khruschev, “YaFSDP, 13 ila 70 milyar parametre arasında değişen modellerde etkileyici sonuçlar gösterdi ve özellikle 30 ila 70 milyar aralığında güçlü bir performans sergiledi. YaFSDP, şu an LLaMA mimarisine dayalı yaygın olarak kullanılan açık kaynaklı modeller arasında en uygun olanıdır” diyor.
Bununla birlikte YaFSDP, Yandex'in sunduğu ilk açık kaynaklı araç değil. Şirket daha önce ML topluluğu arasında popüler hale gelen başka araçlar da paylaşmıştı. Bu araçlar arasında şunlar yer alıyor:
- CatBoost: karar ağaçlarında gradyan artırma için yüksek performanslı kütüphane.
- YTsaurus: dağıtık depolama ve işleme için büyük veri platformu.
- AQLM: Yandex Araştırma, HSE Üniversitesi, Skoltech, IST Avusturya ve NeuralMagic tarafından ortaklaşa geliştirilen büyük dil modellerinin aşırı sıkıştırılması için en gelişmiş niceleme algoritması.
- Petals: Yandex Research, HSE University, University of Washington, Hugging Face, ENS Paris-Saclay ve Yandex School of Data Analysis işbirliğiyle geliştirilen, LLM'lerin eğitim ve ince ayar sürecini basitleştirmek için tasarlanmış kütüphane.