Elon Musk tarafından kurulan OpenAI rakibi xAI, yapay zekası Grok'un görsel bilgileri işleyebilen ilk sürümünü tanıttı. Grok-1.5V, şirketin sadece metin değil, aynı zamanda belgeler, diyagramlar, grafikler, ekran görüntüleri ve fotoğrafları da işleyebilen ilk nesil multimodal yapay zeka modeli.
xAI yaptığı duyuruda, Grok'un yeteneklerinin gerçek dünyada nasıl kullanılabileceğine dair bazı örneklere de yer verdi. Bu örneklere göre, Grok'a bir akış şemasının fotoğrafını gösterip bunu Python koduna çevirmesini, bir çizime dayanarak bir hikaye yazmasını ve hatta anlayamadığınız bir meme'i açıklamasını isteyebileceksiniz.
Yeni sürüm, şirketin Grok-1.5'i tanıtımından sadece birkaç hafta sonra geldi. Bu modelin, selefine göre kodlama ve matematikte daha iyi olmanın yanı sıra, belirli sorguları daha iyi anlamak için daha fazla kaynaktan gelen verileri kontrol edebildiği, daha uzun bağlamları işleyebilecek şekilde tasarlandığı belirtiliyor. xAI, ilk test kullanıcılarının ve mevcut kullanıcılarının yakında Grok-1.5V'nin yeteneklerinden yararlanabileceğini söylese de kullanıma sunulacağı zaman konusunda kesin bir tarih vermedi.
Şirket, Grok-1.5V'yi tanıtmanın yanı sıra RealWorldQA adını verdiği bir kıyaslama veri seti de yayınladı. Şirketin açılamasına göre, kullanıcılar RealWorldQA'nın 700 görselinden herhangi birini yapay zeka modellerini değerlendirmek için kullanabilecek. Her öğe kolayca doğrulanabilecek ve Grok gibi çok modlu modelleri zorlayabilecek sorular ve cevaplar içerecek. xAI, ayrıca teknolojisinin RealWorldQA ile OpenAI'ın GPT-4V ve Google Gemini Pro 1.5 gibi rakiplerine karşı test edildiğinde en yüksek puanı aldığını iddia etti.