Geçen yıl Eylül ayında Microsoft, konuşma tanımada %6.3 ile en düşük kelime hata oranına (word error rate, WER) eriştiğini açıklamıştı. Microsoft'tan önce rekor %6.9 ile IBM'in elindeydi. Bir kaç ay ardından Microsoft yaptığı yeni açıklamada hata oranını %5.9'a kadar indirdiğini bildirmişti. Şirket bu skorun insan hata oranına eş değer olduğuna inandığını söylemişti.
Şimdiyse, Microsoft'un bir kaç önceki iddiasının üzerine, IBM konuşma tanımada hata oranını %5.5'e düşürdü ve bunun bile ancak insana yaklaşabildiğini açıkladı.
IBM'in iddiasına göre, konuşma tanıma hata oranının %5.5'e düşmesiyle birlikte, insan hata oranın düşünülenden daha bile düşük olduğu anlaşılmış: "İnsan hata oranına ulaşmak - yani iki insan arasındaki iletişimin hata oranına ulaşmak - uzun zamandan beri bu endüstrinin hedefi durumunda. Endüstrideki diğer şirketler de bizimle birlikte aynı hedefi kovalıyor, bazıları %5.9'luk insan hata oranına eriştiklerini iddia ediyorlar... Ancak biz bu sayının ötesine geçmemize rağmen şampanyayı patlatmıyoruz. Bugün kırdığımız rekora erişirken insan hata oranının aslında henüz kimsenin ulaşamadığı %5.1 olduğunu fark ettik."
Şirket %5.5'lik hata oranına Kısa Uzun-Vadeli Hafıza (Long Short-Term Memory, LSTM) ve WaveNet dil modelini üç güçlü akustik modelle kullanarak eriştiklerini açıkladı. Ardından hata oranı ise SWITCHBOARD ve CallHome kitaplığı kullanılarak ölçüldü.
IBM şu anda endüstrideki en düşük hata oranına sahip ve insan hata oranına ulaşana dek çalışmaya devam edecek. Şirket, konuşma tanıma teknolojisi onlarca yıllık emeğin üzerine kurulu olduğunu ve insan kulağı, sesi ve beyninin nasıl birlikte çalıştığını araştırmaya devam edeceğini söyledi.