Amazon, yapay zeka alanında değerli bir adım atarak yeni kuşak sesli yapay zeka modeli Nova Sonic‘i duyurdu. Şirketin yaptığı açıklamaya nazaran Nova Sonic, doğal konuşmalar üretme ve sesli komutları manaya konusunda OpenAI ve Google üzere devlerin öncü modelleriyle yarışacak seviyede performans sunuyor.
Nova Sonic, Amazon’un erken devir dijital asistanı Alexa’dan çok daha esnek ve insan gibisi bir konuşma tecrübesi sunuyor. Teknolojik ilerlemeler sayesinde artık Alexa ve Siri üzere eski dijital asistanlar, yeni jenerasyon yapay zeka modelleriyle karşılaştırıldığında epey mekanik kalıyor. Nova Sonic ise bu algıyı değiştirmeye hazırlanıyor.
En uygun maliyetli ses modeli
Amazon’un geliştirme platformu Bedrock üzerinden sunulan Nova Sonic, çift istikametli akış destekleyen yeni bir API ile geliştiricilerin kullanımına açıldı. Şirket, Nova Sonic’in piyasadaki en uygun maliyetli yapay zeka ses modeli olduğunu belirtiyor. Amazon’un argümanına nazaran bu model, OpenAI’ın GPT-4o modeline kıyasla yaklaşık yüzde 80 daha düşük maliyetle çalışıyor.
Amazon’un AGI ünitesinin başındaki isim Rohit Prasad, Nova Sonic’in kimi bileşenlerinin hali hazırda Alexa Plus isimli yeni jenerasyon dijital asistanda kullanıldığını belirtti. Prasad’a nazaran Nova Sonic, bilhassa farklı uygulamalara isabetli formda yönlendirme yapabilen “büyük orkestrasyon sistemleri” konusunda rakiplerinin önünde.
Bu sistem sayesinde Nova Sonic, kullanıcıdan gelen bir talebin gerçek vakitli data mi yoksa özel bir kaynak mı gerektirdiğini ayırt edebiliyor ve gerçek API ya da dış uygulamaya yönelerek süreç gerçekleştirebiliyor.
Amazon CEO’su Andy Jassy, Nova Sonic’in sadece sesli komutları anlamakla kalmayıp, konuşmanın tonunu, biçimini, akışını, duraklamaları ve ortaya girilen cümleleri de hakikat halde algılayabildiğini vurguladı. Jassy, modelin sesli anlayış ve ses üretimini tek ve birleşik bir yapı içinde gerçekleştirdiğini belirtiyor.
Daha yanlışsız ve daha hızlı
Amazon’un datalarına nazaran Nova Sonic, ses tanıma kusurları konusunda rakiplerinden çok daha başarılı. Kullanıcılar mırıldansa, yanlış konuşsa ya da gürültülü bir ortamda bulunsa dahi, modelin yanlışsız mana çıkarma oranının yüksek olduğu söyleniyor. Örneğin İngilizce, Fransızca, Almanca, İtalyanca ve İspanyolca lisanlarında yapılan testlerde, ortalama söz kusur oranı sırf yüzde 4,2 olarak ölçülmüş durumda. Çok katılımcılı ve yüksek sesli ortamlarda yapılan testlerde ise, OpenAI’ın GPT-4o transkripsiyon modeline nazaran yüzde 46,7 daha âlâ sonuçlar verdiği tabir ediliyor.
Bu ortada firmaya nazaran Nova Sonic’in ortalama reaksiyon müddeti 1,09 saniye ile sektör lideri konumda. Bu da OpenAI’ın gerçek vakitli API’sinden daha süratli bir cevap müddeti manasına geliyor.
Amazon, Nova Sonic’i sırf bir sesli model olarak görmüyor. Şirketin AGI stratejisi doğrultusunda bu model, bilgisayar başındaki bir insanın yapabileceği her şeyi gerçekleştirme potansiyeline sahip sistemlerin birinci örneklerinden biri. Prasad, yakın gelecekte manzara, görüntü ve başka duyusal bilgileri anlayabilen çok modlu modellerin de geliştirileceğini açıkladı.
Geçtiğimiz hafta tanıtılan, internet tarayıcısı kullanabilen Nova Act isimli model de bu stratejinin bir kesimi. Alexa Plus ve “Buy for Me” üzere yeni kuşak özelliklerde bu modellerin rollerini görmeye başladık.