NVIDIA’dan Yapay Zeka Dayanaklı Konuşma Algoritması: RAD-TTS

ItalioBrot

Global Mod
Global Mod
Sentezlenmiş sesler yıllar ortasında hayli yol katetti. Alexa ve Siri üzere çağdaş yapay zeka asistanları ise epeyce gerçekçi insan sesleri çıkarabiliyor, beraberinde pek akıcı konuşuyorlar. NVIDIA ise RAD-TTS isimli bir yapay zeka modeli geliştirdi.

bu biçimdelikle geliştiriciler, modeli kendi sesleriyle eğitebiliyor ve öğrenilen tonlamalar kullanılarak metinler doğal konuşmaya dönüştürülebiliyor. Ayrıyeten bir konuşmacının ve hatta müziklerin sesi, bir öteki insanın sesine dönüştürülebiliyor. NVIDIA yeni tahlilini şu biçimde tanımlıyor:

Bir müzik enstrümanı olarak insan sesinden ilham alan RAD-TTS arayüzü, kullanıcılara sentezlenen sesin perdesi, mühleti ve gücü üzerinde ince denetimler sağlıyor.

NVIDIA ayrıyeten “I AM AI” görüntü serisinde kullanılan değişen teknolojinin örneklerini sergiliyor. Aşağıdaki görüntüde ise yapay zeka dayanaklı modelin kimi marifetlerinden bahsedilmiş.


Bu teknoloji, otomatik müşteri hizmetleri, lisan çevirisi, engelliler için dayanak ve hatta oyunlar dahil olmak üzere biroldukça alanda kullanılabilir. Özetleyecek olursak, doğal insan sesi gerektiren şimdi her uygulamada RAD-TTS’den yararlanmak mümkün olabilir.

Blog yazısında yapay zeka takviyeli teknolojiyle ilgili ayrıyeten şu bilgiler veriliyor:

Modellerin birçoğu NVIDIA DGX sistemlerinde on binlerce saatlik ses datalarıyla eğitiliyor. Geliştiriciler, kullanım durumuna nazaran rastgele bir modele ince ayar yapabilir ve NVIDIA Tensor Core GPU’larda karma hassas bilgi süreç kullanarak eğitimi hızlandırabilir.

Araçlar NVIDIA ekran kartlarına sahip bilgisayarlarda kullanım için optimize edildi. Fakat çalışmalar açık kaynak kodlu ve ilgilenen tüm geliştiriciler için fiyatsız olarak sunuluyor.