Yapay Zeka Bilgisayar Konuşmasını Nasıl Daha Doğal Hale Getirebilir?
Önemli Çıkarımlar
- Şirketler, bilgisayar tarafından oluşturulan konuşmayı daha gerçekçi hale getirmenin yollarını bulmak için yarışıyor.
- NVIDIA kısa süre önce kendi sesinizle bir AI eğitmenize izin vererek doğal konuşmanın sesini yakalayabilen araçları tanıttı.
- Bir uzman, tonlama, duygu ve müzikalitenin bilgisayar seslerinde hala eksik olan özellikler olduğunu söylüyor.
Bilgisayar tarafından oluşturulan konuşma yakında çok daha insani gelebilir.
Bilgisayar parçaları üreticisi NVIDIA, kısa süre önce, sesinizle bir AI eğitmenize izin vererek doğal konuşmanın sesini yakalayabilen araçları tanıttı. Yazılım ayrıca bir konuşmacının sözlerini başka bir kişinin sesini kullanarak iletebilir. Bilgisayar konuşmasını daha gerçekçi hale getirmek için gelişen bir çabanın parçası.
"Gelişmiş sesli yapay zeka teknolojisi, kullanıcıların doğal bir şekilde konuşmalarına, birçok soruyu tek bir cümlede birleştirmesine ve orijinal sorgudaki ayrıntıları sürekli olarak tekrar etme ihtiyacını ortadan kaldırmasına olanak tanıyor."
"Artık çoğu sesli AI platformunda mevcut olan birden çok dilin eklenmesi, dijital sesli asistanları daha fazla coğrafyada ve daha fazla nüfus için erişilebilir kılıyor" diye ekledi.
Robospeech Yükseliyor
Amazon'un Alexa'sı ve Apple'ın Siri'si, on yıl önceki bilgisayar konuşmalarından bile çok daha iyi ses veriyor, ancak yakın zamanda gerçek insan sesleriyle karıştırılmayacaklar.
Yapay konuşma sesini daha doğal hale getirmek için NVIDIA'nın metinden konuşmaya araştırma ekibi bir RAD-TTS modeli geliştirdi. Sistem, bireylerin ilerleme hızı, tonalite, tını ve diğer faktörler dahil olmak üzere sesleriyle bir metinden konuşmaya (TTS) modelini öğretmelerine olanak tanır.
Şirket, yeni modelini, I Am AI video serisi için kulağa daha çok konuşma niteliğinde sesli anlatım oluşturmak için kullandı.
"Bu arayüzle, video yapımcımız video senaryosunu okurken kendini kaydedebilir ve ardından konuşmasını kadın anlatıcının sesine dönüştürmek için AI modelini kullanabilir. Yapımcı, bu temel anlatımı kullanarak yapay zekayı bir seslendirme sanatçısı gibi yönetebilir ve sentezlenen belirli kelimeleri vurgulamak ve videonun tonunu daha iyi ifade etmek için anlatımın hızını değiştirmek için konuşma," NVIDIA kendi sitesinde yazdı.
Göründüğünden Daha Zor
Uzmanlar, bilgisayar tarafından oluşturulan konuşma sesini doğal hale getirmenin zor bir sorun olduğunu söylüyor.
"Birinin bilgisayar versiyonunu oluşturmak için yüzlerce saatlik birinin sesini kaydetmeniz gerekiyor" Nazım Ragimov, metinden konuşmaya yazılım şirketi Kukarella'nın CEO'su Lifewire'a bir e-posta röportajında söyledi. "Ve kayıt, profesyonel bir stüdyoda kaydedilen yüksek kalitede olmalıdır. Ne kadar çok saat kaliteli konuşma yüklenir ve işlenirse sonuç o kadar iyi olur."
"Metin-konuşma, oyunlarda, ses engelli bireylere yardımcı olmak veya kullanıcıların diller arasında kendi sesleriyle çeviri yapmasına yardımcı olmak için kullanılabilir."
Ragimov, tonlama, duygu ve müzikalitenin bilgisayar seslerinin hala eksik olduğu özellikler olduğunu söyledi.
AI bu eksik bağlantıları ekleyebilirse, bilgisayar tarafından oluşturulan konuşma "gerçek aktörlerin seslerinden ayırt edilemez" olacağını ekledi. "Bu devam eden bir çalışma. Diğer sesler radyo sunucularıyla rekabet edebilecek. Yakında şarkı söyleyebilen ve sesli kitap okuyabilen sesler göreceksiniz."
Konuşma teknolojisi, çok çeşitli işletmelerde daha popüler hale geliyor.
Zagorsek, "Otomobil endüstrisi, daha güvenli ve daha bağlantılı sürüş deneyimleri yaratmanın bir yolu olarak son zamanlarda sesli yapay zekayı benimsedi." Dedi.
"O zamandan beri, markalar müşteri deneyimlerini iyileştirmenin yollarını aradıkça sesli asistanlar giderek daha yaygın hale geldi. ürünleriyle etkileşime girmek için daha kolay, daha güvenli, daha uygun, verimli ve hijyenik yöntemler talebini karşılamak ve Hizmetler."
Tipik olarak, sesli yapay zeka, konuşmayı metne çevirerek başlayan iki aşamalı bir süreçte sorguları yanıtlara dönüştürür. otomatik konuşma tanıma (ASR) kullanma ve ardından bu metni bir doğal dil anlayışına (NLU) besleme modeli.
SoundHound'un yaklaşımı, konuşmayı gerçek zamanlı olarak izlemek için bu iki adımı tek bir işlemde birleştirir. Şirket, bu tekniğin, sesli asistanların, kişi konuşmayı bitirmeden önce bile kullanıcı sorgularının anlamını anlamasını sağladığını iddia ediyor.
Yalnızca yerleşikten (bulut bağlantısı gerekmez) hibrite kadar çeşitli bağlantı seçeneklerinin kullanılabilirliği de dahil olmak üzere bilgisayar konuşmasında gelecekteki gelişmeler (gömülü artı bulut) ve yalnızca bulut "maliyet, gizlilik ve işlem gücünün kullanılabilirliği açısından endüstrilerdeki şirketlere daha fazla seçenek sunacak", Zagoresk dedim.
NVIDIA, haber AI modellerinin seslendirme çalışmasının ötesine geçtiğini söyledi.
Şirket, "Metin-konuşma, oyunlarda, ses engelli bireylere yardımcı olmak veya kullanıcıların diller arasında kendi sesleriyle çeviri yapmalarına yardımcı olmak için kullanılabilir" dedi. Sadece bir şarkının melodisine değil, aynı zamanda vokallerin ardındaki duygusal ifadeye de uyum sağlayarak ikonik şarkıcıların performanslarını bile canlandırabiliyor."