Како би вештачка интелигенција могла учинити компјутерски говор природнијим

December 02, 2021
УПаметан и повезан живот Вести

Кључне Такеаваис

Компаније се утркују у проналажењу начина да компјутерски генерисани говор звучи реалистичније.
НВИДИА је недавно представила алате који могу ухватити звук природног говора тако што вам омогућавају да тренирате АИ сопственим гласом.
Интонација, емоција и музикалност су карактеристике које компјутерским гласовима још увек недостају, каже један стручњак.

Неко ради са снимком гласа на лаптоп рачунару. — ЦоВомен / Унспласх

Компјутерски генерисани говор би ускоро могао звучати много људскије.

Произвођач рачунарских делова НВИДИА је недавно представио алате који могу да сниме звук природног говора тако што вам омогућавају да тренирате вештачку интелигенцију својим гласом. Софтвер такође може да испоручи речи једног говорника користећи глас друге особе. То је део све већег напора да се компјутерски говор учини реалистичнијим.

„Напредна гласовна АИ технологија омогућава корисницима да говоре природно, комбинујући многа питања у једну реченицу и елиминишући потребу да се детаљи из оригиналног упита стално понављају“, Мицхаел Загорсек

, главни оперативни директор компаније за препознавање говора СоундХоунд, рекао је за Лифевире у интервјуу е-поштом.

„Додавање више језика, сада доступних на већини платформи за гласовну вештачку интелигенцију, чини дигиталне гласовне асистенте доступним у више географских подручја и за више популација“, додао је он.

Робоспеецх Рисинг

Амазонова Алека и Аппле-ова Сири звуче много боље од компјутерског говора од пре једне деценије, али их ускоро неће погрешити са аутентичним људским гласовима.

Да би вештачки говор звучао природније, НВИДИА-ин истраживачки тим за претварање текста у говор развио је РАД-ТТС модел. Систем омогућава појединцима да својим гласом подучавају модел претварања текста у говор (ТТС), укључујући темпо, тон, тон и друге факторе.

Компанија је користила свој нови модел да направи говорну нарацију која звучи конверзативно за своју видео серију И Ам АИ.

„Са овим интерфејсом, наш видео продуцент би могао да сними себе како чита видео сценарио, а затим да користи АИ модел да претвори свој говор у глас женског наратора. Користећи ову основну нарацију, продуцент би затим могао да усмерава АИ као гласовни глумац – подешавајући синтетизовану говор како би се нагласиле одређене речи и модификовао темпо нарације како би се боље изразио тон видео снимка", НВИДИА написао је на свом сајту.

Теже него што звучи

Учинити да компјутерски генерисани говор звучи природно је тежак проблем, кажу стручњаци.

„Морате снимити стотине сати нечијег гласа да бисте направили његову компјутерску верзију,“ Назим Рагимов, извршни директор компаније Кукарелла за софтвер за текст у говор, рекао је за Лифевире у интервјуу е-поштом. „И снимак мора бити квалитетан, снимљен у професионалном студију. Што се више сати квалитетног говора учита и обради, то је бољи резултат."

„Претварање текста у говор може да се користи у играма, да помогне појединцима са сметњама у гласу или да помогне корисницима да својим гласом преводе са једног језика на други.“

Интонација, емоција и музикалност су карактеристике које компјутерским гласовима још увек недостају, рекао је Рагимов.

Ако вештачка интелигенција може да дода ове недостајуће карике, компјутерски генерисани говор ће се „не разликовати од гласова правих глумаца“, додао је он. „То је посао у току. Други гласови ће моћи да се такмиче са радио водитељима. Ускоро ћете видети гласове који могу да певају и читају аудио књиге."

Говорна технологија постаје све популарнија у широком спектру предузећа.

„Ауто индустрија је недавно усвојила гласовну вештачку интелигенцију као начин за стварање сигурнијег и повезанијег искуства вожње“, рекао је Загоршек.

„Од тада, гласовни асистенти постају све присутнији јер брендови траже начине да побољшају корисничко искуство и задовољавају потражњу за лакшим, сигурнијим, практичнијим, ефикаснијим и хигијенским методама интеракције са њиховим производима и услуге."

Типично, гласовна АИ конвертује упите у одговоре у процесу у два корака који почиње преписивањем говора у текст коришћење аутоматског препознавања говора (АСР) и затим уношење тог текста у разумевање природног језика (НЛУ) модел.

Неко снима гласовни звук у кућном студију. — Соундтрап / Унспласх

СоундХоундов приступ комбинује ова два корака у један процес за праћење говора у реалном времену. Компанија тврди да ова техника омогућава гласовним асистентима да разумеју значење упита корисника, чак и пре него што особа заврши говор.

Будући напредак у рачунарском говору, укључујући доступност разних опција повезивања, од само уграђених (није потребна веза у облаку) до хибридних (уграђени плус облак) и само у облаку „даће више избора компанијама у различитим индустријама у смислу трошкова, приватности и доступности процесорске снаге“, Загореск рекао.

НВИДИА је саопштила да њени модели вештачке интелигенције за вести иду даље од говора.

„Претварање текста у говор може да се користи у играма, да помогне појединцима са сметњама у гласу или да помогне корисницима да својим гласом преводе са једног језика на други“, написала је компанија. „Може чак да реконструише наступе иконских певача, не само да одговара мелодији песме већ и емотивном изразу иза вокала.