Ускоро можда нећете знати да разговарате са рачунаром

Кључне Такеаваис

  • Убрзо се ближи дан када нећете моћи да разликујете компјутерски генерисан говор од праве ствари.
  • Гоогле је недавно представио ЛаМДА, модел који би могао да омогући природније разговоре.
  • Производња говора налик човеку такође захтева огромне количине процесорске снаге.
Робот који говори у микрофон.

Девримб / Гетти Имагес

Тренутно је лако рећи када разговарате са рачунаром, али то би се ускоро могло променити захваљујући недавном напретку у вештачкој интелигенцији.

Гоогле је недавно представио ЛаМДА, експериментални модел за који компанија тврди да би могао повећати способност својих конверзацијских АИ асистената и омогућити природније разговоре. ЛаМДА има за циљ да на крају нормално разговара о готово свему без икакве претходне обуке.

То је један од све већег броја пројеката вештачке интелигенције који би вас могао оставити да се запитате да ли разговарате са људским бићем.

„Моја процена је да ће у наредних 12 месеци корисници почети да се излажу и навикавају на ове нове, емотивније гласове“, рекао је Џејмс Каплан, извршни директор

МеетКаи, конверзацијски АИ виртуелни гласовни асистент и претраживач, рекао је у интервјуу мејлом.

„Када се то догоди, данашњи синтетизовани говор ће звучати корисницима као што говор раних 2000-их звучи нама данас.

Гласовни асистенти са карактером

Гоогле-ов ЛаМДА је изграђен на Трансформеру, архитектури неуронске мреже коју је измислио Гоогле Ресеарцх. За разлику од других језичких модела, Гоогле-ов ЛаМДА је обучен за прави дијалог.

Део изазова за стварање говора вештачке интелигенције природног звучања је отворена природа разговора, рекао је Гуглов Ели Колинс написао је у посту на блогу.

Хуманоидни робот разговара са групом људи.

гремлин / Гетти Имагес

„Разговор са пријатељем о ТВ емисији могао би да прерасте у дискусију о земљи у којој је емисија снимљена пре него што се заустави дебата о најбољој регионалној кухињи те земље“, додао је он.

Ствари се брзо крећу са говором робота. Ериц Росенблум, извршни партнер у Тсингиуан Вентурес, који улаже у конверзациону вештачку интелигенцију, рекао је да су неки од најосновнијих проблема у компјутерском говору виртуелно решени.

На пример, стопа тачности у разумевању говора је већ изузетно висока у услугама као што су транскрипције које врши софтвер Оттер.аи или лекарске белешке које је узео ДеепСцрибе.

„Следећа граница је, међутим, много тежа“, додао је он.

„Задржавање разумевања контекста, што је проблем који превазилази процесирање природног језика, и емпатија, као што су рачунари у интеракцији са људима треба да разумеју фрустрацију, бес, нестрпљење, итд. На оба ова питања се ради, али су оба далеко од задовољавајућег“.

Неуралне мреже су кључ

Да би генерисале гласове налик на живот, компаније користе технологију као што су дубоке неуронске мреже, облик машинског учења који класификује податке кроз слојеве, Матт Мулдоон, председник Северне Америке у РеадСпеакер, компанија која развија софтвер за текст у говор, рекао је у интервјуу мејлом.

"Ови слојеви пречишћавају сигнал, сортирајући га у сложеније класификације", додао је он. "Резултат је синтетички говор који звучи необично као људски."

Друга технологија у развоју је Просоди Трансфер, што укључује комбиновање звука једног гласа за претварање текста у говор са стилом говора другог, рекао је Мулдоон. Ту је и учење трансфера, које смањује количину података о обуци потребних за производњу новог неуралног гласа текста у говор.

Каплан је рекао да производња говора налик човеку такође захтева огромну количину процесорске снаге. Компаније развијају чипове за неуронске акцелераторе, који су прилагођени модули који раде у спрези са редовним процесорима.

„Следећа фаза у овоме биће стављање ових чипова у мањи хардвер, као што је тренутно већ урађено за камере када је потребна вештачка интелигенција за вид“, додао је он. „Неће проћи много времена пре него што ова врста рачунарских могућности буде доступна у самим слушалицама.

Један од изазова за развој говора вођеног вештачком интелигенцијом је да сви причају другачије, тако да рачунари имају тенденцију да нас тешко разумеју.

„Замислите Грузију вс. Бостон вс. Акценти у Северној Дакоти и да ли вам је енглески примарни језик или не“, Моника Дема, која ради на аналитици гласовне претраге у Мдинц, речено је у мејлу. „Размишљајући глобално, скупо је то учинити за све регионе Немачке, Кине и Индије, али то не значи да није или не може да се уради.