Стан розпізнавання голосу Linux
Розпізнавання мовлення в Linux поступається платформам Windows і Mac, оскільки Microsoft і Apple інвестували значний час і витрати на додавання програмного забезпечення для голосових команд або голосового помічника до їх основної роботи системи.
Хоча для Linux ситуація не є похмурою, як і з багатьма передовими технологіями, безкоштовний всесвіт з відкритим кодом залишається на крок позаду, особливо з інструментами голосового керування.
Розпізнавання мовлення Linux
Немає Linux розподіл фокусується на розпізнаванні мовлення. Однак програми, які підтримують можливість розпізнавання мовлення, покладаються на кілька бібліотек з відкритим кодом, включаючи Sphinx, Kaldi, Julius і Mozilla Deepspeech.

Ці бібліотеки покладаються на корпус мовлення, щоб запропонувати варіації звуків для тренування ШІ і, отже, правильно перекладати мовлення в текст. Однак проекти з відкритим кодом менш складні (оскільки вони мають менший внесок у навчання ШІ), а це означає, що більшість програм для перетворення тексту в мовлення для Linux часто псують перетворення. Як правило, вони так ретельно фальсифікують, що не зрозуміло, якою могла бути оригінальна мова.
Параметри перетворення мовлення в текст Linux
Використовуйте один із п’яти способів вирішення проблеми.
- Покладайтеся на програми Linux, доступні в сховищах вашого дистрибутива, якщо такі є.
- Зроблено Amazon Alexa доступна для Linux, в тому числі для Raspberry Pi. Вам потрібно буде виконати багато користувацьких налаштувань, щоб ця аранжування працювала, але вона спрацює.
- Доступ до Google Speech API у своєму веб-переглядачі через ДиктантIO. Цей сервіс працює лише під диктовку; ви не можете використовувати його для голосових команд. Він працює на основі штучного інтелекту Google, тому якість хороша.

- Використовуйте такий сервіс, як Alexa або Google Assistant, як утиліту голосових команд для Linux через службу Triggercmd. Triggercmd працює на вашому комп’ютері; використовуйте його для виклику Alexa або Google Assistant і дозвольте цим інструментам виконувати певні сценарії Bash на основі вашої команди. Скажіть щось на кшталт "OK Google, запитайте команду тригера, щоб відкрити калькулятор". Google Assistant обслуговує як посередник із Triggercmd для запуску сценарію Bash, визначеного фразою «відкрити файл калькулятор».
- Використовуйте Wine або віртуальну машину з програмним забезпеченням для Windows, як-от Dragon NaturallySpeaking. При правильному налаштуванні ви можете використовувати механізм Dragon для транскрипції, хоча це рішення не працює для програм голосового керування.