Состояние распознавания голоса в Linux

click fraud protection

Распознавание речи в Linux отстает от платформ Windows и Mac, потому что Microsoft и Apple инвестировали значительное время и затраты на добавление голосовых команд или программного обеспечения голосового помощника в их основные операции системы.

Хотя ситуация с Linux не так безрадостна, как в случае со многими передовыми технологиями, вселенная с бесплатными и открытыми исходными кодами остается на шаг позади, особенно с инструментами голосового управления.

Распознавание речи в Linux

Нет Linux Распространение ориентировано на распознавание речи. Однако приложения, поддерживающие функцию распознавания речи, полагаются на несколько библиотек с открытым исходным кодом, включая Sphinx, Kaldi, Julius и Mozilla Deepspeech.

Человек смотрит на экран
Негативное пространство / Мокап. Фото 

Эти библиотеки полагаются на речевой корпус, чтобы предлагать варианты звуков для обучения ИИ и, следовательно, правильно переводить речь в текст. Однако проекты с открытым исходным кодом менее сложны (поскольку они вносят меньший вклад в обучение ИИ), а это означает, что большинство приложений для преобразования текста в речь для Linux часто не справляются с преобразованием. Обычно они так тщательно портят, что не совсем понятно, какой могла быть исходная речь.

Параметры преобразования речи в текст в Linux

Используйте один из пяти способов решения проблемы.

  • Положитесь на приложения Linux, доступные в репозиториях вашего дистрибутива, если таковые имеются.
  • Amazon сделал Alexa доступна для Linux, в том числе для Raspberry Pi. Вам нужно будет выполнить множество пользовательских настроек, чтобы эта компоновка работала, но она будет работать.
  • Доступ к Google Speech API в вашем браузере через Диктовка. Эта услуга работает только под диктовку; вы не можете использовать его для голосовых команд. Он работает на искусственном интеллекте Google, поэтому качество хорошее.
Google Ассистент отображает стенограмму проверенных звонков.
  • Используйте такую ​​службу, как Alexa или Google Assistant, в качестве утилиты голосовых команд для Linux через службу Triggercmd. Triggercmd работает на вашем компьютере; используйте это, чтобы вызвать Alexa или Google Assistant, и пусть эти инструменты будут выполнять определенные сценарии Bash на основе вашей команды. Скажите что-нибудь вроде: «Окей, Google, запросите команду запуска, чтобы открыть калькулятор». Google Ассистент обслуживает в качестве посредника с Triggercmd для запуска сценария Bash, указанного фразой «открыть калькулятор."
  • Используйте Wine или виртуальную машину с программным обеспечением для Windows, например Dragon NaturallySpeaking. При правильной настройке вы можете использовать движок Dragon для транскрипции, хотя это решение не работает для приложений с голосовыми командами.