Lo stato del riconoscimento vocale di Linux

December 02, 2021
NelLinux Software E App

Il riconoscimento vocale in Linux segue le piattaforme Windows e Mac perché sia Microsoft che Apple hanno investito tempo e spese considerevoli nell'aggiunta di software di comando vocale o assistente vocale nel loro funzionamento principale sistemi.

Sebbene la situazione non sia desolante per Linux, come lo è con molte tecnologie all'avanguardia, l'universo gratuito e open source rimane un passo indietro, in particolare con gli strumenti di comando vocale.

Riconoscimento vocale Linux

No Linux distribuzione si concentra sul riconoscimento vocale. Tuttavia, le app che supportano la capacità di riconoscimento vocale si basano su una manciata di librerie open source tra cui Sphinx, Kaldi, Julius e Mozilla Deepspeech.

Uomo che guarda lo schermo — Spazio negativo / Mockup. Fotografie

Queste librerie si basano su un corpus vocale per offrire variazioni di suoni per addestrare l'intelligenza artificiale e quindi tradurre correttamente il discorso in testo. Tuttavia, i progetti open source sono meno sofisticati (perché godono di contributi minori per addestrare l'intelligenza artificiale), il che significa che la maggior parte delle app di sintesi vocale per Linux spesso falliscono nella conversione. Di solito, fanno un pasticcio così a fondo che non è chiaro quale potesse essere stato il discorso originale.

Opzioni per Linux Speech to Text

Utilizzare uno dei cinque percorsi di soluzione.

Affidati alle app Linux disponibili nei repository della tua distribuzione, se presenti.
Amazon made Alexa disponibile per Linux, incluso per Raspberry Pi. Dovrai eseguire molte modifiche personalizzate per far funzionare questa disposizione, ma funzionerà.
Accedi all'API di Google Speech nel tuo browser tramite DettaturaIO. Questo servizio funziona solo per la dettatura; non puoi usarlo per il comando vocale. È alimentato dall'intelligenza artificiale di Google, quindi la qualità è buona.

L'Assistente Google visualizza una trascrizione per le chiamate filtrate.

Usa un servizio come Alexa o Google Assistant come utility di comando vocale per Linux tramite il servizio Triggercmd. Triggercmd viene eseguito sul tuo computer; usalo per invocare Alexa o Google Assistant e fai in modo che questi strumenti eseguano script Bash specifici in base al tuo comando. Dì qualcosa come "OK Google, chiedi il comando di attivazione per aprire la calcolatrice". Assistente Google serve come intermediario con Triggercmd per eseguire lo script Bash specificato dalla frase "apri il calcolatrice."
Usa Wine o una macchina virtuale con software per Windows come Dragon NaturallySpeaking. Con le giuste modifiche, puoi utilizzare il motore Dragon per la trascrizione, sebbene questa soluzione non funzioni per le applicazioni di comando vocale.