Os telefones Gboard on Pixel recebem reconhecimento de fala off-line rápido
Mesmo antes do Google Assistente, o Google já estava jogando com reconhecimento de voz e voz para vários recursos, incluindo a Pesquisa por voz. Como a maioria das funcionalidades do AI do Google, no entanto, as pessoas contavam com uma conexão ativa com a Internet, para não mencionar a boa. Tudo bem quando você está tentando pesquisar algo on-line ou fazer um pedido, não muito quando está ditando ou traduzindo palavras. Felizmente, a equipe de AI do Google criou uma solução para o teclado do Google que permite ditar texto mesmo quando você está off-line.
Os sistemas de reconhecimento de voz são compostos de várias partes, cada uma parte crítica do pipeline. Há um modelo que mapeia o áudio de entrada para uma unidade de som distinta chamada fonema, um modelo que conecta fonemas para formar palavras e outro modelo que tenta adivinhar a frase. Dada a complexidade desses modelos, eles são tradicionalmente armazenados em servidores remotos, nos quais as gravações de áudio de entrada são enviadas para serem processadas.
Embora esse método geralmente forneça resultados precisos, a latência praticamente elimina qualquer esperança de uso em tempo real para coisas como tradução e ditado imediatos. Felizmente, foi desenvolvido um novo tipo de modelo de rede neural que o Google chama de Transdutor de Rede Neural Recorrente ou RNN-T. Em suma, em vez de esperar que toda a entrada seja enviada e, em seguida, processá-la, um RNN-T processa amostras de entrada à medida que elas chegam e transmitem os símbolos de saída.
No caso da Gboard, esses símbolos de saída são basicamente caracteres do alfabeto inglês. É por isso que o novo recurso de reconhecimento de fala do Gboard parece cuspir palavras um caractere por vez, algo que parece mais natural para os humanos.
Mais importante, os modelos RNN-T são pequenos o suficiente para caber dentro do telefone. Não há latência para falar porque o processamento e o rastreamento do modelo acontecem no dispositivo, sem a necessidade de uma conexão com a Internet. Esse novo reconhecedor de fala do Gboard, totalmente neural e no dispositivo, estará disponível em todos os telefones do Google Pixel, mas apenas em inglês americano. Os pesquisadores esperam que as mesmas técnicas possam ser aplicadas a mais idiomas no futuro próximo.
Via: Slash Gear
Nenhum comentário