Use Text-To-Speech com tecnologia de aprendizado de máquina de aplicativo com AWS Polly
Se seu aplicativo precisa de uma maneira de converter texto em fala programaticamente para interagir com os usuários, a AWS tem um serviço gerenciado que usa aprendizado de máquina para criar vozes realistas que melhoram significativamente a experiência do usuário.
[PUBLICAR ]
A conversão de texto em fala com base neural é muito melhor
Não podemos exagerar o suficiente, o texto para fala neural (TTS) soa fluido e humano, muito parecido com Siri ou Alexa, e o TTS padrão soa robótico em comparação (embora, admitidamente, ainda seja bastante aceitável).
Você realmente tem que ouvir por si mesmo. Ouça este exemplo usando o TTS padrão.
Agora ouça este exemplo usando TTS neural. Ouça a diferença? As transições entre as palavras são muito mais suaves do que o que pode ser alcançado programaticamente. Qual você deseja apresentar aos usuários?
Com Polly, o TTS robótico é coisa do passado. Como a maioria dos serviços da AWS, você é cobrado com base no uso. A taxa atual para TTS neural é de US $ 16 por milhão de caracteres de texto. Se você estiver criando um aplicativo de conversação, as respostas geralmente serão bastante curtas, o que reduz os custos.
O AWS Polly também oferece suporte a TTS padrão, que é quatro vezes mais barato e também usado como substituto para certas linguagens que ainda não têm suporte neural. Ainda é muito bom, embora não no nível do motor neural.
Você também pode fornecer à Polly léxicos personalizados, que permitem alterar a pronúncia de certas palavras para personalizar a resposta que você obtém ou corrigir erros com o mecanismo de texto em fala. Você também pode usar a linguagem SSML (Speech Synthesis Markup Language) como entrada, o que fornece controle preciso sobre a saída.
Para começar, vá para o Console Polly. Este serviço é extremamente simples — basta fornecer a Polly o texto que deseja converter, selecionar um idioma e selecionar a voz que deseja usar. Você pode pressionar o botão “ Ouvir fala ” botão para visualizar os resultados:
Você pode baixar o arquivo como MP3 aqui ou salvá-lo no S3. Se você estiver convertendo mais de 3.000 caracteres, terá que salvar o arquivo de entrada no S3.
Claro, usar um serviço como este no console não é tão útil. É muito mais provável que você queira acessar programaticamente usando a API da AWS ou a CLI. Cobriremos a CLI aqui, mas você pode ler a documentação da API para Polly para referência sobre como configurá-la.
O comando aws polly contém todos os controles para trabalhar com Polly. Você pode obter uma lista de todas as vozes compatíveis com as vozes de descrição, que provavelmente você desejará passar para jq:
aws polly describe-voices | jq '. Voices'
O comando synthesize-speech converterá o texto, com algumas opções:
aws polly synthesize-speech \ --output-format mp3 \ --voice-id Joanna \ --text 'Texto para ler' \ example. mp3
Isso baixa o MP3 localmente. Se você deseja criar uma tarefa que lê e escreve do S3, use start-speech-synth-task:
aws polly start-speech-synth-task \ --engine neural --region us-west-1 \ --endpoint-url "https://polly. us-west-1. amazonaws. com / "\ --output-format mp3 \ --output-s3-bucket-name your-bucket-name \ --output-s3-key-prefix opcional / prefix / path / file \ --voice-id Joanna \ - -arquivo de texto: //text_file. txt
Isso lê a entrada de um arquivo de texto no disco e a saída para o intervalo especificado por você, opcionalmente em uma pasta específica.
Se você está pensando em usar o Polly para criar um chatbot, pode dar uma olhada no AWS Lex, um serviço gerenciado de chatbot que usa o Polly para síntese de fala.
Via: How to Geek
Nenhum comentário