Header Ads

Como usar o AWS Transcribe para converter fala em texto

A transcrição de fala é um problema que geralmente é resolvido com trabalhadores humanos caros. Com o aprendizado de máquina, porém, os computadores foram atualizados, e o kit de ferramentas de reconhecimento de fala com tecnologia de IA da AWS agora está disponível como um serviço para seu aplicativo usar.

AWS Transcribe converte arquivos de áudio em S3

Transcrever é simples — forneça um arquivo de áudio (armazenado no S3), e ele pode percorrê-lo e fornecer uma saída. Você é cobrado com base na duração do áudio, a uma taxa de US $ 0,0004 por segundo. Uma reunião de diretoria de duas horas custaria US $ 2,88 para transcrever, mas um vídeo rápido de dois minutos custa apenas US $ 0,06.

A transcrição é muito rápida, mas não é otimizada para latência. É adequado para transcrições posteriores, como transcrever chamadas de clientes e legendagem de vídeos enviados. Se precisar de transcrição de fala em texto em tempo real, você pode usar o AWS Lex, um serviço para criar bots de bate-papo interativos como o Alexa.

Para começar, vá para o AWS Transcribe Console. Você pode pressionar “ Iniciar transmissão ” para gravar do microfone do seu dispositivo e para testar o serviço. É muito legal, mas provavelmente você está atrás de mais do que isso.

Na barra lateral, selecione “ Trabalhos de transcrição ” e clique em “ Criar trabalho ” O trabalho serve como um método para automatizar a transcrição. Cada trabalho funciona em um arquivo por vez; para automatizar a transcrição de vários arquivos, você precisa criar um trabalho separado para cada um a partir da linha de comando.

Forneça ao Transcribe um caminho para o arquivo de áudio que você deseja converter. Você pode opcionalmente selecionar manualmente o formato e a taxa de amostragem, embora deva reconhecer automaticamente os mais comuns.

Depois de clicar em criar, a transcrição começa. O trabalho recém-criado aparece na lista e, depois de concluído, você pode baixar o texto transcrito.

Você provavelmente também quer saber como trabalhar com o Transcribe no console, pois criar trabalhos manualmente é tedioso e adequado apenas se você reprocessar um grande arquivo de áudio por vez.

 aws transcribe start-transcription-job \ --transcription-job-name NewJob \ --language-code en-US \ --media MediaFileUri = "s3: //bucket/file. mp3" 

Isso inicia o trabalho e gera algum JSON informando se ele foi criado com sucesso. Você pode verificar o status de um trabalho programaticamente com get-transcription-job:

 aws transcribe get-transcription-job --transcription-job-name NewJob 

Se for concluído, TranscriptionJob. TranscriptionJobStatus será definido como “ COMPLETED, ” e você pode baixar o arquivo diretamente com curl e um pouco de processamento jq:

 curl $ (aws transcribe get-transcription-job --transcription-job-name NewJob \ | jq -r ". TranscriptionJob. Transcript. TranscriptFileUri") \ | jq ". results. transcripts" 

Observe que o arquivo de transcrição é JSON e contém a transcrição completa mais uma avaliação de confiança de cada palavra e das alternativas. A menos que queira todos os valores de confiança, você pode filtrá-los com o | final | declaração jq ". results. transcripts".

Você também pode transcrever arquivos de áudio automaticamente usando funções do Lambda. Lambda é um serviço que pode executar código em resposta a eventos da AWS, como o upload de novos itens para o S3. Não tem servidor e só paga pelo tempo de execução; como o Lambda não está fazendo o processamento real, apenas criando um novo trabalho no upload, o custo deve ser trivial.

Você pode codificá-lo sozinho se já tiver usado o Lambda antes, mas felizmente há um aplicativo pré-construído no repositório de aplicativos sem servidor do Lambda que pode fazer exatamente esse trabalho para você. Chama-se s3-lambda-transcribe-audio-to-text-s3 e pode ser necessário clicar em “ Mostrar aplicativos que criam funções IAM personalizadas ” para encontrá-lo.

Crie um novo aplicativo a partir deste modelo e especifique o intervalo de entrada e o intervalo de saída. Certifique-se de que o depósito de saída exista e que o depósito de entrada não exista, pois o aplicativo criará o depósito de entrada para você.

Você também deseja inserir o idioma do arquivo de áudio. en-US é um inglês genérico; para qualquer outra coisa, você pode encontrar o código nos documentos da AWS ’.

Implante o aplicativo e você verá um intervalo recém-criado. Se você soltar um arquivo de áudio neste intervalo, o Lambda pode criar um novo trabalho de transcrição para você.

Se o aplicativo não funcionar, certifique-se de ativá-lo para criar sua função IAM e certifique-se de que ele tenha permissão para trabalhar com Transcribe e os intervalos S3 necessários.

Via: How to Geek

Nenhum comentário