Header Ads

Demonstração de Transcrição de Conversação da Microsoft é revelada como novo hardware revelado

A Microsoft descobriu a transcrição de conversas em tempo real, revelando um novo alto-falante de design de referência cônico integrado ao Azure, juntamente com uma maneira de transformar cada telefone e laptop em uma reunião em uma matriz de reconhecimento de voz ad-hoc. A demonstração do Build 2019 destacou como uma combinação de dispositivos de borda e processamento em nuvem poderia trabalhar melhor em harmonia, bem como melhorar possíveis futuros alto-falantes inteligentes que pudessem entender vários comandos e acabar com o wake-word.

Todo mundo está falando, o Azure está escutando

Voz para texto não é difícil, mas tentar acompanhar uma conversa completo com fala sobreposta é muito mais difícil. Essa é a porca que a Microsoft diz ter quebrado, mostrando um novo sistema de Transcrição de Conversação no Build 2019 esta semana. Ele faz massagens no Serviço de Fala do Azure existente para oferecer suporte a uma combinação de transcrição de fala de campo distante em várias etapas em tempo real e atribuição de alto-falante.

O sistema da Microsoft foi visualizado no Build 2018 no ano passado, mas agora está disponível publicamente. Há uma prévia bloqueada que leva os aplicativos, juntamente com parcerias com fornecedores como a Accenture, a Roobo e a Avanade para comercializar o sistema Conversation Transcription.

Na demonstração do Build 2019, um dispositivo de reunião era capaz de rastrear várias pessoas falando e não apenas transcrevê-las corretamente, mas também durante períodos de "conversa cruzada". Ele usa sinais de áudio e vídeo , com fusão audiovisual para ajudar a identificar quem está dizendo o quê. O dispositivo de borda não é responsável pelo processamento, não é surpresa: em vez disso, a compactação de dados é feita na nuvem do Azure.

Há um novo design de referência de matriz de vídeo e microfone

No ano passado, a Microsoft definiu as linguagens com uma breve visualização do novo hardware. O aparelho preto, em forma de cone - alinhado com o que parecia ser uma aleta de refrigeração - era coberto com uma lente olho-de-peixe e prometia não apenas ouvir e ver todos em uma sala, mas também transcrevê-los. Isso veio, você não ficará surpreso ao ouvir, de um pedaço inteiro de inteligência artificial.

O orador com a ponta pontiaguda podia reconhecer automaticamente os participantes da reunião quando eles entravam na sala, por exemplo, para saber quando todos estavam presentes. Através do reconhecimento de diferentes vozes e padrões de fala, ele poderia transcrever conversas entre várias pessoas, quebrando automaticamente o texto de acordo com quem disse o quê. A integração com a Cortana, por sua vez, poderia ajudar a encontrar um horário no calendário em que todos estivessem livres e uma sala disponível para eles usarem.

Agora, a Microsoft está disponibilizando-o como um dispositivo de referência para desenvolvedores, completo com uma matriz de microfone de 360 ​​graus e uma câmera de 360 ​​graus. A empresa já tem várias opções para quem deseja testar o SDK de dispositivos, desde simples conjuntos de vários microfones até câmeras inteligentes como o Azure Kinect, e esse alto-falante cônico se juntará a eles. O preço e a disponibilidade ainda precisam ser confirmados, embora a Microsoft nos diga que ela só será oferecida aos integradores de sistemas como uma prévia privada limitada. Se essas operadoras optam por fabricar um produto comercial baseado na mesma tecnologia, ainda não se sabe.

Talvez você nem precise de um microfone de reunião específico, embora

a Microsoft, no entanto, esteja olhando além do hardware específico para melhores sessões de colaboração e reuniões. Apelidado de Project Denmark, transforma efetivamente um grupo de dispositivos existentes com microfones regulares - como smartphones e laptops - em um array de microfone virtual ad hoc dinâmico.

A ideia é que você não precisa de um microfone de campo distante de qualidade para fazer coisas como a transcrição de conversas. Em vez disso, você praticamente conectaria todos os telefones ou laptops de todos os participantes, e o Project Denmark usaria isso para melhorar o reconhecimento de voz do que qualquer dispositivo único capaz de usar. A Microsoft diz que, com sete fluxos de áudio de entrada, alcança uma taxa de erro de palavra de 22,3% (WER), apesar da sobreposição de fala.

Não é apenas para uma sala de reunião. Por exemplo, a Microsoft sugere que o sistema Project Denmark poderia ser usado para impulsionar encontros improvisados ​​baseados em fala. Com vários aplicativos Microsoft Translator, por exemplo, em vários telefones todos vinculados em um único array de microfones virtuais, uma melhor tradução em tempo real poderia ser ativada.

Os alto-falantes inteligentes domésticos podem se beneficiar

Se você não tem o hábito de participar de reuniões com várias pessoas, talvez se pergunte como tudo isso pode beneficiá-lo. A boa notícia é que a mesma pesquisa que permite a transcrição da conversa da Microsoft também pode melhorar futuros palestrantes inteligentes.

"Embora os alto-falantes inteligentes estejam disponíveis comercialmente hoje", observa a Microsoft, "a maioria deles só pode manipular um comando de fala de uma pessoa de cada vez e exigir uma palavra de ativação antes de emitir tal comando. Com as novas adições ao Serviço de Fala do Azure, no entanto, os futuros palestrantes inteligentes podem estar muito mais sintonizados quando estão sendo falados, entender solicitações e comandos mesmo quando várias pessoas estão falando, e até mesmo lidar com várias partes complexas instruções emitidas simultaneamente por mais de uma pessoa de cada vez.

[Atualizado para refletir a disponibilidade do design de referência de palestrante]

História TimelineA Microsoft acaba de declarar guerra ao G Suite - com IAs, os soldados de infantariaMicrosoft revela tecnologia de inteligência artificial para agentes virtuais valem a pena conversar com oFitter, mais felizes, mais produtivos: 3 maneiras pelas quais a Microsoft está lutando contra a sobrecarga digital

Via: Slash Gear

Nenhum comentário