Header Ads

AI2 dá à luz a WellSaid, uma startup que sintetiza vozes incrivelmente realistas

Temos a Siri da Apple, a Cortana, da Microsoft, a Alexa e o Assistente do Google da Amazon - precisamos de mais vozes sintetizadas para fazer nossos lances?

Absolutamente, digamos os fundadores da WellSaid Labs, uma startup que está sendo desenvolvida pelo Allen Institute for Intelligence Artificial de Seattle (também conhecido como AI2).

"Estamos apenas resolvendo um problema diferente", co-fundador e chefe de tecnologia O oficial Michael Petrochuk disse ao GeekWire. “Alexa e o Google Home estão tentando resolver o problema de comunicar claramente, lentamente - pronunciando tudo da mesma maneira, em um formato monótono para que possa ser compreendido por todos.”

A WellSaid, por outro lado, está desenvolvendo um conjunto estável de vozes com tecnologia AI customizadas para diferentes contextos, e soando tão realistas que você não acreditaria que fossem robôs. Durante uma recente demonstração em vídeo para uma sala cheia de aficionados por IA, a maioria das pessoas imaginou que as imagens foram geradas por um algoritmo, mas não pelas vozes:

“Estamos procurando parcerias com pessoas que querem vender produção de conteúdo com voz e também a próxima geração de experiências de voz ”, disse Hocking. "Estamos ativamente procurando pessoas para explorar oportunidades."

A tecnologia pode ser aplicada a uma ampla gama de oportunidades: por exemplo, um videogame conhecido como Red Dead Resumption 2 requeriam os serviços de 700 atores de voz. Teoricamente, o WellSaid poderia oferecer um enorme catálogo de vozes sintetizadas que poderiam fazer o mesmo trabalho com IA.

A plataforma de software do WellSaid também poderia incrementar audiolivros, oferecer assistentes de voz personalizados ou dar às empresas “vozes de marca” que poderiam se tornar parte de sua imagem duradoura. O apresentador veterano Don Pardo pode não estar mais conosco, mas sua voz sintetizada poderia continuar a apresentar “Saturday Night Live” pelas próximas décadas.

Para aqueles que perderam a capacidade de falar devido a acidente ou doença , WellSaid poderia fornecer uma voz sintetizada com um toque natural ao invés do monótono robótico que se tornou a marca registrada do falecido físico Stephen Hawking.

Hocking comparou o conceito ao uso de imagens, vídeos e vídeos stock em produções criativas. Agora haverá vozes em estoque.

"Tudo o que está escrito agora pode ser expresso", disse Hocking.

Petrochuk e Hocking estão muito conscientes de as potenciais armadilhas associadas a vozes sintéticas super-realistas. Vídeos incrivelmente falsos - como um clipe viral no qual o ex-presidente Barack Obama parece fazer declarações malucas como "Ben Carson está no lugar submerso" - já mostram como a linha entre realidade e falsidade pode ser confundida além do reconhecimento:

"Essa não é uma direção que nossa empresa queira", disse Petrochuk. "Nosso foco é permitir que criadores de conteúdo criem com voz e estamos nos concentrando na criação de um produto para o bem comum, de acordo com a missão da AI2. Com isso, temos que reconhecer algumas possíveis implicações negativas dessa tecnologia. ”

Petrochuk disse que o WellSaid não permitirá que ninguém crie uma voz. "Tudo o que estamos fazendo é abrir uma biblioteca de vozes curadas, com as devidas precauções para garantir que essas vozes não sejam usadas de forma negativa", disse ele.

As vozes do WellSaid são gerados pela gravação de texto falado por atores de voz que deram seu consentimento e, em seguida, o colocam em um algoritmo que captura a “impressão digital” da voz natural. Essa voz pode ser usada para falar qualquer texto inserido no programa de software da WellSaid. ajustes apropriados para transmitir conteúdo emocional.

A estabilidade das vozes sintetizadas do WellSaid deixará os atores fora dos negócios?

“No momento, estamos trabalhando na tecnologia básica, mas Definitivamente, vemos um modelo de negócios em que você pode olhar para um dublador e compará-lo a um fotógrafo ”, disse Hocking. “Um dublador pode ter uma versão sintética de sua voz, que pode licenciar para projetos de maior volume e baixa qualidade - mas depois trabalhar no comercial de televisão ou filme de ponta que realmente precisa ser colocado em prática. . "O outro lado é que o software pode literalmente dar voz aos que não têm voz. Os pontos positivos superam os negativos, disse Hocking. “Você olha para o CGI, olha para a tecnologia existente e é inevitável que a voz seja parte disso. Os aplicativos nos quais estamos focados e a forma como eles capacitarão as pessoas com problemas para falar ou não falar ou precisarem de acesso à voz para produzir algo valioso são o foco no qual estamos concentrados. … Estamos concentrados em levar essa tecnologia incrível às pessoas que mais precisam dela. ”

Veja alguns exemplos comparativos adicionais:

Via: Geek Wire

Nenhum comentário