A Microsoft desenvolveu o VALL-E – um modelo de IA de conversão de texto em fala que imita qualquer voz apenas ouvindo uma amostra de áudio de 3 segundos.
Antes de continuar lendo, gostaria de deixar claro que VALL-E é diferente de WALL-E. Embora alguns de nós pronunciemos ambas as palavras exatamente da mesma forma, há muita diferença entre as duas. WALL-E é uma animação da Disney-Pixar lançada em 2008, que incluía um robô de IA fofo e amigável.
O fator AI é de fato uma semelhança entre VALL-E e WALL-E. |
O que sabemos sobre o VALL-E?
Em termos técnicos, a Microsoft chama VALL-E de “Neural Codec Language Model”. Em uma linguagem mais simples, o VALL-E é um modelo de IA que pode gerar áudio a partir de entrada de texto, bem como imitar a voz de qualquer amostra de áudio fornecida. Ao ouvir uma amostra vocal tão breve quanto três segundos, ele pode imitar qualquer voz. O VALL-E ainda não está acessível ao público em geral. Ele pode não apenas se adequar à voz, mas também ao clima e à acústica do espaço. Existem questões morais com ele, apesar do fato de que pode ser aplicado de muitas maneiras benéficas.
Modelos de treinamento –
Os pesquisadores afirmam ter treinado VALL-E em 60.000 horas de falantes de inglês, em comparação com mais de 7.000 pessoas na biblioteca de áudio LibriLight da Meta. A voz do locutor-alvo deve se parecer muito com os dados de treinamento para ser imitada. Dessa forma, o Al pode utilizar seu ‘treinamento’ para tentar imitar a voz do falante alvo.
Imitar Emoções –
Deve-se enfatizar que o modelo Al pode simular a acústica da sala, bem como o tom emocional do locutor, além do tom, casca e textura. Portanto, VALL-E irá imitar a voz alvo como se tivesse uma perturbação se a voz alvo tiver uma.
De acordo com a equipe de pesquisa da Microsoft, “As descobertas dos experimentos demonstram que o VALL-E funciona muito melhor em termos de naturalidade da fala e semelhança do locutor do que o sistema TTS zero-shot mais avançado. Além disso, descobrimos que o VALL-E pode manter a emoção do locutor e o contexto acústico do prompt acústico durante a síntese”.
Ameaças –
O modelo Al pode ser aplicado a robótica, produção de mídia e aplicativos personalizados de conversão de texto em fala. No entanto, se usado de forma inadequada, pode representar uma ameaça. A empresa alertou que o modelo pode ser usado indevidamente para representar ou falsificar a identificação de voz porque o VALL-E pode sintetizar a fala enquanto mantém a identidade do locutor.
O VALL-E pode ser usado, por exemplo, para gerar chamadas de spam que parecem ser legítimas para enganar as pessoas. Políticos ou qualquer pessoa com uma presença social respeitável também são suscetíveis à representação, conforme demonstrado por boatos. Ameaças podem chegar aos usuários que usam aplicativos que precisam de comandos de voz ou senhas de voz. Além disso, os trabalhos dos dubladores podem ser eliminados pelo VALL-E.
Posição Ética –
Além disso, a empresa inclui uma declaração sobre ética que diz: “Os testes neste trabalho foram realizados sob a suposição de que o usuário do modelo é o orador-alvo e foi aceito pelo orador”. O protocolo para garantir que o locutor concorda em executar a alteração e o sistema para detectar a fala modificada devem ser incluídos nos modelos de edição de voz, afirmou, quando o modelo é generalizado para todos os locutores.
Como o VALL-E é diferente do DALL-E?
O DALL-E é um modelo de aprendizado de máquina criado pela OpenAI que gera gráficos a partir de descrições de texto. Os prompts são usados para descrever essas descrições de texto para imagem. Apenas uma descrição da cena é suficiente para que o algoritmo produza visuais realistas. DALL-E é uma técnica de rede neural que constrói imagens precisas de palavras curtas fornecidas pelo usuário. Ele aprende a linguagem usando descrições textuais e de dados de “aprendizagem” que usuários e desenvolvedores contribuíram para seus conjuntos de dados.
O que você acha do VALL-E?
Esperamos que agora você saiba tudo sobre VALL-E (texto para som) em comparação com DALL-E (texto para imagem). Não há uma data definida de quando o VALL-E estará disponível para acesso e uso do público em geral. No que diz respeito ao DALL-E, ele já foi disponibilizado para todos.
Informe-nos nos comentários abaixo se tiver alguma dúvida ou recomendação. Teremos o maior prazer em lhe fornecer uma resolução. Frequentemente publicamos conselhos, truques e soluções para problemas comuns relacionados à tecnologia. Você também pode nos encontrar em Facebook, Twitter, Youtube, Instagram, Flipboard, e pinterest.