Este relatório resume uma conversa entre o João e o seu médico.
A síntese de fala (também conhecida como conversão de texto em fala, síntese de voz ou geração de voz) consiste em transformar um pedaço de texto num áudio. Vamos ver como realizar a síntese de fala com o Microsoft Speech T5 no NLP Cloud.
Basta enviar um texto e deixar que o modelo gere o áudio correspondente a partir dele (apenas em inglês).
Eis um exemplo. Vamos gerar um áudio a partir do seguinte texto:
Este relatório resume uma conversa entre o João e o seu médico.
Eis o resultado:
Também pode escolher o tipo de voz que está a utilizar.

A conversão de texto em voz é utilizada em cada vez mais aplicações como a última parte de uma cadeia de IA. Podem ser consideradas muitas aplicações. Eis alguns exemplos:
Quando utilizados em conjunto com a conversão de voz em texto (ver o modelo Whisper da OpenAI, por exemplo) e modelos generativos, é possível criar assistentes virtuais completos que compreendem a voz humana e respondem a ela.
Uma das utilizações mais impactantes da síntese de voz é em dispositivos de assistência e software para pessoas com deficiência visual ou com dificuldade em ler texto devido a dislexia ou outras condições. As aplicações e dispositivos que convertem texto em voz permitem a estas pessoas consumir conteúdos escritos, como livros, e-mails e artigos da Web, através de meios auditivos. Esta tecnologia melhora significativamente a acessibilidade e a independência ao permitir que os utilizadores "leiam" o texto sem necessitarem de pistas visuais.
A tecnologia de síntese da fala é implementada em aplicações e software de aprendizagem de línguas para ajudar os utilizadores a desenvolver a pronúncia, as capacidades auditivas e a capacidade de conversação numa nova língua. Ao ouvir o texto lido em voz alta na língua-alvo, os alunos podem compreender melhor a pronúncia e o ritmo da língua. Isto é particularmente útil para línguas que têm sons ou fonemas que não estão presentes na língua materna do aprendente ou para línguas tonais complexas.
Com os avanços na síntese da fala e na IA, as empresas podem agora criar mensagens de voz personalizadas para campanhas de marketing ou esforços de envolvimento do cliente. Esta tecnologia permite às empresas enviar mensagens de áudio personalizadas aos seus clientes, tais como desejos de aniversário, lembretes de compromissos ou promoções especiais, utilizando uma voz sintetizada que pode ser adaptada para corresponder à identidade da marca ou mesmo imitar as nuances de um porta-voz humano. Esta abordagem inovadora pode melhorar a experiência do cliente, fazendo com que as interacções sejam mais pessoais e envolventes, aumentando assim a fidelidade à marca e a retenção de clientes. Esta abordagem preenche a lacuna entre as mensagens automatizadas tradicionais e impessoais e a necessidade de estratégias de comunicação escaláveis e individualizadas no panorama do marketing digital.
O NLP Cloud propõe uma API de geração de voz baseada no Microsoft Speech T5 que lhe permite efetuar uma geração de voz extremamente rápida e imediata em inglês.
Para mais informações, consulte a nossa documentação sobre síntese de voz aqui. E teste facilmente a síntese de voz no nosso parque infantil..