Name: | Description: | Size: | Format: | |
---|---|---|---|---|
2.97 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
Recent developments in the field of artificial intelligence (AI) have led to the creation of powerful generative models. These models have demonstrated such capabilities that it becomes nearly impossible for a human to distinguish between generated and human utterances, between synthetic and natural speech. A relatively recent example of this fact is the deepfake video of former U.S. President Barack Obama [1]. This video not only serves as a demonstration of the capabilities of AI models but also highlights the potential for misinformation, as these models can deceive individuals into believing in fabricated scenarios. This extends to the realm of synthetic speech, where models like Google Duplex [2], leveraging WaveNet technology, a deep neural network for seamless speech creation, exhibit an impressive degree of realism and naturalness. For this reason, two situations may arise. The first is related to new business opportunities, such as the creation of realistic voiceovers for films and animations or enhancement in the communication for individuals with hearing or speech impairments [3]. The other, raises concerns about privacy and security since voice impersonation is easily achievable with today’s tools. Given this fact, an analysis of approaches applied in the ASVspoof challenge [4] was carried on. The ultimate goal is to develop a system capable of distinguishing between real voices and cloned voices, by adapting the research done on this chal lenge to the portuguese from Portugal (PT-PT) language. For this purpose, we first created a PT-PT dataset using both text-to-speech (TTS) and speech-to-speech (STS). Then, we employed and implemented some models from the literature and tested in several datasets that encompass both english and PT-PT voices, to evaluate their per formance and reach conclusions. From this, we found out that while this is a difficult task, by augmenting the data with different impulse response devices (IRs) and com pressions codecs, there was an improvement in the generalization to different attacks from different datasets. Overall, after the evaluation process the best models found through statistical anal ysis were the ResNet-OC and ECAPA-TDNN. Being our goal tailored to PT-PT, by fine-tuning them, we further improved their performance. At the end future steps are highlighted, one of which may be very important to complement the work made so far, which is the integration of the fraud detection component
Os recentes desenvolvimentos na área de inteligência artificial (IA) levaram à criação de poderosos modelos generativos. Estes modelos demonstraram tais capacidades que torna quase impossível para um humano a tarefa de distinguir entre afirmações geradas na IA e humanas. Um exemplo relativamente recente deste facto é o do vídeo falso do ex-Presidente dos Estados Unidos, Barack Obama [1]. Este vídeo não serve apenas como uma demonstração das capacidades dos modelos de IA, mas também destaca o potencial de desinformação, uma vez que estes modelos podem induzir indivíduos a acreditar em cenários "fabricados". Isto estende-se ao domínio da fala sintética, onde modelos como o Google Duplex [2], que aproveitando a tecnologia WaveNet, uma rede neuronal profunda que serve para a criação perfeita de um discurso, exibem um elevado grau de realismo e naturalidade. Por este motivo, podemo-nos deparar com duas situações: a primeira está ligada à oportunidade para novos negócios, como a criação de dobragens realistas para filmes e animações [3], enquanto que a outra, abre caminho a problemas relacionados com a privacidade e segurança, uma vez que a falsificação da voz é de fácil execução com as ferramentas que existem hoje em dia. Dado este fato, foi realizada uma análise das abordagens aplicadas no desafio ASVspoof [4]. O objetivo final é desenvolver um sistema capaz de distinguir entre vozes reais e vozes clonadas, adaptando a investigação realizada no mesmo, para a língua portuguesa de Portugal (PT-PT). Para este fim, primeiro criámos um conjunto de dados PT-PT usando tanto a conversão de texto-para-fala como a conversão de fala-para-fala. Em seguida, utilizámos e implementámos alguns modelos da literatura e testámos em vários conjuntos de dados, que englobam tanto vozes em inglês como em PT-PT, para avaliar o seu desempenho e tirar conclusões. Desta forma, descobrimos que, embora esta seja uma tarefa difícil, ao aumentar os dados com diferentes dispositivos de resposta ao impulso e tipos de compressões, houve uma melhoria na generalização para diferentes ataques de diferentes conjuntos de dados. No geral, após a fase de testes, os melhores modelos encontrados através da análise estatística foram o ResNet-OC e o ECAPA-TDNN. Sendo o nosso objetivo focado para PT-PT, ao refiná-los, conseguimos melhorar ainda mais o desempenho dos dois. No final, são destacados os passos futuros, um dos quais pode vir a ser muito importante para complementar o trabalho feito até ao momento que é a incorporação da componente de deteção de fraude.
Os recentes desenvolvimentos na área de inteligência artificial (IA) levaram à criação de poderosos modelos generativos. Estes modelos demonstraram tais capacidades que torna quase impossível para um humano a tarefa de distinguir entre afirmações geradas na IA e humanas. Um exemplo relativamente recente deste facto é o do vídeo falso do ex-Presidente dos Estados Unidos, Barack Obama [1]. Este vídeo não serve apenas como uma demonstração das capacidades dos modelos de IA, mas também destaca o potencial de desinformação, uma vez que estes modelos podem induzir indivíduos a acreditar em cenários "fabricados". Isto estende-se ao domínio da fala sintética, onde modelos como o Google Duplex [2], que aproveitando a tecnologia WaveNet, uma rede neuronal profunda que serve para a criação perfeita de um discurso, exibem um elevado grau de realismo e naturalidade. Por este motivo, podemo-nos deparar com duas situações: a primeira está ligada à oportunidade para novos negócios, como a criação de dobragens realistas para filmes e animações [3], enquanto que a outra, abre caminho a problemas relacionados com a privacidade e segurança, uma vez que a falsificação da voz é de fácil execução com as ferramentas que existem hoje em dia. Dado este fato, foi realizada uma análise das abordagens aplicadas no desafio ASVspoof [4]. O objetivo final é desenvolver um sistema capaz de distinguir entre vozes reais e vozes clonadas, adaptando a investigação realizada no mesmo, para a língua portuguesa de Portugal (PT-PT). Para este fim, primeiro criámos um conjunto de dados PT-PT usando tanto a conversão de texto-para-fala como a conversão de fala-para-fala. Em seguida, utilizámos e implementámos alguns modelos da literatura e testámos em vários conjuntos de dados, que englobam tanto vozes em inglês como em PT-PT, para avaliar o seu desempenho e tirar conclusões. Desta forma, descobrimos que, embora esta seja uma tarefa difícil, ao aumentar os dados com diferentes dispositivos de resposta ao impulso e tipos de compressões, houve uma melhoria na generalização para diferentes ataques de diferentes conjuntos de dados. No geral, após a fase de testes, os melhores modelos encontrados através da análise estatística foram o ResNet-OC e o ECAPA-TDNN. Sendo o nosso objetivo focado para PT-PT, ao refiná-los, conseguimos melhorar ainda mais o desempenho dos dois. No final, são destacados os passos futuros, um dos quais pode vir a ser muito importante para complementar o trabalho feito até ao momento que é a incorporação da componente de deteção de fraude.
Description
Keywords
Deep learning Speech detection PT-PT dataset Asvspoof challenge