La Inteligencia Artificial (IA) está proliferando en diversos campos y uno de ellos es la tecnología de clonación de voz, que cada vez cuenta con más herramientas para su uso y que, a su vez, está ocasionando una serie de preocupaciones entre los usuarios y profesionales ante a los posibles casos de uso indebido, como es la reciente polémica con la actriz Scarlett Johansson, que busca respuestas sobre si OpenAI utilizó su voz sin consentimiento para crear la voz de Sky en el chatbot ChatGPT.
La clonación de voz mediante herramientas de IA consiste en, a través del uso de algoritmos y el aprendizaje automático, crear copias sintéticas de la voz de cualquier persona. En algunos casos, estas herramientas permiten replicar el habla de una persona mediante muestras de audio de tan solo unos segundos, consiguiendo resultados realistas.
Así, a diferencia de las voces sintéticas generadas a través de un ordenador, que se crean con tecnologías de conversión de texto a voz, la clonación de voces utiliza la voz real de una persona y, a partir de ello, genera una interpretación realista de la original.
En este sentido, existen diversas herramientas impulsadas por IA que facilitan la clonación de la voz. Un ejemplo de esta tecnología es VALL-E de Microsoft que, mediante algunas grabaciones de audio de tan solo tres segundos, es capaz de imitar la voz del hablante, preservando incluso las emociones y el entorno acústico del mensaje.
Lo mismo ocurre con la herramienta recientemente anunciada de Open AI, Voice Engine, un nuevo modelo de IA capaz de crear voces personalizadas y naturales con una única muestra de audio de 15 segundos.
Así, estas herramientas presentan múltiples ventajas y facilidades a la hora de utilizar la voz en distintos tipos de contexto, ya sea para la creación de asistentes de voz personalizados, para ayudar a personas con problemas del habla, para el desarrollo de videojuegos o, incluso, para entornos laborales, con aplicaciones al marketing o a la traducción de contenido.
Sin embargo, las tecnologías de clonación de voz también están levantando algunas preocupaciones entre los usuarios y los profesionales de la voz que, ante la posibilidad de un uso indebido de la IA, prevén posibles problemas como la suplantación de la voz y, por tanto, de la identidad.
Posibles usos de la voz sin consentimiento
Estas preocupaciones se materializan en casos como el de la actriz Scarlett Johansson, quien actualmente busca respuestas legales ante el uso de una voz muy similar a la suya por parte de Open AI en su chatbot ChatGPT. En concreto, se trata de la voz conocida como Sky que, como consecuencia a esta situación, ha quedado en desuso temporalmente.
La compañía dirigida por Sam Altman propuso en un primer momento a la intérprete poner voz a ChatGPT, sin embargo, Johansson rechazó la oferta por “razones personales” y, en su lugar, OpenAI optó por trabajar con actores de doblaje profesionales, agencias de talentos, directores de casting y asesores de la industria.
De hecho, la compañía ha afirmado que la voz de Sky no es una imitación de la estadounidense, sino que “pertenece a una actriz profesional diferente, que usa su propia voz natural” y que, incluso, fue contratada antes de la oferta que propusieron a la intérprete.
Sin embargo, Johansson señala que OpenAI ha imitado su voz independientemente de que ella rechazase la oferta y, por tanto, busca esclarecer lo sucedido por la vía legal. “Cuando escuché la demostración lanzada me quedé estupefacta, furiosa e incrédula al ver que el Sr. Altman estaba utilizando una voz que sonaba tan inquietantemente similar a la mía”, manifestó en un comunicado.
Este caso refleja una de las posibles consecuencias del uso de estas tecnologías de clonación, que dan pie a situaciones confusas en las que se dificulta la forma de aseverar y proteger la identidad de los usuarios en Internet, en este caso, con el uso de la voz.
Estafas y ‘deepfakes’
No obstante estas suplantaciones de voz son cada vez más frecuentes, sobre todo, en las redes sociales como Facebook e Instagram, que se han convertido en uno de los canales de difusión preferidos para los artífices de estas estafas, debido a que millones de personas las utilizan a diario y cualquier campaña maliciosa puede tener un gran alcance.
Según una encuesta realizada por las compañías desarrolladoras de las soluciones de software Voicebot y Pindrop, esto es algo que preocupa a más del 57 % de los usuarios, quienes aseguran sentirse intranquilos por su exposición ante esta tendencia creciente.
Con todo ello, en un momento de la sociedad en el que los usuarios lidian continuamente con ‘deepfakes’, información falsa y suplantaciones de voz, se han de tener en cuenta ciertas características a la hora de consumir contenido, como la consistencia de la voz, que en el caso de las voces clonadas pueden tener tonos inusuales o presentar patrones inconsistentes.
Igualmente, además de evaluar las fuentes, es recomendable examinar el contexto del contenido y desconfiar de aquellas publicaciones que compartan publicaciones poco creíbles, como recompensas monetarias altas.
*Con información de Europa Press