Esta nueva función no solo facilita la corrección de errores antes de enviar un mensaje de voz, sino que también proporciona una oportunidad para mejorar la calidad y la claridad del mensaje.
'Voice Engine', será capaz de clonar la voz humana con una muestra de audio de 15 segundos. (Imagen de referencia) | Foto: dpa/picture alliance via Getty I

Tecnología

Así es ‘Voice Engine’, la IA de los creadores de ChatGPT capaz de clonar voces a partir de audios de 15 segundos

Aunque parecer ser prometedora, esta nueva herramienta podría generar riesgos de suplantación.

Redacción Tecnología
1 de abril de 2024

OpenAI presentó este primero de abril a Voice Engine, un nuevo modelo de Inteligencia Artificial (IA) capaz de clonar la voz de las personas con una muestra de audio de 15 segundos, así como de leer indicaciones de texto con dicha voz en varios idiomas, con resultados naturales.

La compañía tecnológica estadounidense continúa desarrollando nuevas herramientas y modelos de IA de cara a proseguir con su compromiso de “comprender la frontera técnica y compartir abiertamente lo que es posible con la IA”, en este caso, en el campo de las voces sintéticas.

En este sentido, OpenAI dio a conocer Voice Engine, un modelo de IA diseñado para “generar un habla con sonido natural que se parece mucho al hablante original”, de acuerdo con la compañía.

Tal y como lo explicó la empresa en un comunicado en su web, comenzaron a desarrollar este modelo a finales de 2022 y, por el momento, Voice Engine es un modelo a pequeña escala que han utilizado para potenciar las voces preestablecidas disponibles en la API de conversión de texto a voz, así como en ChatGPT Voice y Read Aloud.

Las tácticas innovadoras para cultivar hábitos de éxito en el entorno laboral son analizadas por Chat GPT en una entrevista perspicaz.
‘Voice Engine’ es la nueva apuesta de Open IA, la empresa creadora del popular chat de inteligencia artificial ChatGPT. | Foto: SOPA Images/LightRocket via Gett

Sin embargo, al mismo tiempo, también han desarrollado este nuevo modelo con un enfoque de investigación, para comprender mejor los usos potenciales de esta tecnología. Para ello, lanzaron una vista previa a la que han tenido acceso a algunos socios “de confianza”.

Como resultado de esta vista previa, OpenAI ha destacado que, actualmente, Voice Engine es capaz de crear voces “emotivas y realistas” con una sola muestra de 15 segundos de audio de la voz original del hablante, a pesar de que se trata de un modelo pequeño.

Siguiendo esta línea, los resultados de estas pruebas han revelado que Voice Engine tiene distintas aplicaciones, como dar asistencia de lectura a través de voces que suenan naturales, de manera que permite representar una gama más amplia de hablantes de lo que permiten las voces preestablecidas. Por ejemplo, para el ámbito académico, permite generar respuestas personalizadas en tiempo real para interactuar con los estudiantes.

También es un modelo útil para traducir contenido como vídeos o pódcast, de manera que los creadores de contenido puedan llegar a más usuarios a nivel global en varios idiomas, pero utilizando su propia voz. Esto es posible porque Voice Engine conserva el acento nativo del hablante original, de manera que, según ha ejemplificado OpenAI, si un usuario francés habla en inglés, el modelo generará traducciones manteniendo el acento francés en el audio.

De la misma forma, Voice Engine también es útil en entornos laborales, desde labores de marketing de productos hasta, por ejemplo, demostraciones de ventas, todo ello con la posibilidad de desarrollar contenido en cualquier idioma.

Respecto al entorno sanitario, OpenAI ha indicado que el modelo dispone de aplicaciones terapéuticas para usuarios con afecciones que afectan al habla. Por ejemplo, para ayudar a los usuarios en el aprendizaje del habla a la hora de recuperar la voz o para permitir la comunicación de personas con discapacidad utilizando voces no robóticas y en diversos idiomas.

Entre los socios con acceso a esta vista previa de Voice Engine se encuentran la compañía de tecnología educativa Age of Learning, la plataforma de narración visual HeyGen, el fabricante de software de salud Dimagi y el desarrollador de aplicaciones de comunicación de IA Livox.

WhatsApp prepara novedades para las notas de voz.
'Voice Engine', será capaz de clonar la voz de las personas con una muestra de audio de 15 segundos. (Imagen de referencia) | Foto: dpa/picture alliance via Getty I

Seguridad frente al uso de voces sintéticas

A pesar de todo ello, OpenAI ha reflexionado que cualquier implementación amplia de voz sintética “debe ir acompañada de experiencias de autenticación de voz”, para ello, ha detallado una serie de medidas de seguridad que actualmente utilizan con Voice Engine.

Como forma de protección, OpenAI ha señalado que los socios que han probado esta versión de vista previa han aceptado políticas de uso en las que se prohíbe la suplantación de otra persona u organización sin consentimiento o derecho legal. Asimismo, se debe señalar “claramente” a la audiencia que las voces están generadas por IA.

Por su parte, el hablante original debe dar su consentimiento explícito para el uso de su voz, a lo que se añade que OpenAI no permite que los desarrolladores creen formas para que los usuarios individuales creen sus propias voces, según ha detallado.

“Reconocemos que generar un discurso que se asemeje a las voces de las personas conlleva serios riesgos”, admitió la compañía dirigida por Sam Altman, al tiempo que ha adelantado que están colaborando con socios internacionales, medios de comunicación y entretenimiento y profesionales de la educación para recoger sus comentarios sobre el modelo a medida que continúan desarrollándolo.

Con todo ello, OpenAI ha subrayado que, con Voice Engine, esperan iniciar un diálogo sobre “el despliegue responsable de voces sintéticas”, además de cómo se han de utilizar y cómo ha de adaptarse la sociedad a estas nuevas capacidades. Con base en ello, y junto con los resultados de sus pruebas a pequeña escala, la compañía ha indicado que tomará una decisión sobre si implementar esta tecnología a escala en un futuro y cómo hacerlo.

Sam Altman, empresario, inversor, programador y fundador y director ejecutivo estadounidense de la empresa de inteligencia artificial OpenAI, habla en la Universidad de Tel Aviv en Tel Aviv el 5 de junio de 2023. El creador de ChatGPT, OpenAI, anunció el 21 de noviembre de 2023 que Altman regresaría. como su director ejecutivo, días después de que su impactante despido hundiera a la empresa pionera en inteligencia artificial en una crisis. Cientos de empleados de OpenAI amenazaron con dimitir tras el despido de Altman el 17 de noviembre, exigiendo en una carta enviada a los medios la dimisión de la junta directiva, mientras se especulaba sobre el futuro de la empresa. (Foto de JACK GUEZ / AFP)
Sam Altman, fundador y director ejecutivo de la empresa de inteligencia artificial OpenAI. | Foto: AFP

*Con información de Europa Press.