Tecnología
Increíble: inteligencia artificial de Microsoft puede imitar cualquier voz en muy pocos segundos
El gigante de la informática presentó su proyecto de IA VALL-E que sintetiza el texto para transformarlo en voz.
Microsoft está desarrollando VALL-E, una tecnología basada en inteligencia artificial (IA) que es capaz de aprender e imitar cualquier voz tomando como ejemplo una grabación de tres segundos.
La compañía tecnológica estadounidense apuesta por la implementación de la IA en sus productos y servicios. En este sentido, trabaja en proyectos para agregar el chat desarrollado por OpenAI ChatGPT en sus buscadores y en la suite de Office.
Siguiendo esta línea, Microsoft presentó su proyecto de IA VALL-E, un modelo de lenguaje Text-to-Speech (TTS por las siglas en inglés) que sintetiza el texto para transformarlo en voz. Lo novedoso de esta tecnología es su capacidad de aprendizaje en contexto que, mediante grabaciones de audio de tan solo tres segundos, es capaz de imitar las voces de estas grabaciones.
Es decir, tal y como explica Microsoft en documento compartido en GitHub, VALL-E puede sintetizar voces personalizadas de “alta calidad” con una grabación registrada de tres segundos de un hablante. Sus desarrolladores también señalan que las muestras tomadas sugieren que VALL-E podría “preservar la emoción del hablante y el entorno acústico del mensaje”.
La compañía ha subrayado que esta tecnología supera “significativamente” a otros sistemas de TTS en cuanto a la naturalidad del habla y a la similitud con el hablante. Durante la etapa previa al entrenamiento, los desarrolladores escalaron los datos de prueba de TTS a 60.000 horas de habla en inglés, lo que, según han explicado, es “cientos de veces” más grande que los sistemas existentes.
Asimismo, otra novedad de esta tecnología es que está siendo desarrollada para funcionar con “otros modelos generativos de IA”, como es GPT-3. Esta característica ofrece posibilidades de integrar VALL-E en otras tecnologías como ChatGPT. De esta forma, esta IA también podría ofrecer resultados de voz además de texto.
¿Por qué ChatGPT se ha convertido en un riesgo para el negocio de Google?
La inteligencia artificial (IA) detrás del chatbot ChatGPT de OpenAI ha puesto en alerta a Google por plantear un riesgo para el principal negocio de la compañía dada su potencial aplicación en los motores de búsqueda.
Un ingeniero de Google alertó este año de que el Language Model for Dialogue Applications (LaMDA), el modelo de inteligencia artificial creado por la compañía para elaborar ‘chatbots’ con modelos de lenguajes avanzados, era capaz de pensar y razonar como un ser humano.
La compañía negó tal hecho y explicó que “estos sistemas imitan los tipos de intercambios que se encuentran en millones de oraciones y pueden tocar cualquier tema fantástico”, pero la experiencia compartida por el ingeniero alertó sobre la posibilidad de una IA consciente a largo plazo.
Recientemente, la experiencia de ChatGPT ha recuperado esta preocupación. Desarrollado por OpenAI, se trata de un chat de inteligencia artificial entrenado para mantener una conversación en texto, y ha sorprendido por lo natural de sus respuestas y por su capacidad para generar y enlazar ideas, corregir sus errores y recordar las conversaciones previas que utiliza como contexto.
ChatGPT se ha lanzado de forma experimental y todavía tiene mucho que mejorar, pero ha puesto en alerta a Google por su potencial aplicación en los motores de búsqueda, el ámbito que Google domina desde hace más de 20 años, donde acapara una cuota de mercado del 92 %, de acuerdo con datos de Statista.
Según informan en The New York Times, que cita informes internos y grabaciones a los que ha tenido acceso, Google está reorientando la estrategia de inteligencia artificial de la compañía, para lo que ha implicado a numerosos grupos de trabajo en esta área e incluso ha instado a los empleados a desarrollar soluciones de IA que permitan crear obras de arte ty otras imágenes a ejemplo de DALL-E, también de OpenAI.
Por el momento, Google no se plantea el uso de LaMDA en el motor de búsqueda, ya que se trata de una tecnología que no encaja bien con los anuncios, y este negocio acaparó solo el año pasado, el 80 por ciento de los ingresos. En concreto, se opone el ofrecer de forma precisa los resultados que busca el usuario con un modelo de negocio basado en los clics sobre los contenidos publicitarios.
El gigante tecnológico tampoco ha facilitado el acceso a las pruebas de LAMDA de forma amplia, ya que puede generar contenidos falsos, tóxicos y llenos de perjuicios, como ya ha ocurrido con el chatbot Tay de Microsoft o más recientemente con Galactica de Meta.
*Con información de Europa Press.