Recientemente, Meta ha presentado MusicGen, un modelo de inteligencia artificial (IA) de fácil uso que puede generar música de alta calidad a partir de una descripción breve en texto y una melodía.

MusicGen es un modelo simple de lenguaje, desarrollado bajo un enfoque de una sola etapa con patrones de tokens eficientes entrelazados ―con EnCodec audio de 32Khz―, que reduce la necesidad de conectar en cascada varios modelos, como explican los investigadores de Audiocraft.

Un teléfono inteligente con el logotipo de Meta y un logotipo de Facebook impreso en 3D se coloca en el teclado de una computadora portátil en esta ilustración tomada el 28 de octubre de 2021. REUTERS / Dado Ruvic / Ilustración | Foto: Reuters

A partir de este enfoque, MusicGen genera muestras de música de alta calidad, de unos doce segundos de duración, con solo introducir una breve descripción en texto y una referencia de la melodía que se busca obtener.

La compañía tecnológica ha publicado en el portal Hugging Face AI una demostración de MusicGen, con la que cualquier usuario puede generar una muestra de música. Añade, también, una serie de ejemplos de las descripciones, en algunos casos acompañados de descripción melódica.

Los investigadores han utilizado para el entrenamiento más de 20.000 horas de música con licencia, incluidas 10.000 pistas de alta calidad procedentes de una base de datos interna, y datos sacados de Shutterstock y Pond5.

Meta no se queda atrás y presenta su inteligencia artificial

Microsoft, con OpenAI y ChatGPT, y Google, con Bard, dieron los primeros golpes sobre la mesa del mundo tecnológico, en especial en la arena de la inteligencia artificial. Aunque hay otras compañías que han desarrollado herramientas bastante útiles, estas compañías han acaparado los reflectores por el peso que tienen dentro de la industria.

Meta, casa matriz de Facebook, Instagram y WhatsApp | Foto: Nikolas Kokovlis/NurPhoto

Todo esto sucedía mientras Meta, casa matriz de Facebook, Instagram y WhatsApp, se ocupaba gastando tiempo e invirtiendo miles de millones de dólares en el metaverso, plan que parece haber pasado a un segundo plano en medio de este revolcón que ha significado la masificación de este nuevo tipo de tecnología en el mundo entero.

Pues bien, Meta dio un giro en sus planes y apuntó hacia la inteligencia artificial buscando recortarle terreno a Microsoft y a Google, poderosos tecnológicos que ya tienen un buen terreno recorrido.

De esta forma, la compañía de Mark Zuckerberg presentó ImageBind, su modelo de inteligencia artificial que promete poderosos avances y con el que espera destronar a ChatGPT.

Según la propia compañía, esta herramienta tiene incluido un sistema multisensorial que le permite aprender de la misma forma como lo hacen los seres humanos, pues contiene imágenes, texto, video y audio, insumos que se pueden computar con datos de profundidad, térmicos y de inercia.

“En los sistemas típicos de IA, existe una incorporación específica (es decir, vectores de números que pueden representar datos y sus relaciones en el aprendizaje automático) para cada modalidad respectiva. ImageBind muestra que es posible crear un espacio de incorporación conjunto a través de múltiples modalidades, sin necesidad de entrenar en datos con cada combinación diferente de modalidades”, explica la compañía.

Meta ha señalado que su nueva herramienta tiene infinitas posibilidades frente a ChatGPT o MidJourney. Esto, ya que ha intentado generar un sistema que le permita obtener información, sobre un mismo objeto, pero desde diferentes perspectivas como su olor, los sonidos que produce, su aspecto, su funcionamiento y sus usos (forma como el ser humano suele asimilar algo nuevo que llega a su vida).

Mark Zuckerberg se decidió por apostarle a su nueva inteligencia artificial para competir con Google y Microsoft. | Foto: Getty ImagesComposición de SEMANA con imágenes de Getty Images e IA de Bing

La empresa asegura que ImageBind supera a otros modelos entrenados para una modalidad en particular. A diferencia de las IA generativas como ChatGPT o Midjourney, la alternativa de Meta vincula seis tipos de datos en un índice multidimensional. Los investigadores podrían usar cualquiera de estos como método de entrada, o realizar una referencia cruzada de ellos.

“ImageBind usa la propiedad vinculante de las imágenes, lo que significa que coexisten con una variedad de modalidades y pueden servir como un puente para conectarlas, como vincular texto a imagen usando datos web o vinculando movimiento a video usando datos de video capturados de cámaras portátiles con sensores IMU”, explicó Meta.

*Con información de Europa Press.