Antes de comprimir archivos con zip. Ahora lo que comenzamos a necesitar es comprimir la IA para que sea más pequeña y eficiente. Esa es la idea que tuvieron los fundadores de Multivrse Computing, una startup en español que se está convirtiendo en la nueva joya de la corona de nuestra industria de IA. Sus fundadores, (en la imagen, de izquierda a derecha, Román Orús, Enrique Lizaso Olmos y Samuel Mugel) y Alfonso Rubio tienen mucho que celebrar.
Ronda de inversión. Computación multivizada Acaba de cerrar Una ronda de inversión de 189 millones de euros (215 millones de dólares). La ronda (Serie B) ha sido dirigida por Bullhound Capital, pero también ha participado HP Tech Ventures, Sett, Forgepoint Capital International, CDP Venture Capital, Santander Climate VC, Quantonation, Toshiba y Euskadi Capital de riesgo de Euskadi – Group. En marzo pasado, la compañía recibió una inversión de 67 millones de euros del Gobierno de España.
La inferencia ai por bandera. Aunque la prominencia actual generalmente lo lleva a los grandes tecnológicos que invierten miles de millones de dólares en centros de datos para capacitar a grandes modelos de idiomas (LLM), hay cada vez más enfoque en la otra parte: la que usamos usuarios al pedir cosas para chatgpt, por ejemplo. Es la inferencia de IA, llamada, y la estimación es que en 2025 el valor de esa industria alcanza los 106,000 millones de dólares. En la computación multivrse quieren una buena pieza de ese pastel, y para lograr esto, su gran truco es una tecnología única.
Compactifai. Este es el nombre de La tecnología de compresión de los modelos de IA desarrollados por informática multivance. Lo que esto permite convertir modelos muy grandes, lo que cuesta mucho para «ejecutar», en modelos mucho más pequeños y eficientes, lo que les permite hacerlos más manejables y ahorrar muchos recursos (y tiempo) durante la inferencia.
Cómo comprimir un modelo de IA. Román Orús, director científico de la empresa, dirigió Un estudio Mayoo de 2024 en el que explicaron con precisión el concepto de «redes de tensión» de inspiración cuántica y que permiten la comprimir estos modelos. Su operación se basa en la descomposición de las matrices de pesos de las redes neuronales «truncarlas» y retener solo los valores más grandes y relevantes. En esencia, el concepto se centra en descartar la información menos relevante del modelo que se dejará solo con los más relevantes.
¿Pero eso no hace que el modelo sea menos preciso? De hecho, pero el grado de truncamiento puede controlarse para que haya un buen equilibrio y compromiso entre la compresión y la pérdida de precisión. Incluso comprimiendo estos modelos, en la computación multivrse aseguran que la caída de los modelos sea solo del 2 al 3%.
Mismo rendimiento en un tamaño 95% más bajo. Para mitigar esa caída de precisión, este sistema incluye una fase de resentimiento rápido llamada «curación» que se puede repetir varias veces para lograr una precisión aún más cercana a la versión original. Al final, afirman en la empresa, pueden comprimir hasta un 95% de un modelo de rendimiento.
Reduce el uso de AI. De acuerdo a Tus datosUn modelo como llama 3.1 405b tiene un costo operativo de aproximadamente $ 390,000 si queremos ejecutarlo en casa (13 GPU H100, 9100 W de consumo), pero gracias a Compactifai es posible reducir ese costo a 60,000 dólares (2 GPU H100, 1,400 W).
Uno más «delgado». Los modelos «delgados» proporcionados por la Compañía – Derivados de Llama 3.3 70B o Call 4 Scout – son versiones comprimidas que teóricamente no pierden precisión. Se pueden ejecutar a través de la plataforma AWS o mediante licencias que también nos permiten usarla locales decir, en la infraestructura local/propia. Según sus métricas, estos modelos son entre 4 y 12 veces más rápidos que sus versiones no comprimidas, lo que se traduce en un costo de inferencia entre 50% y 80% más bajo.
Imagen | Computación multivizada
En | España es finalmente