Cumulus Labs, una startup de Y Combinator W26, lanzó IonRouter, una API de inferencia orientada a modelos de IA de código abierto y ajustados. El producto permite a los desarrolladores sustituir la URL base con IonRouter como reemplazo compatible con OpenAI. Su runtime de inferencia personalizado, IonAttention, está construido específicamente para la arquitectura de memoria del NVIDIA GH200. El equipo afirma superar los 588 tokens por segundo en cargas de trabajo multimodales.