Galería de Arquitecturas LLM: guía visual de diseños de modelos modernos

El investigador de IA Sebastian Raschka ha publicado la Galería de Arquitecturas LLM, un recurso visual integral que cataloga los diseños arquitectónicos de los principales modelos de lenguaje grandes. La galería proporciona comparaciones lado a lado de variantes de transformadores, mecanismos de atención, esquemas de codificación posicional y técnicas de entrenamiento utilizadas por modelos desde GPT-4 hasta Llama 3 y Gemini. Cada entrada incluye diagramas anotados que muestran las innovaciones clave y diferencias respecto al trabajo anterior. El recurso se ha convertido en una referencia instantánea para ingenieros y investigadores de ML, ganando más de 360 puntos en Hacker News.