RunAnywhere (YC W26): el motor de inferencia IA más rápido para Apple Silicon

RunAnywhere (YC W26) lanzó en Hacker News con MetalRT, un motor de inferencia personalizado para Apple Silicon que supera a llama.cpp, MLX de Apple, Ollama y sherpa-onnx en cargas de trabajo de LLM, reconocimiento de voz y síntesis de voz. Benchmarks clave en M4 Max: decodificación LLM a 658 tok/s (vs 552 con MLX), 70 segundos de audio transcritos en 101ms (714x tiempo real), TTS en 178ms. El SDK open-source RCLI habilita IA de voz completamente local sin cloud ni API keys. El diferenciador técnico: shaders Metal personalizados con cero asignaciones en tiempo de ejecución.