Osaurus

Osaurus — Descargar gratis. Servidor local de LLM nativo para Apple Silicon

Osaurus es un servidor de modelos de lenguaje grande (LLM) local, diseñado exclusivamente para chips Apple Silicon. Utiliza el marco MLX de Apple para lograr el máximo rendimiento en Macs con serie M. Proporciona un punto final API compatible con OpenAI, permitiendo la integración con diversas aplicaciones de asistente de IA de escritorio. La aplicación incluye una interfaz SwiftUI para gestionar modelos y un servidor HTTP integrado construido con SwiftNIO.

5.0(1 valoraciones)

Descargar Osaurus (Enlaces oficiales)
Tamaño del archivo: 11.8 MB
La última versión de Osaurus es: 0.11.2
Sistema operativo: MacOS
Idiomas: English
Precio: $0.00 USD
Producto de código abierto (MIT) y gratuito.

  • Runtime nativo MLX. Osaurus se ejecuta sobre MLX, el marco de aprendizaje automático de Apple optimizado para sus procesadores. Este enfoque aprovecha directamente las unidades de procesamiento neuronal (Neural Engine) y la aceleración por GPU Metal, resultando en una inferencia más rápida y un uso de memoria eficiente comparado con soluciones basadas en Python o Electron.
  • Exclusivo para Apple Silicon. El software está desarrollado y probado específicamente para la arquitectura de los chips M1, M2, M3 y superiores. No tiene soporte para Macs con Intel o otras plataformas, lo que permite una optimización profunda del sistema y del hardware.
  • Compatibilidad con API de OpenAI. El servidor implementa los puntos finales /v1/models y /v1/chat/completions, tanto en modo de transmisión (streaming) como no transmisión. Esto permite que clientes diseñados para la API de OpenAI, como diversas aplicaciones de asistente de código, funcionen con Osaurus sin modificaciones.
  • Llamadas a funciones (Tool Calling). Soporta el estilo OpenAI para definir herramientas y su elección (tool_choice). Analiza las llamadas a herramientas (tool_calls) y gestiona los deltas de transmisión en flujos de respuesta, facilitando la integración de capacidades de agentes autónomos.
  • Plantillas de chat inteligentes. Emplea la plantilla de chat Jinja proporcionada por el modelo, respetando los tokens de inicio (BOS) y fin (EOS) de secuencia. Incluye un sistema de reserva automática para modelos que no definen una plantilla, asegurando la generación de prompts correctamente formateados.
  • Reutilización de caché KV (sesiones). Mediante un parámetro session_id, el servidor puede conservar la caché de claves-valores entre turnos de conversación. Esto reduce la latencia en diálogos multi-turno, ya que no es necesario reprocesar el historial completo en cada nueva interacción.
  • Transmisión de tokens de baja latencia. Utiliza Server-Sent Events (SSE) para enviar los tokens generados al cliente en tiempo real, a medida que se producen. Esta técnica proporciona una experiencia de escritura incremental sin esperas perceptibles.
  • Gestor de modelos integrado. La interfaz permite navegar, descargar y administrar modelos directamente desde los repositorios de la comunidad mlx en Hugging Face. Los modelos descargados se configuran automáticamente para su uso inmediato con el servidor.
  • Monitor de recursos del sistema. Muestra en tiempo real el uso de CPU y RAM dentro de la interfaz de la aplicación. Esta visualización permite al usuario observar el impacto del modelo cargado y la actividad del servidor.
  • Aplicación autocontenida. Combina un servidor HTTP SwiftNIO y una interfaz de usuario SwiftUI en un único paquete. No requiere entornos de ejecución externos como Python, lo que simplifica la instalación y reduce la huella en disco.
  • Interfaz minimalista en la barra de menús. La aplicación reside principalmente como un ícono en la barra de menús de macOS, proporcionando un control rápido para iniciar/detener el servidor y acceder a la configuración. Este diseño mantiene el escritorio despejado.
  • Rendimiento mediblemente superior. Benchmarks internos indican que Osaurus puede ser aproximadamente un 20% más rápido en inferencia que otras soluciones locales como Ollama, cuando se ejecutan modelos equivalentes en el mismo hardware Apple Silicon.

La empresa Dinoki inició el desarrollo de Osaurus en 2024. El proyecto surgió de la observación del potencial de los chips Apple Silicon para la IA local y la ausencia de servidores LLM nativos optimizados para esta plataforma. Los desarrolladores, especializados en Swift y sistemas macOS, construyeron la aplicación utilizando principalmente el lenguaje de programación Swift, aprovechando los marcos SwiftUI para la interfaz y SwiftNIO para el servidor de red. La decisión de usar Swift y MLX, en lugar de stacks multiplataforma comunes, se tomó para obtener el máximo control sobre el rendimiento y la integración con las APIs de sistema de Apple.


Alternativas a Osaurus: