Anthropic presentó este miércoles Sonnet 5, la nueva versión de su modelo de inteligencia artificial, diseñado no solo para responder consultas de los usuarios, sino también para gestionar agentes de IA con mayor autonomía, mejor desempeño y un costo inferior al de otros modelos de la compañía.
La empresa explicó que Sonnet 5 puede ejecutar tareas como utilizar navegadores web, operar terminales y completar procesos de forma autónoma. Además, adopta la misma nomenclatura de Fable 5, el modelo de la clase Mythos cuyo lanzamiento fue suspendido temporalmente hace dos semanas y que ya volvió a estar disponible a nivel mundial tras recibir la autorización del Gobierno de Estados Unidos.
Anthropic destacó en su sitio web que el rendimiento alcanzado por Sonnet 5 habría requerido, hace apenas unos meses, un modelo de mayor tamaño y con un costo significativamente más alto. Según la compañía, el nuevo sistema ofrece capacidades cercanas a las de los recientes modelos de la familia Opus.
Frente a Sonnet 4.6, la nueva versión reduce la tasa de comportamientos indeseables y mejora la seguridad en tareas relacionadas con agentes de inteligencia artificial. Sin embargo, mantiene un rendimiento inferior en funciones de ciberseguridad, un campo en el que Fable 5 continúa destacando.
Las pruebas de desempeño muestran que Sonnet 5 supera a Sonnet 4.6 en todos los indicadores publicados por Anthropic. Las mayores mejoras se registran en la resolución de tareas complejas de principio a fin, así como en las evaluaciones Humanity’s Last Exam, centrada en conocimiento especializado, y Terminal-Bench v2.1, enfocada en el uso de terminales, donde obtuvo incrementos de 10.6 y 13.4 puntos, respectivamente.
La compañía también comparó el nuevo modelo con Opus 4.8, uno de sus sistemas más avanzados. Según los resultados, Sonnet 5 logra competir e incluso superar a ese modelo en pruebas de trabajo agéntico como AA-Briefcase y GDPval-AA. Además, cuando se activa el nivel máximo de razonamiento, reduce la diferencia con Opus 4.8 en evaluaciones de tareas complejas.
No obstante, Anthropic reconoció que Opus 4.8 continúa ofreciendo mejores resultados en matemáticas, razonamiento avanzado y ciberseguridad ofensiva, debido a que Sonnet 5 incorpora limitaciones deliberadas en esas áreas.
Sonnet 5 ya está disponible como modelo predeterminado para los usuarios de las versiones gratuita y Pro de Claude. Su precio será de $3 por millón de tokens de entrada y de $15 por millón de tokens de salida. La compañía también incorporó un nuevo sistema de tokenización que mejora el procesamiento del lenguaje, aunque un mismo texto puede consumir entre una y 1.35 veces más tokens, lo que representa un incremento de hasta 35 % en el volumen utilizado para un mismo prompt.
