El 22 de mayo de 2025, Anthropic publicó el informe técnico “Activating AI Safety Level 3 Protections”, donde presenta en detalle cómo ha activado el estándar ASL-3 para su modelo más avanzado, Claude Opus 4.
Este informe explica la arquitectura de seguridad adoptada e informa sobre cómo deben desplegarse y gobernarse los sistemas de inteligencia artificial «de frontera» (todavía no se ha establecido una traducción exacta, podemos decir que son sistema pioneros o de vanguardia) para que sean seguros, éticos y socialmente responsables.
Acceso al informe: AI safety level 3 protections
El documento cubre diversos aspectos:
- Evaluaciones de riesgos en capacidades químicas, biológicas, radiológicas y nucleares (CBRN),
- Mecanismos de respuesta ante vulnerabilidades
- Protección de pesos del modelo y control de accesos diferenciados.
A medida que los modelos de inteligencia artificial se vuelven más potentes, también aumentan los riesgos asociados a su uso indebido o su acceso no autorizado. Para abordar estos riesgos de forma anticipada y responsable, Claude ha desarrollado el estándar AI Safety Level 3 (ASL-3), un conjunto de medidas avanzadas que marcan un nuevo nivel de exigencia en el despliegue y la protección de modelos de IA de «frontera» (de vanguardia).
Framework ASL de Ciberseguridad IA
Estándares de ASL-2 y ASL-3 de Despliegue y Seguridad de Nivel 3 - Claude (Anthropic)
🎯 ASL (AI Safety Levels)
✅ ASL-2: Nivel mínimo de protección
- El ASL-2 es el nivel actualmente aplicado por defecto a todos los modelos de Anthropic. Incluye salvaguardas para evitar abusos comunes y protege los modelos de accesos no autorizados.
✅ ASL-3: Nivel reforzado ante amenazas graves
- Se activa cuando un modelo se aproxima al umbral de capacidades que podría facilitar la creación o despliegue de armas CBRN, incluso por individuos no especializados.
Enfoque de Defensa en Profundidad: Múltiples capas de protección combinadas
Proceso Iterativo: Aprendizaje y mejora continua de las medidas implementadas
Transparencia: Publicación para avanzar el diálogo sobre regulación de riesgos de IA frontera
En el contexto de la inteligencia artificial avanzada, Anthropic ha definido una serie de niveles de seguridad y protección denominados ASL (AI Safety Levels), que marcan estándares progresivos para garantizar que los modelos de IA no puedan ser utilizados para causar daños catastróficos. Cuanto más potente es un modelo, más alto debe ser el nivel de protección requerido.
ASL-2: Nivel mínimo de protección
El ASL-2 es el nivel actualmente aplicado por defecto a todos los modelos de Anthropic. Incluye salvaguardas para evitar abusos comunes y protege los modelos de accesos no autorizados. Sin embargo, este nivel presupone que el modelo aún no posee capacidades que puedan facilitar la creación o uso de armas químicas, biológicas, radiológicas o nucleares (CBRN) por parte de actores con conocimientos técnicos básicos.
ASL-3: Nivel reforzado ante amenazas graves
El ASL-3 se activa cuando un modelo de IA se acerca a umbrales de capacidad que podrían facilitar el uso indebido con consecuencias catastróficas, como la creación o despliegue de armas CBRN incluso por individuos sin alta especialización.
Aunque el umbral CBRN es una referencia clave, el estándar también se puede aplicar de forma preventiva cuando el rendimiento del modelo sugiere un riesgo creciente. Esto requiere elevar las medidas tanto de despliegue como de seguridad para dificultar usos maliciosos y proteger los pesos del modelo frente a actores hostiles.
El ASL-3 se compone de 2 pilares fundamentales que responden a tipos de riesgo distintos pero complementarios:
ASL-3 Despliegue (ASL-3 Deployment Standard Criterion)
ASL-3 Seguridad (ASL-3 Security Standard Criterion)
Framework ASL-3
Estándares de Despliegue y Seguridad Nivel 3 - Claude (Anthropic)
🎯 Umbral de capacidad CBRN-3
Definición: Capacidad de ayudar significativamente a individuos o grupos con formación técnica básica (grupos STEM) a crear/obtener y desplegar armas químicas, biológicas, radiológicas y nucleares (CBRN).
Riesgo: Podría aumentar en gran medida el número de actores capaces de causar daño catastrófico.
🚨 Activación
Claude Opus 4 superó el umbral CBRN-3
Rendimiento superior en tareas proxy CBRN comparado con Sonnet 3.7
🛡️ ASL-3 Activado
Implementación de salvaguardas robustas
Protección contra mal uso catastrófico persistente
ASL-3 Standard de despliegue (Deployment)
Este apartado se centra en evitar que los modelos sean utilizados de forma maliciosa, especialmente en escenarios de alto riesgo.
Uno de los principales objetivos de este componente es prevenir el uso de la IA para facilitar el desarrollo o proliferación de capacidades CBRN (químicas, biológicas, radiológicas y nucleares).
Para ello, se establecen medidas como la resistencia frente a jailbreaks universales, el análisis proactivo de amenazas, la colaboración con expertos externos y la implementación de defensas robustas ante ataques sofisticados y persistentes.
1. ASL-3 Estándar de despliegue
1.1 Mecanismos de filtrado en tiempo real
Anthropic utiliza clasificadores en tiempo real basados en Constitutional Classifiers, modelos de lenguaje entrenados para detectar y bloquear entradas y salidas peligrosas sin menoscabar la capacidad general del servicio.
Estos clasificadores utilizan ejemplos sintéticos generados a partir de una “constitución” que distingue usos prohibidos, permitidos bajo amenaza e inofensivos.
Cuando hablamos de bypass (o jailbreak), nos referimos a una técnica de elusión en la que un usuario intenta engañar al modelo para que actúe en contra de sus restricciones de seguridad, por ejemplo, formulando preguntas en lenguaje indirecto, usando codificaciones u otras estrategias.
El objetivo de un bypass es hacer que el modelo responda de forma inapropiada sin activar los mecanismos de defensa.
Los clasificadores en tiempo real dificultan la creación de estos bypass universales sin una pérdida sustancial de capacidad.
1.2 Evaluación continua
Monitorización offline: análisis diferido de interacciones sospechosas para medir falsos positivos y brechas, sin las limitaciones de latencia de producción.
Bug bounty en HackerOne: recompensa a investigadores que descubran bypass que superen los clasificadores, enriqueciendo los datos para nuevas defensas.
Inteligencia de amenazas: colaboración con proveedores externos para rastrear técnicas emergentes en foros y comunidades.
1.3 Respuesta rápida
Al identificarse un bypass, se prioriza por gravedad y se generan ejemplos sintéticos (“jailbreak proliferation”) para reentrenar clasificadores en días o semanas, cerrando rápidamente vectores de ataque conocidos.
1.4 Controles de acceso diferenciados
Para usos de doble propósito legítimos, existe un sistema de verificación de entidades que permite exenciones temporales sujetas a monitorización continua, activando de nuevo los clasificadores si se detecta abuso.
Esto incluye, por ejemplo:
Investigadores académicos que necesitan evaluar los límites de seguridad del modelo para mejorarlo.
Profesionales en bioseguridad o ciberseguridad que realizan simulaciones controladas para prevenir amenazas reales.
Agencias gubernamentales que requieren un acceso más amplio al modelo para tareas de evaluación de riesgos.
ASL-3 Estándar de Despliegue
ASL-3 Deployment Standard Criterion
Criterios y medidas de implementación
Modelado de amenazas
Threat Modeling
- Participación de expertos en seguridad
Defensa en profundidad
Defense in Depth
- Clasificadores de seguridad en tiempo real
- Monitorización offline
- Programa de recompensas por vulnerabilidades
- Inteligencia de amenazas
Red-Teaming
Red-Teaming
- Red-teaming durante investigación y desarrollo
- Red-teaming pre-despliegue
- Programa de recompensas por vulnerabilidades
Mitigación rápida
Rapid Remediation
- Técnicas de respuesta rápida a jailbreaks
Monitorización
Monitoring
- Monitorización offline
- Programa de recompensas por vulnerabilidades
- Inteligencia de amenazas
Usuarios de confianza
Trusted Users
- Controles de acceso diferenciados
Entornos de terceros
Third-party Environments
- Clasificadores consistentes entre entornos
- Controles de acceso uniformes
- Bug bounty e inteligencia no específicos del entorno
- Monitorización offline y respuesta rápida en todos los entornos
🎯 Objetivo Principal
Hacer las salvaguardas robustas contra intentos persistentes de mal uso de capacidades CBRN, especialmente enfocándose en prevenir "Universal Jailbreaks"
ASL-3 Standard de seguridad (Security)
Este segundo bloque aborda la protección técnica de los modelos.
Se trata de conocer cómo se protege el archivo del modelo en sí (los pesos), cómo se controlan los accesos y qué garantías existen frente a robos, fugas o modificaciones no autorizadas.
Requiere medidas de ciberseguridad de IA, controles de acceso estrictos, seguridad en la infraestructura y auditorías independientes.
Seguridad de los pesos y entornos críticos
CONCEPTOS BÁSICOS
¿Qué son los pesos de un modelo?
Los pesos son los parámetros numéricos (gigabytes de datos) que definen el comportamiento de la red neuronal. Representan el conocimiento que el modelo ha adquirido durante su entrenamiento.
Su robo o exfiltración (es decir, la extracción no autorizada de estos datos sensibles) permitiría ejecutar el modelo de forma externa sin sus controles de seguridad, facilitando usos malintencionados.
⇒ Controles de salida de datos y sandboxing
Se limitan las tasas de salida de información (egress) para detectar y frenar anomalías en tiempo real.
Esto complica significativamente la exfiltración, incluso en escenarios donde los sistemas se encuentren desconectados de redes externas (air-gapped).
⇒ Autorización en dos partes
Cualquier acceso a los pesos requiere:
Autenticación con llave física
Justificación documentada
Aprobación de un segundo responsable con permisos de tiempo limitado y caducidad automática.
⇒ Protección de endpoints y desarrollo seguro
Allowlisting y EDR en dispositivos de empleados para bloquear malware y prevenir compromiso de endpoints.
Allowlisting (o lista blanca) consiste en permitir únicamente la ejecución de aplicaciones, direcciones IP o procesos previamente autorizados. Es lo contrario al enfoque de “lista negra”, y proporciona una capa más restrictiva de seguridad, ya que todo lo no autorizado es bloqueado por defecto.
EDR (Endpoint Detection and Response) es una tecnología avanzada de seguridad que monitoriza, detecta y responde ante amenazas en los dispositivos finales (ordenadores, portátiles, etc.). Ofrece visibilidad en tiempo real y capacidades de reacción ante actividades sospechosas.
Gestión de cambios bajo revisiones adicionales, commits firmados y propiedad de rutas críticas; Claude asiste en revisiones de bajo riesgo.
⇒ Marco integral de seguridad
Anthropic ha implementado más de 100 controles de seguridad como parte de un marco integral, distribuidos en áreas clave como la protección de perímetros, el ciclo de vida del software, la monitorización continua, la gestión de recursos y el cumplimiento normativo. Estos controles se alinean con estándares reconocidos internacionalmente como ISO 27001, SOC 2 y NIST 800-53. Aunque pueda parecer un número elevado, reflejan una aproximación de defensa en profundidad que incluye desde controles físicos y de acceso, hasta políticas de gestión de incidentes y auditoría. Este esfuerzo está respaldado por un equipo de seguridad que representa entre el 5 % y el 10 % de la plantilla total de la empresa.
2. ASL-3 Standard de seguridad (Security)
2.1 Modelado de amenazas y evaluación de riesgos
La primera parte del estándar consiste en identificar claramente quién podría atacar (actores de amenaza como cibercriminales o insiders), qué se quiere proteger (los pesos del modelo) y cómo podrían intentarlo (vías de ataque como dispositivos infectados, infraestructuras cloud mal configuradas o acceso físico).
Esta fase incluye:
Identificación de actores de amenaza (grupos criminales, insiders)
Identificación de activos críticos (pesos del modelo)
Identificación de vectores de ataque (compromiso de dispositivos, ataques a la nube, escalada de privilegios)
Todo esto se valida y mejora continuamente con expertos externos y simulaciones de ataques (red teaming).
2.2 Medidas de seguridad aplicadas
Anthropic ha implementado múltiples medidas prácticas para reforzar su seguridad:
2.2.1 Perímetros y controles de acceso
Incluyen sistemas de seguridad física, segmentación de redes, autenticación multifactor con llaves físicas, y acceso según roles para proteger los sistemas y datos sensibles.
2.2.2 Seguridad del ciclo de vida
Abarca desde la compra segura de hardware hasta el desarrollo y despliegue seguro del software, incluyendo control de dispositivos, verificación de dependencias y canal de compilación blindado.
2.2.3 Monitorización
Se registran y analizan eventos de seguridad, se activan alertas automáticas, se usan sistemas de detección de intrusos y tecnologías de engaño como honeypots.
2.2.4 Recursos dedicados
El 5,2% de los empleados de Anthropic se dedica a seguridad, cumpliendo con los estándares del sector.
2.2.5 Guías y estándares existentes
Siguen normas reconocidas como ISO 27001, NIST 800-53 o SOC 2, y aplican certificaciones de seguridad líderes para mantener la alineación con las mejores prácticas del sector.
2.3 Auditorías
Incluyen auditorías externas periódicas, pruebas de penetración, programas de bug bounty, y mejoras continuas a partir de los hallazgos.
2.4 Seguridad en entornos de terceros
Cuando los modelos se despliegan fuera de Anthropic (por ejemplo, en empresas que los integran), se exige que también implementen controles equivalentes: revisión de código, autenticación, separación lógica, protección frente a amenazas internas, etc.
ASL-3 Criterios Standard de seguridad
ASL-3 Security Standard Criterion
Criterios y medidas de seguridad
Modelado de Amenazas
Threat Modeling
- Identificación de actores maliciosos
- Identificación de activos
- Identificación de vectores de ataque
- Consulta con socios externos
- Ejercicios de red teaming
- Evaluación continua y actualizaciones regulares
Marcos de Seguridad
Security Frameworks
- CONTROLES DE PERÍMETRO Y ACCESO:
- Controles de acceso digital
- Seguridad de red
- Seguridad en la nube
- Seguridad física
- SEGURIDAD EN EL CICLO DE VIDA:
- Seguridad del hardware
- Seguridad de endpoints
- Seguridad de la cadena de suministro
- Seguridad en el pipeline de desarrollo
- Gestión de cambios segura
- MONITORIZACIÓN:
- Registro centralizado de eventos
- Alertas automáticas
- Sistemas de detección de intrusos
- Monitorización de acceso a activos críticos
- Tecnología de engaño
- RECURSOS:
- El equipo de seguridad representa el 5,2 % de los empleados
- GUÍAS EXISTENTES:
- Certificaciones y declaraciones de cumplimiento
- Alineación con marcos del sector
Auditorías
Audits
- Validación y auditoría externas
- Mejora continua
- Pruebas de penetración
- Bug bounty (recompensas por errores)
Entornos de Terceros
Third-party Environments
- CONTROLES DE SEGURIDAD EQUIVALENTES EN TERCEROS:
- - Autenticación multifactor
- - Revisión de código por múltiples partes
- - Acceso basado en roles
- - Verificación de integridad
- - Separación lógica
- - Protección frente a amenazas internas
- - Registro de auditoría
- - Pruebas de penetración
- - Controles de aprobación de acceso para despliegues
Importancia de la ética de la IA
Los standard de ASL-3 reflejan la importancia del concepto de transparencia (publicación de metodologías) y de precaución (protecciones que pueden limitar la investigación abierta).
Es necesario fomentar marcos colaborativos en los que reguladores, sociedad civil y proveedores de IA definan criterios y apliquen auditorías externas, garantizando que los usuarios legítimos no resulten penalizados ni dañados.
Conclusión
La última actualización del standard ASL-3 en Claude Opus 4 representa un paso necesario hacia la consolidación de prácticas responsables en el despliegue de modelos de IA.
La combinación de técnicas de red-teaming constituyen una arquitectura de seguridad compleja que debe ser alineada con estándares internacionales.
Estamos ante el comienzo de una nueva etapa, que exige gobernanza, evaluación constante y transparencia supervisada.
La ciberseguridad por sí sola no es suficiente, está enlazada con la ética de la IA, ya que afecta directamente a cuestiones como:
¿Quién decide qué usos son aceptables y cuáles no?
¿Cómo se equilibra la protección frente al mal uso con el derecho a la investigación y la innovación?
¿Qué mecanismos garantizan que los sesgos, errores o limitaciones del sistema no se traduzcan en injusticias reales?
Para responder a todos estos interrogantes se necesita una colaboración continuada entre el sector, los reguladores, la comunidad investigadora y la sociedad civil.
Solo si lo hacemos juntos, podremos construir sistemas de IA realmente confiables, que no solo sean seguros desde un punto de vista técnico, sino también legítimos y alineados con los valores humanos.