Marketing

Anthropic dice que estos temas son demasiado peligrosos para que su modelo Claude 5 hable sobre ellos

Redaccion NEO·10/6/2026

Anthropic lanzó públicamente el martes a Claude 5, su primer modelo de clase "Mythic" que según la empresa supera a sus anteriores modelos Opus de frontera en capacidades generales. Pero el lanzamiento del modelo hoy viene acompañado de medidas de seguridad diseñadas para evitar que responda consultas sobre temas como ciberseguridad, biología y química, donde la empresa ha expresado públicamente preocupación sobre su impacto potencial para "empoderar" a actores maliciosos.

Anthropric dice que Claude 5 opera en el "mismo modelo subyacente" que Mythic 5, que está saliendo de su período de "Vista Previa Mythic" de varios meses hoy, pero solo para "un pequeño grupo de defensores cibernéticos" considerados confiables a través del Proyecto Glasswing existente. Sin embargo, a diferencia de Mythic 5, el Claude 5 accesible públicamente está diseñado para canalizar consultas sobre ciertos temas sensibles al modelo anterior Claude Opus 4.8 y para advertir al usuario cuando esto sucede.

Entre las muchas mejoras de referencia reclamadas para Claude 5, la relacionada con ciberseguridad fue un salto particularmente grande.

Anthropric dijo que ha ajustado estas medidas de seguridad para ser "más estrictas que lo ideal", lo que significa que el sistema ocasionalmente puede rechazar "solicitudes inofensivas" de una manera que reconoce que puede ser frustrante para los usuarios regulares. Pero Anthropric dice que estos falsos positivos ocurren en menos del cinco por ciento de todas las sesiones en pruebas, y valían la pena para evitar situaciones donde Mythic pudiera proporcionar asistencia a actores maliciosos en "causar daño grave que no podrían haber recibido de otras fuentes".

Las salvaguardas basadas en temas de Claude 5 se construyen alrededor de un sistema de clasificadores diseñados para detectar ampliamente temas de solicitud prohibidos así como cualquier intento potencial de evasión. En más de 1,000 horas de pruebas de equipo rojo con un programa de recompensa por encontrar errores, Anthropric dice que los equipos externos no pudieron encontrar ninguna evasión universal para Claude 5. El nuevo modelo también resistió intentos de evasión automatizados en un grado mucho mayor que los modelos anteriores de Claude Opus, dijo Anthropric.

La empresa dijo que está particularmente preocupada por la capacidad de Mythic 5 para realizar "hacking agéntico", ejecutando ataques cibernéticos de múltiples partes con mucha más facilidad que los modelos anteriores. Pero las pruebas del Instituto de Seguridad de IA del Reino Unido en meses recientes encontraron que Mythic Preview tuvo un desempeño similar al GPT-4o de OpenAI en una serie de desafíos Captura la Bandera, sugiriendo que el desempeño de Mythic no es "un avance específico de un modelo".

Sigue leyendo

Marketing

Las acciones de Super Micro se desploman por planes de financiamiento de 7 mil millones de dólares mientras la empresa promociona pedidos de servidores de IA

Marketing

Japonés recomienda a sus compatriotas consumir Electrolit para evitar la deshidratación en el Mundial: “la bebida nacional que todos allí toman como un salvador”

Marketing

Anthropic dice que estos temas son demasiado peligrosos para que su modelo Claude 5 hable sobre ellos

Sigue leyendo

Las acciones de Super Micro se desploman por planes de financiamiento de 7 mil millones de dólares mientras la empresa promociona pedidos de servidores de IA

Japonés recomienda a sus compatriotas consumir Electrolit para evitar la deshidratación en el Mundial: “la bebida nacional que todos allí toman como un salvador”

Conan O'Brien está alojando videos educativos para una empresa de ciberseguridad con IA