NEO
Tendencias
·Cannes Lions 2026 abre convocatoria a shortlists·IA generativa supera 40% de adopcion en agencias MX·Inversion publicitaria digital crece 18% en Q1 2026·Effie Mexico anuncia nuevas categorias para edicion 2026·WPP reporta resultados en Latam·Meta lanza nuevas APIs para retail media·Cannes Lions 2026 abre convocatoria a shortlists·IA generativa supera 40% de adopcion en agencias MX·Inversion publicitaria digital crece 18% en Q1 2026·Effie Mexico anuncia nuevas categorias para edicion 2026·WPP reporta resultados en Latam·Meta lanza nuevas APIs para retail media
Marketing

Anthropic dice que estos temas son demasiado peligrosos para que su modelo Claude 5 hable sobre ellos

Redaccion NEO·10/6/2026
Compartir:LinkedInXWhatsAppFacebook
Anthropic dice que estos temas son demasiado peligrosos para que su modelo Claude 5 hable sobre ellos

Anthropic lanzó públicamente el martes a Claude 5, su primer modelo de clase "Mythic" que según la empresa supera a sus anteriores modelos Opus de frontera en capacidades generales. Pero el lanzamiento del modelo hoy viene acompañado de medidas de seguridad diseñadas para evitar que responda consultas sobre temas como ciberseguridad, biología y química, donde la empresa ha expresado públicamente preocupación sobre su impacto potencial para "empoderar" a actores maliciosos.

Anthropric dice que Claude 5 opera en el "mismo modelo subyacente" que Mythic 5, que está saliendo de su período de "Vista Previa Mythic" de varios meses hoy, pero solo para "un pequeño grupo de defensores cibernéticos" considerados confiables a través del Proyecto Glasswing existente. Sin embargo, a diferencia de Mythic 5, el Claude 5 accesible públicamente está diseñado para canalizar consultas sobre ciertos temas sensibles al modelo anterior Claude Opus 4.8 y para advertir al usuario cuando esto sucede.

Entre las muchas mejoras de referencia reclamadas para Claude 5, la relacionada con ciberseguridad fue un salto particularmente grande.

Anthropric dijo que ha ajustado estas medidas de seguridad para ser "más estrictas que lo ideal", lo que significa que el sistema ocasionalmente puede rechazar "solicitudes inofensivas" de una manera que reconoce que puede ser frustrante para los usuarios regulares. Pero Anthropric dice que estos falsos positivos ocurren en menos del cinco por ciento de todas las sesiones en pruebas, y valían la pena para evitar situaciones donde Mythic pudiera proporcionar asistencia a actores maliciosos en "causar daño grave que no podrían haber recibido de otras fuentes".

Las salvaguardas basadas en temas de Claude 5 se construyen alrededor de un sistema de clasificadores diseñados para detectar ampliamente temas de solicitud prohibidos así como cualquier intento potencial de evasión. En más de 1,000 horas de pruebas de equipo rojo con un programa de recompensa por encontrar errores, Anthropric dice que los equipos externos no pudieron encontrar ninguna evasión universal para Claude 5. El nuevo modelo también resistió intentos de evasión automatizados en un grado mucho mayor que los modelos anteriores de Claude Opus, dijo Anthropric.

La empresa dijo que está particularmente preocupada por la capacidad de Mythic 5 para realizar "hacking agéntico", ejecutando ataques cibernéticos de múltiples partes con mucha más facilidad que los modelos anteriores. Pero las pruebas del Instituto de Seguridad de IA del Reino Unido en meses recientes encontraron que Mythic Preview tuvo un desempeño similar al GPT-4o de OpenAI en una serie de desafíos Captura la Bandera, sugiriendo que el desempeño de Mythic no es "un avance específico de un modelo".

Sigue leyendo