Anthropic bloquea el acceso de todos los clientes a Fable 5 y Mythos 5
Anthropic ha deshabilitado el acceso de todos sus clientes a Fable 5 y Mythos 5 para asegurar el cumplimiento de una orden que recibió del gobierno el viernes 12 de junio. Todos sus otros modelos y su chatbot Claude no se ven afectados. La compañía dijo en su anuncio que el gobierno de EE. UU. quería que suspendiera el acceso de todos los extranjeros a sus modelos de IA recién lanzados, ya estén dentro o fuera de EE. UU. e incluso si son empleados de Anthropic, citando preocupaciones de seguridad nacional.
Aunque el gobierno de EE. UU. no especificó dichas preocupaciones, Anthropic cree que se debe a que el gobierno escuchó sobre un método para hacer jailbreak a Fable 5. La compañía acaba de lanzar el modelo de IA Fable, que fue diseñado para llevar muchas de las capacidades de Mythos al público, el 9 de junio. Si recordarás, Mythos es su modelo de ciberseguridad de última generación que solo está disponible para sus socios de Project Glasswing. Las capacidades de Fable "superan" cualquier modelo anterior que Anthropic haya lanzado. Superó a Pokémon FireRed durante las pruebas de la compañía, por ejemplo, mientras que Claude no logró superar a Pokémon Red, el juego original en el que se basó.
Anthropic enumeró las medidas que tomó para asegurar que Fable era seguro en su publicación. Dijo que instituyó salvaguardas fuertes para "reducir la probabilidad de que Fable sea mal utilizado para tareas relacionadas con la ciberseguridad" y agregó que sus "salvaguardas son tan fuertes que muchos usuarios se han quejado de que son demasiado amplias." La compañía también explicó que ningún proveedor puede asegurar perfectamente la resistencia a intentos de jailbreak, y cada modelo es vulnerable a jailbreaks hechos especialmente para él. "Nuestro objetivo era hacer que los jailbreaks fueran estrechos (en el caso de jailbreaks no universales) o muy costosos de producir (en el caso de jailbreaks universales), y combinar esto con una supervisión exhaustiva para detectar y cerrar rápidamente cualquier ataque exitoso", dijo sobre su estrategia de defensa.
El gobierno aparentemente le dio a la compañía evidencia verbal de un posible jailbreak estrecho y no universal que una entidad no identificada compartió con los funcionarios. Anthropic prometió compartir más detalles en las próximas 24 horas, pero aclaró que no está de acuerdo en que un posible jailbreak debería ser motivo para retirar un modelo comercial.
"Como hemos declarado públicamente, creemos que el gobierno debe tener la capacidad de bloquear implementaciones inseguras, como parte de un proceso estatutario que sea transparente, justo, claro y basado en hechos técnicos", escribió Anthropic, que ha sido vocal sobre sus advertencias sobre la necesidad de más supervisión de IA. "Esta acción no se adhiere a esos principios."
