- Claude Opus 4.6 localizó 22 vulnerabilidades en Firefox en unas dos semanas, con 14 catalogadas como de alta gravedad.
- Mozilla integró los parches en Firefox 148 tras recibir 112 informes únicos con casos de prueba mínimos y reproducibles.
- La IA detectó más fallos críticos en días de los que Firefox suele recibir en meses por canales tradicionales.
- Claude se mostró mucho más eficaz detectando vulnerabilidades que creando exploits, pero abre una nueva etapa en auditoría de software.

Durante años, rastrear fallos graves en navegadores web ha sido un trabajo de fondo para equipos especializados que revisan millones de líneas de código. Ahora, la irrupción de la inteligencia artificial empieza a cambiar ese equilibrio: Claude Opus 4.6 ha sido capaz de sacar a la luz 22 vulnerabilidades en Firefox en cuestión de días, obligando a replantearse cómo se audita el software crítico que usamos a diario.
La colaboración entre Mozilla y Anthropic, la empresa responsable de Claude, se ha convertido en un caso de estudio para la industria. En apenas un par de semanas de análisis intensivo del código fuente, el modelo de IA detectó 22 fallos de seguridad que se tradujeron en 22 CVE oficiales, de los cuales 14 fueron etiquetados por Mozilla como vulnerabilidades de alta gravedad. Todas ellas se han corregido en la versión Firefox 148, ya disponible para usuarios en España, el resto de Europa y el resto del mundo.
Cómo empezó todo: un experimento con uno de los navegadores más auditados
La elección de Firefox no fue fruto del azar. Para Anthropic, el navegador de Mozilla es uno de los proyectos de código abierto más probados y vigilados del ecosistema web, con una larga tradición de auditorías externas, programas de recompensas y revisiones constantes. Precisamente por eso, usarlo como banco de pruebas permitía comprobar si la IA era capaz de ir más allá de lo que ya habían visto investigadores humanos y herramientas clásicas como el fuzzing.
El experimento arrancó de forma relativamente modesta: el equipo de Anthropic comenzó pidiéndole a Claude que reprodujera vulnerabilidades históricas de Firefox documentadas como CVE en versiones anteriores del navegador. Esa fase servía para validar que el modelo entendía realmente patrones de fallo reales, no solo ejemplos teóricos. Los resultados fueron buenos, pero con un matiz importante: parte de esa información podría haber estado ya en los datos de entrenamiento del sistema, así que el reto de verdad estaba en encontrar errores nuevos en la versión actual.
Ahí empezó la prueba de fuego. Los investigadores se centraron primero en el motor JavaScript de Firefox, una de las piezas más sensibles del navegador, ya que es la responsable de ejecutar código potencialmente malicioso procedente de páginas web. Ese componente es relativamente independiente dentro de la base de código y ofrece una superficie de ataque ideal para poner a sudar a cualquier auditor, humano o artificial.
Según han explicado Mozilla y Anthropic, Claude necesitó apenas veinte minutos para localizar su primer fallo crítico en ese motor: una vulnerabilidad de tipo Use After Free, un clásico problema de memoria que, bien encadenado con otros fallos, puede permitir a un atacante inyectar y ejecutar código arbitrario.
Veintidós vulnerabilidades, más de cien errores y un aluvión de informes
Tras ese primer hallazgo, el análisis se aceleró. Mientras los investigadores de Anthropic validaban el bug inicial en una máquina virtual y preparaban el informe para Bugzilla (el sistema de seguimiento de Mozilla), Claude ya había detectado alrededor de 50 entradas adicionales con comportamientos anómalos. En paralelo, el equipo decidió ampliar el alcance del experimento al resto del navegador.
Durante unas dos semanas, la IA revisó miles de archivos del proyecto, incluyendo casi 6.000 ficheros escritos en C++. El resultado bruto fue una lista extensa de hallazgos que Anthropic convirtió en 112 informes únicos enviados a los responsables de Firefox. Esos reportes abarcaban desde errores lógicos y fallos de aserción hasta vulnerabilidades potencialmente explotables.
Tras el filtrado y la revisión con los ingenieros de Mozilla, el balance final fue contundente: 22 vulnerabilidades con impacto de seguridad real, registradas como CVE; 14 de ellas clasificadas como de alta severidad y el resto de gravedad moderada o menor. A ese paquete se sumaron alrededor de 90 fallos adicionales de menor importancia que, aun sin implicar un riesgo de explotación inmediato, afectaban a la estabilidad y calidad del navegador.
La cifra adquiere más peso cuando se compara con el ritmo habitual del proyecto: a lo largo de todo 2025, el equipo de Firefox parcheó 73 vulnerabilidades de alta severidad o críticas. En otras palabras, en poco más de dos semanas Claude ayudó a destapar cerca de una quinta parte de la carga anual de seguridad del navegador, comprimida en un esfuerzo intensivo y coordinado.
Otro detalle clave es la calidad de los informes. Mozilla ha destacado que cada bug venía acompañado de casos de prueba mínimos y reproducibles, lo que permitió a su equipo de seguridad verificar rápidamente el problema y empezar a trabajar en la solución sin perder tiempo reconstruyendo escenarios o buscando cómo disparar el fallo.
Firefox 148: parches antes de que los fallos salgan a la luz
Una vez confirmadas las vulnerabilidades, el siguiente paso era obvio: parchear antes de que nadie pudiera aprovechar esos agujeros. Mozilla activó su protocolo de respuesta a incidentes, priorizando los hallazgos con mayor impacto potencial y distribuyendo el trabajo entre los equipos de plataforma y seguridad.
Según la información publicada por la organización, todas las vulnerabilidades descubiertas por Claude se han corregido ya en Firefox 148, la versión que comenzó a distribuirse a finales de febrero. Eso incluye tanto los 22 CVE como una parte importante de los fallos menores identificados durante la revisión. Para los usuarios en España y el resto de Europa, esto significa que con mantener el navegador actualizado se benefician automáticamente de estos parches
Las vulnerabilidades afectaban principalmente a sistemas de gestión de memoria, comprobaciones de límites e invariantes internas del navegador. En escenarios extremos, varios de esos bugs podrían haberse encadenado para intentar sortear las defensas del navegador y ejecutar código no autorizado. Sin embargo, ese tipo de ataques complejos exige combinar varias debilidades, algo que, según Mozilla, sigue siendo complicado incluso cuando se dispone de vulnerabilidades catalogadas como de alta gravedad.
La velocidad con la que se desplegaron los parches también es un dato relevante. Gracias a la estructura de los informes y a la colaboración directa con el equipo de Anthropic, los ingenieros de Firefox pudieron validar, corregir y probar las soluciones en un tiempo relativamente corto, evitando que los fallos circularan de forma masiva antes de contar con una defensa efectiva.
A raíz de la experiencia, Mozilla ha confirmado que integrará el análisis asistido por IA en sus protocolos internos de seguridad, no como reemplazo de las auditorías humanas, sino como una capa adicional que complemente el fuzzing, las revisiones manuales y las contribuciones de la comunidad.
La otra cara del experimento: ¿puede Claude explotar lo que encuentra?
Detectar vulnerabilidades es una cosa; convertirlas en ataques funcionales, otra muy distinta. Con esa diferencia en mente, Anthropic quiso ir un paso más allá y medir hasta qué punto Claude podía actuar también como herramienta ofensiva, generando exploits a partir de los fallos descubiertos en Firefox.
Para ello, el equipo dio al modelo acceso a la información técnica de las vulnerabilidades ya reportadas a Mozilla y le pidió que desarrollara pruebas de concepto capaces de leer y escribir archivos en un sistema objetivo, algo muy cercano al comportamiento real de un ataque exitoso. El experimento incluyó cientos de ejecuciones con distintos enfoques y supuso un gasto aproximado de 4.000 dólares en créditos de API.
El resultado fue mucho más modesto que en la fase de descubrimiento. A pesar de la inversión de tiempo y recursos, Claude solo consiguió generar dos exploits funcionales, y aun así con una condición importante: solo funcionaban en entornos de prueba simplificados, donde se habían desactivado defensas clave como la sandbox y otras medidas de endurecimiento presentes en versiones reales del navegador.
Este contraste deja dos mensajes. Por un lado, evidencia que la IA actual es mucho más eficaz detectando puntos débiles que explotándolos de forma automática, al menos en un producto tan endurecido como Firefox. Por otro, muestra que la posibilidad de que modelos avanzados generen exploits simples ya no es puramente teórica, algo que preocupa a buena parte de la comunidad de ciberseguridad.
Mozilla ha insistido en que una sola vulnerabilidad, incluso etiquetada como de alta severidad, rara vez basta para comprometer por completo el navegador. En la práctica, un atacante tendría que encadenar varios fallos y superar distintas capas defensivas, lo que reduce el riesgo inmediato asociado a estos dos exploits experimentales, pero no elimina el debate de fondo sobre el uso responsable de estas capacidades.
IA como auditor: menos ruido y más señal para proyectos abiertos
Otro de los puntos interesantes de esta colaboración tiene que ver con la dinámica del software libre. Grandes proyectos de código abierto, como Firefox o el kernel de Linux, están acostumbrados a recibir oleadas de reportes generados por herramientas automáticas, muchos de ellos llenos de falsos positivos o con información insuficiente para ser útiles. Eso sobrecarga a los mantenedores, que tienen que invertir tiempo en separar el grano de la paja.
En este caso, Anthropic y Mozilla trataron de evitar ese problema desde el principio. La consigna era clara: los informes generados con ayuda de Claude debían ser accionables. Eso se tradujo en tres elementos esenciales en cada envío: casos de prueba mínimos, pruebas de concepto detalladas y parches candidatos que podían servir de base para la corrección final.
Ese enfoque redujo de forma notable el ruido. Aunque no todos los 112 informes se convirtieron en vulnerabilidades confirmadas, la proporción de hallazgos útiles fue lo bastante alta como para que Mozilla valorase la colaboración como un éxito. El propio equipo de seguridad del navegador ha animado a otros investigadores que usen IA a seguir una línea similar, priorizando la reproducibilidad y la claridad técnica.
La experiencia también ha dejado otra consecuencia: ingenieros de Mozilla han empezado a experimentar internamente con Claude para tareas de seguridad, lo que apunta a una adopción más profunda de este tipo de herramientas dentro de equipos que trabajan en productos clave para la web abierta, incluida Europa.
Al margen de Firefox, Anthropic asegura que Claude Opus 4.6 ha servido para localizar más de 500 vulnerabilidades previamente desconocidas en distintos proyectos de código abierto, incluyendo componentes críticos como el kernel de Linux. Aunque no todas esas investigaciones se han hecho públicas con el mismo nivel de detalle, refuerzan la idea de que la IA puede convertirse en un actor de peso en el ecosistema de seguridad del código abierto.
Un cambio de ritmo en la ciberseguridad que Europa no puede ignorar
Para empresas y administraciones públicas europeas, acostumbradas a depender de navegadores como Firefox en puestos de trabajo y sistemas críticos, este tipo de auditorías asistidas por IA introduce un nuevo factor en la ecuación de seguridad. El caso demuestra que incluso proyectos con una comunidad activa de revisores pueden acumular un número significativo de vulnerabilidades complejas sin detectar.
Al mismo tiempo, la colaboración entre Mozilla y Anthropic ofrece una posible hoja de ruta: combinar la experiencia de los equipos de seguridad con modelos de IA capaces de rastrear bases de código enormes y sacar a la luz patrones de fallo que se escapan a las herramientas tradicionales. Para el tejido empresarial europeo, en el que abundan las pymes tecnológicas con recursos limitados, integrar soluciones de este tipo en los procesos de desarrollo puede marcar la diferencia.
La propia Anthropic está empujando en esa dirección con la creación de herramientas específicas, como Claude Code Security, pensadas para analizar repositorios, proponer parches y apoyar a los desarrolladores en la prevención de vulnerabilidades. Aunque aún están lejos de sustituir a un equipo de seguridad experimentado, permiten reducir costes y tiempo en las primeras fases de revisión.
Eso sí, la compañía insiste en que cualquier parche generado por IA, incluso tras pasar pruebas automáticas, debe ser sometido al mismo nivel de escrutinio que una contribución humana. En otras palabras, la IA puede hacer el trabajo sucio en la búsqueda y el análisis preliminar, pero la decisión final sigue estando —y debería seguir estándolo— en manos de revisores con criterio.
En el contexto normativo europeo, con iniciativas como el Cyber Resilience Act en marcha y un foco creciente en la responsabilidad de fabricantes de software, casos como el de Firefox y Claude dan pistas sobre cómo los reguladores y la industria podrían apoyarse en la IA para elevar el listón de seguridad sin disparar los costes de auditoría.
Todo este movimiento deja una sensación clara: la inteligencia artificial ha empezado a jugar un papel protagonista en la seguridad de los navegadores y del software crítico. Claude ha demostrado que es capaz de localizar en dos semanas lo que a equipos humanos les llevaría meses, y aunque todavía flojea a la hora de convertir esos hallazgos en ataques sofisticados, la ventana de ventaja para los defensores no será eterna. Aprovecharla ahora, integrando este tipo de herramientas en los procesos de desarrollo y parcheo, puede marcar la diferencia entre ir por delante de los atacantes o correr siempre a remolque.
