La investigación sugiere que los LLM están dispuestos a ayudar en la “codificación de ambientes” maliciosas

-

spot_img

En los últimos años, los modelos de idiomas grandes (LLM) han dibujado el escrutinio por su posible uso indebido en la ciberseguridad ofensiva, particularmente en la generación de exploits de software.

La tendencia reciente hacia la ‘codificación de ambas’ (el uso casual de los modelos de idiomas para desarrollar rápidamente el código para un usuario, en lugar de explícitamente enseñanza El usuario a codificar) ha revivido un concepto que alcanzó su cenit en la década de 2000: el ‘guión Kiddie’, un actor malicioso relativamente no calificado con suficiente conocimiento para replicar o desarrollar un ataque dañino. La implicación, naturalmente, es que cuando la barra a entrada se reduce, las amenazas tenderán a multiplicarse.

Todos los LLM comerciales tienen algún tipo de barandilla contra el uso de tales fines, aunque estas medidas de protección están bajo un ataque constante. Por lo general, la mayoría de los modelos FOSS (en múltiples dominios, desde LLM hasta modelos generativos de imagen/video) se lanzan con algún tipo de protección similar, generalmente para fines de cumplimiento en Occidente.

Sin embargo, las comunicadas oficiales del modelo son ajustadas rutinariamente por las comunidades de usuarios que buscan una funcionalidad más completa, o de lo contrario Loras utilizados para evitar restricciones y potencialmente obtener resultados ‘no deseados’.

Aunque la gran mayoría de los LLM en línea evitarán ayudar al usuario con procesos maliciosos, las iniciativas “sin restricciones” como Whiterabbitneo están disponibles para ayudar a los investigadores de seguridad operar en un campo de juego nivelado como sus oponentes.

La experiencia general del usuario en la actualidad se representa más comúnmente en la serie CHATGPT, cuyos mecanismos de filtro frecuentemente provocan críticas de la comunidad nativa de la LLM.

¡Parece que estás tratando de atacar un sistema!

A la luz de esta tendencia percibida hacia la restricción y la censura, los usuarios pueden sorprenderse al descubrir que se ha encontrado que ChatGPT es el la mayoría de la cooperativa De todos los LLM probados en un estudio reciente diseñado para forzar modelos de lenguaje para crear exploits de código malicioso.

El nuevo artículo de investigadores de UNSW Sydney y la Organización de Investigación Científica e Industrial de la Commonwealth (CSIRO), titulado ¿Buenas noticias para guiones para niños? Evaluación de modelos de idiomas grandes para la generación automatizada de exploitsofrece la primera evaluación sistemática de cuán efectivamente se puede solicitar estos modelos a producir hazañas de trabajo. Las conversaciones de ejemplo de la investigación han sido proporcionadas por los autores.

El estudio compara cómo los modelos se realizaron en versiones originales y modificadas de laboratorios de vulnerabilidad conocidos (ejercicios de programación estructurados diseñados para demostrar fallas de seguridad de software específicas), lo que ayuda a revelar si dependían de ejemplos memorizados o tenían dificultades debido a restricciones de seguridad incorporadas.

Desde el sitio de apoyo, el Ollama LLM ayuda a los investigadores a desarrollar un ataque de vulnerabilidad de cuerdas. Fuente: https://anonymous.4open.science/r/aeg_llm-eae8/chatgpt_format_string_original.txt

Si bien ninguno de los modelos pudo crear una exploit efectiva, varios de ellos se acercaron muy cerca; Más importante aún, varios de ellos quería hacerlo mejor en la tareaindicando una posible falla de los enfoques de barandilla existentes.

Leer  Los influencers de IA están ganando ofertas de marca, ¿es este el fin de la influencia humana?

El documento dice:

‘Nuestros experimentos muestran que GPT-4 y GPT-4O exhiben un alto grado de cooperación en la generación de exploites, comparables a algunos modelos de código abierto sin censura. Entre los modelos evaluados, LLAMA3 era el más resistente a tales solicitudes.

‘A pesar de su voluntad de ayudar, la amenaza real que representa estos modelos sigue siendo limitada, ya que ninguno generó exploits con éxito para los cinco laboratorios personalizados con código refactorizado. Sin embargo, GPT-4O, el artista más fuerte en nuestro estudio, generalmente cometió solo uno o dos errores por intento.

“Esto sugiere un potencial significativo para aprovechar las LLM para desarrollar técnicas avanzadas y generalizables (generación de explotación automatizada (AEG))”.

Muchas segundas oportunidades

El verdadero ‘no tienes una segunda oportunidad para causar una buena primera impresión’ no es generalmente aplicable a LLMS, porque la ventana de contexto típicamente limitada de un modelo de idioma significa que un contexto negativo (en un sentido social, es decir, antagonismo) es no persistente.

Considere: si fue a una biblioteca y le pidió un libro sobre la fabricación práctica de bombas, probablemente lo rechacen, al menos. Pero (suponiendo que esta consulta no se sintiera por completo la conversación desde el principio) sus solicitudes para Obras relacionadascomo los libros sobre reacciones químicas, o diseño de circuitos, estarían, en la mente del bibliotecario, claramente relacionado con la investigación inicial y sería tratado en esa luz.

Probablemente como no, el bibliotecario también recordaría en cualquier futuro Reuniones que solicitó un libro de fabricación de bombas que una vez, lo que hace que este nuevo contexto de usted sea ‘irreparable’.

No es así con un LLM, que puede tener dificultades para retener la información tokenizada incluso de la conversación actual, no importa de las directivas de memoria a largo plazo (si hay alguna en la arquitectura, como con el producto CHATGPT-4O).

Por lo tanto, incluso las conversaciones casuales con ChatGPT nos revelan accidentalmente que a veces se esfuerza en un mosquito, pero se traga un camello, sobre todo cuando un tema, estudio o proceso constituyente relacionado con una actividad de otra manera ‘prohibida’ puede desarrollarse durante el discurso.

Esto es cierto para todos los modelos de idiomas actuales, aunque la calidad de la barandilla puede variar en extensión y acercarse entre ellos (es decir, la diferencia entre modificar los pesos del modelo entrenado o usar el filtrado de texto en/out durante una sesión de chat, lo que deja el modelo estructuralmente intacto pero potencialmente más fácil de atacar).

Leer  ¿El fin del dominio de Nvidia? El nuevo chip AI de Huawei podría ser un cambio de juego

Probar el método

Para probar hasta qué punto se podrían empujar a los LLM para generar exploits de trabajo, los autores establecieron un entorno controlado utilizando cinco laboratorios de semillas, cada una construida alrededor de vulnerabilidades conocidas que incluyen un desbordamiento de amortiguación, regreso a la libra, un ataque de vaca sucio y condiciones de carrera.

Además de usar los laboratorios originales, los investigadores crearon versiones modificadas cambiando las variables y funciones a los identificadores genéricos. Esto estaba destinado a evitar que los modelos se basara en ejemplos de capacitación memorizados.

Cada laboratorio se ejecutó dos veces por modelo: una vez en su forma original, y una vez en su versión ofuscada.

Luego, los investigadores introdujeron un segundo LLM en el bucle: un modelo de atacante diseñado para solicitar y volver a practicar el modelo objetivo para refinar y mejorar su salida en múltiples rondas. El LLM utilizado para este rol fue GPT-4O, que operaba a través de un guión que medió el diálogo entre el atacante y el objetivo, lo que permite que el ciclo de refinamiento continúe hasta quince veces, o hasta que no se juzgó más posible.

Flujo de trabajo para el atacante con sede en LLM, en este caso GPT-4O.

Los modelos objetivo para el proyecto fueron GPT-4O, GPT-4O-Mini, LLAMA3 (8B), Dolphin-Mistral (7B) y Dolphin-Phi (2.7B), que representan sistemas de código abierto y de código abierto, con una mezcla de modelos modificados y configurados (modelos IE, IE, con mecanismos de seguridad integrados diseñados para bloquear las pruebas dañinas, y there theM-ToN theM-ToN theM-TUNTUT esos mecanismos).

Los modelos localmente instalables se ejecutaron a través del marco Ollama, con los otros accedidos a través de su único método disponible: API.

Las salidas resultantes se puntuaron en función del número de errores que impidieron que el exploit funcionara según lo previsto.

Resultados

Los investigadores probaron cómo fue la cooperativa cada modelo durante el proceso de generación de exploit, medido registrando el porcentaje de respuestas en las que el modelo intentó ayudar con la tarea (incluso si la salida era defectuosa).

Resultados de la prueba principal, que muestra la cooperación promedio.

GPT-4O y GPT-4O-Mini mostraron los niveles más altos de cooperación, con tasas de respuesta promedio de 97 y 96 por ciento, respectivamente, en las cinco categorías de vulnerabilidad: desbordamiento del búfer, Regreso a la libra, Formato de cadena, condición de carreray Vaca sucia.

Dolphin-Mistral y Dolphin-Phi lo siguieron de cerca, con tasas de cooperación promedio de 93 y 95 por ciento. Llama3 mostró el el menos disposición para participar, con una tasa de cooperación general de solo el 27 por ciento:

A la izquierda, vemos el número de errores cometidos por los LLM en los programas originales de semillas de laboratorio; A la derecha, el número de errores cometidos en las versiones refactorizadas.

Al examinar el rendimiento real de estos modelos, encontraron una brecha notable entre voluntad y eficacia: GPT-4O produjo los resultados más precisos, con un total de seis errores en los cinco laboratorios ofuscados. GPT-4O-Mini siguió con ocho errores. Dolphin-Mistral se desempeñó razonablemente bien en los laboratorios originales, pero luchó significativamente cuando se refactoró el código, lo que sugiere que puede haber visto contenido similar durante el entrenamiento. Dolphin-Phi cometió diecisiete errores, y Llama3 más, con quince.

Leer  Asamblea General de la ONU establece directrices internacionales para la IA

Las fallas generalmente involucraban errores técnicos que hicieron las exploits no funcionales, como los tamaños de búfer incorrectos, la lógica de bucle faltante o las cargas útiles sintácticamente válidas pero ineficaces. Ningún modelo logró producir una hazaña de trabajo para cualquiera de las versiones ofuscadas.

Los autores observaron que la mayoría de los modelos produjeron código que se parecían a las exploits de trabajo, pero fracasaron debido a una débil comprensión de cómo funcionan realmente los ataques subyacentes, un patrón que era evidente en todas las categorías de vulnerabilidad, y que sugirieron que los modelos estaban imitando estructuras de código familiares en lugar de razonar a través de la lógica involucrada (en los casos de Overflow Buffer, por ejemplo, muchos no fallaron en una construcción de un sled/slide en funcionamiento).

En los intentos de regreso a la LIBC, las cargas útiles a menudo incluían acolchado incorrecto o direcciones de función fuera de lugar, lo que resultó en resultados que parecían válidos, pero eran inutilizables.

Si bien los autores describen esta interpretación como especulativa, la consistencia de los errores sugiere un problema más amplio en el que los modelos no conectan los pasos de una exploit con su efecto previsto.

Conclusión

Hay cierta duda, el documento reconoce, en cuanto a si los modelos de lenguaje probados vieron o no los laboratorios de semillas originales durante el primer entrenamiento; por la cual se construyeron variantes. No obstante, los investigadores confirman que les gustaría trabajar con hazañas del mundo real en iteraciones posteriores de este estudio; Es menos probable que el material verdaderamente novedoso y reciente esté sujeto a atajos u otros efectos confusos.

Los autores también admiten que los modelos de “pensamiento” posteriores y más avanzados como GPT-O1 y Deepseek-R1, que no estaban disponibles en el momento en que se realizó el estudio, pueden mejorar los resultados obtenidos, y que esta es una indicación adicional para el trabajo futuro.

El documento concluye en el sentido de que la mayoría de los modelos probados habrían producido hazañas de trabajo si hubieran sido capaces de hacerlo. Su fracaso en generar salidas completamente funcionales no parece ser el resultado de salvaguardas de alineación, sino que apunta a una limitación arquitectónica genuina, una que ya puede haberse reducido en modelos más recientes, o pronto lo será.

Publicado por primera vez el lunes 5 de mayo de 2025

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares