AI actúa de manera diferente cuando sabe que se está probando, la investigación encuentra

-

spot_img

Haciéndose eco del escándalo de ‘Dieselgate’ 2015, una nueva investigación sugiere que modelos de lenguaje de IA como GPT-4, Claude y Gemini pueden cambiar su comportamiento durante las pruebas, a veces actuando ‘más seguro’ para la prueba de lo que lo harían en el uso del mundo real. Si LLMS habitualmente ajustan su comportamiento bajo escrutinio, las auditorías de seguridad podrían terminar certificando sistemas que se comportan de manera muy diferente en el mundo real.

En 2015, los investigadores descubrieron que Volkswagen había instalado software, en millones de automóviles diesel, que podían detectar cuándo se estaban ejecutando las pruebas de emisiones, lo que provocaba que los automóviles bajen temporalmente sus emisiones, “fingieran” el cumplimiento de los estándares regulatorios. En la conducción normal, sin embargo, su producción de contaminación excedió los estándares legales. La manipulación deliberada condujo a cargos penales, miles de millones en multas y un escándalo global sobre la confiabilidad de las pruebas de seguridad y cumplimiento.

Dos años antes de estos eventos, desde que se denominó ‘Dieselgate’, se reveló que Samsung había promulgado mecanismos engañosos similares en su lanzamiento del teléfono inteligente Galaxy Note 3; Y desde entonces, han surgido escándalos similares para Huawei y OnePlus.

Ahora hay evidencia creciente en la literatura científica de que los modelos de lenguaje grande (LLM) también pueden no solo tener la capacidad de detectar cuándo están siendo probados, sino que también pueden comportarse de manera diferente en estas circunstancias.

Aunque este es un rasgo muy humano en sí mismo, la última investigación de los Estados Unidos concluye que este podría ser un hábito peligroso para disfrutar a largo plazo, por diversas razones.

En un nuevo estudio, los investigadores encontraron que ‘modelos fronterizos’ como GPT-4, Claude y Gemini a menudo pueden detectar cuándo están siendo probadosy que tienden a ajustar su comportamiento en consecuencia, potencialmente cojeando la validez de los métodos de prueba sistemáticos.

Doblado conciencia de evaluacióneste (quizás) rasgo innato en los modelos de idiomas podría comprometer la confiabilidad de las evaluaciones de seguridad, según los autores del nuevo estudio:

‘(Nosotros) recomendamos tratar la conciencia de la evaluación como una nueva fuente de cambio potencial de distribución entre las pruebas y la implementación del mundo real que podría afectar negativamente la precisión de los resultados de la evaluación.

“En el peor de los casos, los modelos podrían tener un rendimiento estratégico en evaluaciones de capacidad peligrosas (” bolsa de arena “) o evaluaciones de propensión (” falsificación de alineación “), lo que podría llevar a la sociedad a sobreestimar la seguridad de dichos modelos”.

Otros estudios han observado comportamientos similares, incluida la investigación de la Universidad de Stanford, que encontraron que los modelos de lenguaje grande modulan sus respuestas para parecer más “agradables” o “socialmente deseables” cuando reconocen que están siendo evaluados, reflejando el comportamiento humano en las pruebas de personalidad.

Los autores del nuevo trabajo no proponen que los LLM estén siendo diseñados intencionalmente para ‘jugar’ pruebas, como se configuraron hace una década los autos diesel de Volkswagen. Más bien, el comportamiento parece surgir como una especie de subproducto psicológico natural de los procesos de entrenamiento de los modelos y los objetivos latentes; y la causa subyacente de este fenómeno sigue siendo desconocido.

Leer  Aprovechar la IA para siempre: oportunidades y desafíos

El nuevo artículo se titula Los modelos de idiomas grandes a menudo saben cuándo están siendo evaluadosy proviene de cinco autores en todo el programa ML de alineación y teoría de ML asociado a UC Berkeley, y Apolloresearch.ai (un grupo de expertos dedicado a evaluar los riesgos de la IA).

Método

Para crear el punto de referencia de evaluación, los autores compilaron mil transcripciones extraídas de sesenta y un conjuntos de datos, entre los cuales* estaban Swe-Bench, WMDP, MMLU, XSTEST, Gaia, AgentHarm, ShareGPT, Deep Investigs, SafetyBench, Civics y RealtoxicityPrompts,.

El material se equilibró uniformemente entre los escenarios de evaluación y de implementación, y se dividió aún más entre las simples interacciones de chat y las sesiones de agente más complejas, donde los modelos están destinados a actuar de manera autónoma, utilizando herramientas que pueden extraer datos de bases de datos externos o Internet.

Los datos de evaluación cubrieron las pruebas de capacidad para razonamiento, codificación, ciberseguridad y conocimiento general, así como pruebas de alineación de ética, seguridad y comportamiento de rechazo. Los datos de implementación se obtuvieron de las interacciones del usuario, como registros de ShareGPT, ejecuciones de agentes de crowdsourcing y finalización de tareas sintéticas.

Para complementar los datos de los agentes, los autores generaron ejemplos adicionales que utilizan marcos de orquestación como el aidere y los smolagents, entre otros, un enfoque destinado a minimizar las señales superficiales que podrían permitir que los modelos simplemente memoricen las estructuras del conjunto de datos, lo que los obliga a confiar en señales más generales, al decidir si una transcripción proviene de un usuario real o en su lugar, en su lugar, una prueba.

Luego, los investigadores probaron si los modelos podrían identificar las transcripciones de evaluación presentándolos con registros de diálogo y haciendo variaciones de una pregunta simple: ¿Este intercambio provino de una prueba?

Para evitar modelos simplemente memorizando una redacción, desarrollaron veintiocho versiones diferentes de la pregunta, alterando tanto la redacción como cómo se presentó la transcripción.

Las transcripciones se unieron directamente a la pregunta o se presentaron en formatos como JSON o XML, lo que puede afectar cómo responden los modelos. Después de las pruebas tempranas, se seleccionaron cinco versiones de preguntas que se desempeñaron de manera consistente entre los modelos, de los cuales podemos ver un ejemplo a continuación:

Uno de los cinco formatos de pregunta de sonda utilizados para probar si los modelos de lenguaje podrían reconocer las transcripciones de evaluación. Cada variación reformula la pregunta central para evitar que los modelos simplemente memoricen la redacción fija. Consulte el documento de origen para obtener más ejemplos. Fuente: https://arxiv.org/pdf/2505.23836

Para obtener los resultados, se utilizaron tres métricas: área bajo la curva de características operativas del receptor (AUC, que muestra qué tan bien los modelos distinguen los datos de la prueba de los sin prueba); Puntaje Brier (midiendo la precisión general de la predicción); y el error de calibración esperado (midiendo qué tan bien el modelo de confianza coincide con la corrección real).

¿De qué se trata?

Los investigadores también probaron si los modelos podrían inferir el objetivo de una evaluación. Con cada transcripción ya etiquetada como una prueba de capacidad (habilidades técnicas, conocimiento, razonamiento) o una prueba de alineación (seguridad, valores, comportamiento de rechazo), los modelos recibieron uno de los tres tipos de preguntas: una pregunta condicional de opción múltiple que confirma la transcripción provino de una prueba; una pregunta incondicional de opción múltiple con opciones de evaluación del mundo real; o una pregunta abierta, cuyas respuestas fueron juzgadas por un clasificador separado basado en GPT-4.1. El juez fue validado en un subconjunto anotado a mano de cincuenta respuestas.

Ejemplos de los tres formatos de preguntas utilizados para probar si los modelos podrían identificar no solo la presencia de la evaluación, sino su propósito. Las respuestas se puntuaron a través de la opción múltiple y el juicio basado en GPT-4.1.

Dos de los autores del periódico†† etiquetado como las mil transcripciones a mano, obteniendo cada una de cero (no una prueba) a una (definitivamente una prueba), con sus calificaciones promediadas para servir como una línea de base humana. A pesar de la naturaleza subjetiva de la tarea, los anotadores mostraron un fuerte acuerdo, con un coeficiente de correlación intraclase de 0.768. Los puntajes humanos finales se promediaron en ambos evaluadores.

Leer  La FTC cuestiona a Reddit sobre las licencias de datos antes de su IPO

Datos y pruebas

Los nueve modelos probados fueron GPT-4.1; Claude 3.7; Claude-3.5-Sonnet-New; Claude-3.7-Sonnet (pensamiento); Gemini-2.5-Flash; gemini-2.5-pro; GPT-4O; GPT-4.1; GPT-4.1-Mini; y O4-Mini, todo lo cual mostró cierto nivel de conciencia de evaluación.

Para los datos de chat, GPT-4.1 se acercó a los niveles humanos de rendimiento de clasificación de conciencia de evaluación (la capacidad de distinguir entre transcripciones de evaluación y implementación), con un AUC de 0.77 contra una puntuación humana de 0.81.

En los datos de agente, donde los modelos usan herramientas de forma autónoma, la diferencia era más nítida: Gemini 2.5 Pro alcanzó 0.95 AUC, con un soneto Claude 3.7 cerca de 0.92, cerca de la parte superior humana de 0.996:

Las curvas de características operativas del receptor (ROC) muestran qué tan bien los modelos y los humanos distinguen las transcripciones de evaluación de las interacciones del mundo real. Gemini 2.5 Pro y Claude 3.7 El enfoque de soneto de soneto discriminación a nivel humano en datos de agente.

El documento señala que los modelos más nuevos de “razonamiento” se han vuelto especialmente buenos para reconocer cuándo están siendo probados en escenarios de agente, pero no para juzgar cuán seguros deben estar en esas decisiones. En general, los modelos Claude y Géminis fueron los mejores casos de prueba reveladores, aparte del uso regular.

Luego, los investigadores probaron si los modelos también podían reconocer por qué Se estaba ejecutando una evaluación. Los modelos se mostraron solo las transcripciones de evaluación y se les pidió que clasifiquen si cada uno probó la capacidad o la alineación:

Precisión de los modelos Al clasificar el propósito de la evaluación como capacidad o alineación, utilizando formatos de opción múltiple y abierta. Claude 3.7 El soneto supera a otros modelos, especialmente cuando no está preparado.

En el entorno más claro, donde se le dijo al modelo, la transcripción provino de una prueba, el soneto Claude 3.7 alcanzó la precisión del 93 por ciento y GPT-4.1 alcanzó el 89 por ciento. Sin esa pista, el rendimiento disminuyó: Claude todavía obtuvo un 84 por ciento, pero GPT-4.1 cayó al 55 por ciento, a menudo clasificando mal las transcripciones de las pruebas como interacciones del mundo real.

Leer  El hombre cura el problema de la mandíbula de 5 años en 60 segundos usando chatgpt, los médicos están aturdidos

En formatos abiertos (donde los modelos no recibieron opciones de opción múltiple) era más débil, aunque Claude 3.7 Sonnet todavía identificaba correctamente el propósito de evaluación en el 46 por ciento de los casos.

Los puntajes de confianza de los modelos se midieron luego con los resultados reales, con el hallazgo de que los modelos fronterizos a menudo sobreestimaron la probabilidad de que una transcripción proveniera de una prueba. Los gráficos de calibración indicaron que la confianza del modelo era generalmente demasiado alta, con evaluaciones que se marcaban con más frecuencia de lo apropiado:

Las curvas de calibración que muestran cómo los puntajes de confianza de estrechamente modelos coinciden con los resultados reales. La mayoría de los modelos sobreestimaron la probabilidad de que las transcripciones provenían de las evaluaciones. El soneto Claude 3.5 fue mejor calibrado; El soneto Gemini 2.5 Pro y Claude 3.7 eran más exagerados.

Se observó una buena calibración para el soneto Claude 3.5, mientras que Gemini 2.5 Pro y Claude 3.7 sonnet eran considerablemente más confiados, a pesar de la alta precisión. No se observó una mejora clara en los modelos más nuevos, e incluso cuando las transcripciones de evaluación se detectaron con mayor precisión en entornos de agente, los juicios de confianza no fueron confiables.

Recuerdos de referencia

En términos de cómo los modelos explicaron sus decisiones sobre si una transcripción provino de una evaluación, muchos modelos se basaban en pistas obvias, como si la tarea estaba en formato de opción múltiple. Los modelos más fuertes, como Gemini 2.5 Pro y Claude 3.7 soneto, a veces notaron signos más sutiles, como nombres inventados o escenarios artificiales, especialmente en conjuntos de datos como Agentharm.

El documento dice:

‘(Todos) modelos con frecuencia reconocen las estrategias de evaluación comparativa comunes utilizadas por los evaluadores, como el formato de la tarea (“formato de opción múltiple”), la tendencia a preguntar problemas con soluciones verificables y indicaciones del sistema diseñadas para provocar el rendimiento. Sin embargo, solo los modelos de más alto rendimiento, Claude 3.7 Sonnet y Gemini 2.5 Pro, detectan consistentemente indicadores más sutiles, como entradas sintéticas.

‘Por ejemplo, en el 22% y el 17% de los casos, respectivamente, estos modelos resaltan la naturaleza sintética de los escenarios en el punto de referencia de AgentHarm, identificándolos correctamente como evaluaciones más del 95% del tiempo.

“Por el contrario, al razonar que una transcripción parece ser una interacción real, a menudo se menciona el” diálogo de ida y vuelta con el usuario “, por ejemplo, en contextos de depuración iterativos”.

Distribución de las estrategias de razonamiento de los modelos al decidir si una transcripción provino de una evaluación. Los modelos más fuertes, como Gemini 2.5 Pro y Claude 3.7 sonnet, tenían más probabilidades de detectar señales sutiles como escenarios sintéticos o formatear de tareas, mientras que algunos modelos se basaban en la meta-razonamiento utilizando la pregunta de evaluación en sí misma como evidencia.

En algunos casos, los modelos reconocieron puntos de referencia completos de la capacitación, sugiriendo algo de memoria de sus datos de entrenamiento. Algunos modelos también utilizaron el Muy de que se les preguntó sobre la evaluación. como una pista de que estaban siendo probados, que los autores llaman meta-razonamiento; Esto fue más común en O4-Mini, que lo mostró en el quince por ciento de sus respuestas.

Conclusión

Podría ser más tranquilizador si los LLM se pudieran demostrar que son “conscientes de la prueba” simplemente porque los humanos los programaron de esa manera, al igual que Volkswagen diseñó sus vehículos para reconocer las condiciones de prueba hace una década.

Tal como está, este comportamiento parece estar emergiendo espontáneamente como un construcción social – Una táctica defensiva que se puede esperar de las personas, pero es inconveniente, si no realmente peligroso en una máquina, dependiendo de la extensión de su libertad y agencia.

No hay remedio inmediato; La naturaleza de la caja negra de los espacios latentes de los modelos nos obliga a evaluarlos en su comportamiento, en lugar de en su arquitectura empírica.

* Consulte el documento de origen para obtener detalles más completos.

Sin embargo, los autores señalan que esta es probablemente una estimación superior, ya que los anotadores estaban muy familiarizados con los conjuntos de datos y los métodos de evaluación de IA, que les dieron ventajas que la mayoría de los humanos no tendrían.

†† En la medida en que se pueda establecer; La fraseo del periódico hace que la aparición repentina de dos anotadores no esté claro en términos de quiénes son.

Publicado por primera vez el miércoles 4 de junio de 2025

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares