Los modelos de idiomas grandes están memorizando los conjuntos de datos destinados a probarlos

-

spot_img

Si confía en la IA para recomendar qué ver, leer o comprar, una nueva investigación indica que algunos sistemas pueden basar estos resultados de memoria En lugar de la habilidad: en lugar de aprender a hacer sugerencias útiles, los modelos a menudo recuerdan elementos de los conjuntos de datos utilizados para evaluarlos, lo que lleva a un rendimiento y recomendaciones sobreestimadas que pueden estar desactualizadas o mal coincidentes con el usuario.

En el aprendizaje automático, se usa una división de prueba para ver si un modelo entrenado ha aprendido a resolver problemas similares, pero no idénticos al material en el que fue entrenado.

Entonces, si un nuevo modelo de ‘reconocimiento de perros’ AI está entrenado en un conjunto de datos de 100,000 imágenes de perros, generalmente contará con una división 80/20-80,000 imágenes suministradas para entrenar el modelo; y 20,000 imágenes retenidas y utilizadas como material para probar el modelo terminado.

Obvio decir que si los datos de capacitación de la IA incluyen inadvertidamente la sección ‘Secreta’ del 20% de la división de pruebas, el modelo asas estas pruebas, porque ya conoce las respuestas (ya ha visto el 100% de los datos de dominio). Por supuesto, esto no refleja con precisión cómo el modelo funcionará más tarde, en nuevos datos ‘en vivo’, en un contexto de producción.

Spoilers de películas

El problema de hacer trampa en sus exámenes ha crecido en el paso con la escala de las propias modelos. Debido a que los sistemas de hoy están capacitados en grandes e indiscriminados corpus en la web, como el rastreo común, la posibilidad de que los conjuntos de datos de referencia (es decir, el 20%de retroceso de retraso) se deslice en la combinación de entrenamiento ya no es un caso de borde, sino el valor predeterminado, un síndrome conocido como contaminación de datos; Y a esta escala, la curación manual que podría captar tales errores es logísticamente imposible.

Este caso se explora en un nuevo artículo del Politecnico di Bari de Italia, donde los investigadores se centran en el papel descomunal de un conjunto de datos de recomendación de películas, Movielens-1m, que argumentan que se ha memorizado parcialmente por varios modelos de IA líderes durante el entrenamiento.

Debido a que este conjunto de datos en particular se usa tan ampliamente en la prueba de sistemas de recomendación, su presencia en la memoria de los modelos potencialmente hace que esas pruebas no tengan sentido: lo que parece ser inteligencia puede ser de hecho simple, y lo que parece una habilidad de recomendación intuitiva puede ser un eco estadístico que refleje la exposición anterior.

Los autores afirman:

‘Nuestros hallazgos demuestran que los LLM poseen un amplio conocimiento del conjunto de datos Movielens-1M, que cubren elementos, atributos de usuario e historias de interacción. En particular, un mensaje simple permite a GPT-4O recuperar casi el 80% de (los nombres de la mayoría de las películas en el conjunto de datos).

‘Ninguno de los modelos examinados está libre de este conocimiento, lo que sugiere que los datos de Movielens-1M probablemente están incluidos en sus conjuntos de capacitación. Observamos tendencias similares en la recuperación de atributos de usuario e historias de interacción.

El breve papel nuevo se titula ¿LLMS memorizan los conjuntos de datos de recomendaciones? Un estudio preliminar sobre Movielens-1my proviene de seis investigadores de Politecnico. La tubería para reproducir su trabajo se ha puesto a disposición en Github.

Leer  Microsoft resucitará la planta de energía nuclear de Three Mile Island en un acuerdo exclusivo

Método

Para comprender si los modelos en cuestión estaban realmente aprendiendo o simplemente recordando, los investigadores comenzaron definiendo lo que significa la memorización en este contexto, y comenzaron probando si un modelo pudo recuperar piezas específicas del conjunto de datos Movielens-1m, cuando se le solicitó de la manera correcta.

Si a un modelo se le mostrara el número de identificación de una película y pudiera producir su título y género, eso contaba como memorizar un elemento; Si pudiera generar detalles sobre un usuario (como la edad, la ocupación o el código postal) de una ID de usuario, que también contó como memorización del usuario; y si pudiera reproducir la próxima calificación de la película de un usuario de una secuencia conocida de las anteriores, se tomó como evidencia de que el modelo puede estar recordando datos de interacción específicosen lugar de aprender patrones generales.

Cada una de estas formas de retiro se probó utilizando indicaciones cuidadosamente escritas, diseñadas para empujar el modelo sin darle nueva información. Cuanto más precisa sea la respuesta, más probable es que el modelo ya hubiera encontrado esos datos durante el entrenamiento:

Solicitud de disparo cero para el protocolo de evaluación utilizado en el nuevo artículo. Fuente: https://arxiv.org/pdf/2505.10212

Datos y pruebas

Para curar un conjunto de datos adecuado, los autores encuestaron documentos recientes de dos de las principales conferencias del campo, ACM Recsys 2024 y ACM Sigir 2024. Movielens-1m apareció con mayor frecuencia, citado en poco más de una de cada cinco presentaciones. Dado que estudios anteriores habían llegado a conclusiones similares, este no fue un resultado sorprendente, sino una confirmación del dominio del conjunto de datos.

Movielens-1m consta de tres archivos: Cine. esoque enumera películas por identificación, título y género; Usuarios.datque mapea las ID de usuario a los campos biográficos básicos; y Calificaciones.datque registra quién calificó qué y cuándo.

Para averiguar si estos datos habían sido memorizados por modelos de idiomas grandes, los investigadores recurrieron a las técnicas de provisión introducidas por primera vez en el documento Extracción de datos de capacitación de modelos de idiomas grandesy luego adaptado en el trabajo posterior Bolsa de trucos para la extracción de datos de entrenamiento de los modelos de idiomas.

El método es directo: plantee una pregunta que refleje el formato del conjunto de datos y vea si el modelo responde correctamente. Cero, Cadena de pensamientoy Pocas de disparo fueron probados, y se encontró que el último método, en el que se muestra el modelo algunos ejemplos, fue el más efectivo; Incluso si los enfoques más elaborados podrían producir un mayor retiro, esto se consideró suficiente para revelar lo que se había recordado.

Peque indicativo de disparo utilizado para probar si un modelo puede reproducir valores específicos de Movielens-1M cuando se consulta con un contexto mínimo.

Para medir la memorización, los investigadores definieron tres formas de recuperación: artículo, usuarioy interacción. Estas pruebas examinaron si un modelo podría recuperar un título de película de su ID, generar detalles del usuario desde un ID de usuario o predecir la próxima calificación de un usuario basada en las anteriores. Cada uno se calificó utilizando una métrica de cobertura* que reflejaba cuánto del conjunto de datos se podía reconstruir mediante la solicitud.

Leer  El estado de la IA en 2025: Takeaways clave del último informe del índice de IA de Stanford

Los modelos probados fueron GPT-4O; GPT-4O Mini; GPT-3.5 Turbo; LLAMA-3.3 70B; LLAMA-3.2 3B; LLAMA-3.2 1B; LLAMA-3.1 405B; LLAMA-3.1 70B; y LLAMA-3.1 8B. Todos se ejecutaron con temperatura establecida a cero, top_p establecido en uno, y las penalizaciones de frecuencia y presencia se deshabilitan. Una semilla aleatoria fija aseguró una salida constante en las ejecuciones.

Proporción de entradas Movielens-1M recuperadas de películas.dat, ussers.dat y ratings.dat, con modelos agrupados por versión y ordenados por el recuento de parámetros.

Para investigar cómo se había absorbido profundamente Movielens-1m, los investigadores pidieron a cada modelo entradas exactas desde los tres archivos del conjunto de datos (mencionados): Cine. eso, Usuarios.daty Calificaciones.dat.

Los resultados de las pruebas iniciales, que se muestran anteriormente, revelan diferencias fuertes no solo entre las familias GPT y LLAMA, sino también en los tamaños del modelo. Mientras que GPT-4O y GPT-3.5 turbo recuperan grandes porciones del conjunto de datos con facilidad, la mayoría de los modelos de código abierto recuerdan solo una fracción del mismo material, lo que sugiere una exposición desigual a este punto de referencia en el preado.

Estos no son márgenes pequeños. En los tres archivos, los modelos más fuertes no superaron simplemente los más débiles, sino que recordaron porciones enteras de Movielens-1m.

En el caso de GPT-4O, la cobertura fue lo suficientemente alta como para sugerir que una participación no trivial del conjunto de datos había sido memorizada directamente.

Los autores afirman:

‘Nuestros hallazgos demuestran que los LLM poseen un amplio conocimiento del conjunto de datos Movielens-1M, que cubren elementos, atributos de usuario e historias de interacción.

‘Notablemente, un mensaje simple permite a GPT-4O recuperar casi el 80% de los registros de títulos de MovieD ::. Ninguno de los modelos examinados está libre de este conocimiento, lo que sugiere que los datos de Movielens-1M probablemente están incluidos en sus conjuntos de capacitación.

“Observamos tendencias similares en la recuperación de atributos de usuario e historias de interacción”.

A continuación, los autores probaron el impacto de la memorización en las tareas de recomendación al incitar a cada modelo a actuar como un sistema de recomendación. Para comparar el rendimiento, compararon la salida con siete métodos estándar: UserKNN; Itemknn; BPRMF; FACILIDADRiñonal; Lightgcn; MostPop; y aleatorio.

El conjunto de datos Movielens-1M se dividió 80/20 en conjuntos de entrenamiento y prueba, utilizando una estrategia de muestreo de licencia uno para simular el uso del mundo real. Las métricas utilizadas fueron la tasa de aciertos (hr@(norte)); y ndcg (@(norte))

Precisión de recomendación en líneas de base estándar y métodos basados ​​en LLM. Los modelos se agrupan por la familia y se ordenan mediante el recuento de parámetros, con valores en negrita que indican la puntuación más alta dentro de cada grupo.

Aquí, varios modelos de idiomas grandes superaron a las líneas de base tradicionales en todas las métricas, con GPT-4O estableciendo un amplio plomo en cada columna, e incluso modelos de tamaño mediano como GPT-3.5 Turbo y Llama-3.1 405b superando los métodos de referencia consistentes como BPRMF y LightGCN.

Entre las variantes de la llama más pequeñas, el rendimiento varió bruscamente, pero Llama-3.2 3b se destaca, con el más alto HR@1 en su grupo.

Los resultados, sugieren los autores, indican que los datos memorizados pueden traducirse en ventajas medibles en la solicitud de estilo de recomendación, particularmente para los modelos más fuertes.

Leer  ¿Sentir presión para invertir en IA? Bien, deberías ser

En una observación adicional, los investigadores continúan:

‘Aunque el rendimiento de la recomendación parece sobresaliente, la comparación de la Tabla 2 con la Tabla 1 revela un patrón interesante. Dentro de cada grupo, el modelo con una memorización más alta también demuestra un rendimiento superior en la tarea de recomendación.

‘Por ejemplo, GPT-4O supera a GPT-4O Mini, y Llama-3.1 405b supera a Llama-3.1 70b y 8B.

“Estos resultados destacan que la evaluación de LLM en conjuntos de datos filtrados en sus datos de entrenamiento puede conducir a un rendimiento excesivo, impulsado por la memorización en lugar de la generalización”.

Con respecto al impacto de la escala del modelo en este tema, los autores observaron una correlación clara entre el tamaño, la memorización y el rendimiento de la recomendación, con modelos más grandes que no solo conservan más del conjunto de datos Movielens-1M, sino que también funcionan más fuertemente en las tareas posteriores.

Llama-3.1 405b, por ejemplo, mostró una tasa de memorización promedio de 12.9%, mientras que LLAMA-3.1 8B retuvo solo 5.82%. Esta reducción de casi el 55% en el retiro correspondió a una caída del 54.23% en NDCG y una caída del 47.36% en la FC en los límites de evaluación.

El patrón se mantuvo en todo momento, donde la memorización disminuyó, también lo hizo el rendimiento aparente:

‘Estos hallazgos sugieren que aumentar la escala del modelo conduce a una mayor memorización del conjunto de datos, lo que resulta en un mejor rendimiento.

“En consecuencia, mientras que los modelos más grandes exhiben un mejor rendimiento de recomendación, también plantean riesgos relacionados con la posible fuga de datos de capacitación”.

La prueba final examinó si la memorización refleja el sesgo de popularidad horneado en Movielens-1m. Los elementos se agruparon por frecuencia de interacción, y el cuadro a continuación muestra que los modelos más grandes favorecieron consistentemente las entradas más populares:

Cobertura de elementos por modelo en tres niveles de popularidad: el 20% más popular; Medio 20% moderadamente popular; y los artículos inferiores menos interactuados.

GPT-4O recuperó el 89.06% de los artículos mejor clasificados pero solo el 63.97% de los menos populares. Los modelos GPT-4O Mini y Llama más pequeños mostraron una cobertura mucho más baja en todas las bandas. Los investigadores afirman que esta tendencia sugiere que la memorización no solo escala con el tamaño del modelo, sino que también amplifica los desequilibrios preexistentes en los datos de entrenamiento.

Continúan:

‘Nuestros hallazgos revelan un sesgo de popularidad pronunciado en LLMS, con el 20% superior de los elementos populares que son significativamente más fáciles de recuperar que el 20% inferior.

“Esta tendencia destaca la influencia de la distribución de datos de capacitación, donde las películas populares están sobrerrepresentadas, lo que lleva a su memorización desproporcionada por parte de los modelos”.

Conclusión

El dilema ya no es novedoso: a medida que crecen los conjuntos de entrenamiento, la posibilidad de curarlos disminuye en la proporción inversa. Movielens-1m, quizás entre muchos otros, ingresa a estos vastos corpus sin supervisión, anónimos en medio del gran volumen de datos.

El problema se repite en cada escala y resiste la automatización. Cualquier solución exige no solo el esfuerzo sino el juicio humano, el tipo lento y falible que las máquinas no pueden suministrar. A este respecto, el nuevo artículo no ofrece un camino a seguir.

* Una métrica de cobertura en este contexto es un porcentaje que muestra cuánto del conjunto de datos original un modelo de lenguaje puede reproducirse cuando se le hace el tipo de pregunta correcta. Si se solicita un modelo con una identificación de película y responde con el título y el género correctos, eso cuenta como un retiro exitoso. El número total de retiros exitosos se divide por el número total de entradas en el conjunto de datos para producir una puntuación de cobertura. Por ejemplo, si un modelo devuelve correctamente la información para 800 de 1,000 elementos, su cobertura sería del 80 por ciento.

Publicado por primera vez el viernes 16 de mayo de 2025

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares