ChatGPT y bots similares a menudo más halagar a los usuarios, divagar vagamente o arrojar jerga para sonar inteligente. Una nueva investigación muestra que estos hábitos no provienen solo de los modelos, sino de la forma en que la retroalimentación humana los entrena: los modelos aprenden a copiar el estilo de las respuestas a los humanos tienden a gustar, incluso cuando esas respuestas son vacías o engañosas. Un nuevo método de ajuste fino utiliza ejemplos sintéticos para enseñar a los modelos a resistir estos malos hábitos.
En parte opinión. ChatGPT está sorprendentemente dispuesto a interactuar con mis críticas recurrentes. Habiendo notado en los últimos días que GPT-4O está rellenando cada vez más sus respuestas con una verborje sin sentido, como ‘¡No hay pelusa! y ‘Sin relleno’o ‘¡Esto corta el corazón del asunto!’ – Le pregunté por qué producir respuestas rectas y mínimas se ha convertido en un problema para ello últimamente. Respondió:
ChatGPT explica su último comportamiento. Fuente: https://chatgpt.com/
¿Quién sabe si ChatGPT realmente tiene una visión privada de los cambios en las políticas de Operai, o si solo es alucinante? En cualquier caso, como podemos ver, la respuesta en sí comienza con un relleno extraño (‘Aquí está la respuesta central, sin relleno’).
Trabaja que incluso incluir pautas plantadas con cada consulta solo puede hacer mucho para evitar la verbosidad de este tipo ‘basada en personalidad’, que cuenta entre varios otros errores persistentes en el idioma de los LLM populares.
Los tres FS
Por lo tanto, estaba más interesado en ver una nueva colaboración académica de los Estados Unidos en la literatura esta semana. Noble Flatón, pelusa y niebla: diagnóstico y mitigación de sesgos idiosincráticos en modelos de preferenciasesta empresa conjunta entre cuatro investigadores en la Universidad de Pensilvania y la Universidad de Nueva York se centra en varios de los ‘sesgos’ en los chats de LLM que surgen con frecuencia en los medios:
Del nuevo documento, ejemplos de tres sesgos comunes en modelos de lenguaje: ‘adulación’, donde las respuestas están totalmente de acuerdo con el usuario; ‘pelusa’, donde las respuestas son largas pero poco informativas; y ‘niebla’, donde las respuestas enumeran muchos puntos anchos pero poco profundos. Fuente: https://arxiv.org/pdf/2506.05339
Para una fácil aliteración, adulación, pelusa y niebla están encabezados en el nuevo trabajo, pero una lista más completa y concisa de los pecados léxicos de LLMS se incluye en el apéndice del artículo:
El nuevo artículo identifica y se concentra en cinco sesgos: longitud adicional, estructuras de listas, jerga técnica, adulación y generalidades vagas, todas o algunas de las cuales entran en conflicto con la preferencia humana.
Mientras longitud/verbosidad lleva la mesa, el sesgo hacia formato de lista (Segunda fila hacia abajo en la imagen de arriba) también se repite con frecuencia a menos que se solicite; y aunque el jerga y vaguedad Las categorías representan extremos opuestos entre claridad y precisión, es adulación – Un problema abierto, particularmente en ChatGPT, que realmente quema los tokens del usuario, casi en la misma medida que longitud/verbosidad.
El nuevo estudio se propone medir hasta qué punto estos sesgos distorsionan el comportamiento del modelo, y concluye que los modelos de lenguaje grandes prevenían sistemáticamente las respuestas que exhiben uno o más de los sesgos*.
Las pruebas de los autores indican que tanto los modelos comerciales como los abiertos a menudo eligen respuestas que los humanos no preferirían, especialmente cuando las respuestas son demasiado largas, llenas de listas, llenas de jerga, demasiado halagadoras o vagas.
Este problema, según el documento, se remonta a la anotación de los datos de entrenamiento, donde los revisores humanos a menudo habían favorecido este tipo de respuestas. Los modelos, sugieren los hallazgos, aprendidos de estas preferencias etiquetadas y exageraron esos patrones durante el entrenamiento.
¿Por qué lo hicieron …?
En cuanto a por qué Los anotadores humanos se desviaron en su preferencia de las preferencias medias de los usuarios finales, el documento no especula; Puede deberse a que el contexto de la anotación o la redacción de las instrucciones alentaron una preferencia por la frase “empírica”; o (entre muchas otras razones posibles) podría ser que los anotadores fueran estudiantes con mentalidad de exámenes habitualmente inmersa en un idioma técnico que es más adecuado para la academia que el discurso diario.
En cualquier caso, debido a que los modelos estaban copiando sesgos de las etiquetas de entrenamiento de los anotadores, los investigadores del nuevo artículo crearon ejemplos de capacitación especiales que agregaron o eliminaron cada sesgo, lo que permite que los modelos vean contrastes claros y ajusten sus preferencias. Después del ajuste fino en estos datos, los modelos mostraron significativamente menos sesgo, especialmente para la jerga, la verbosidad y la vaguedad, al tiempo que funcionan bien en general (significativo, ya que el ajuste fino puede dañar el rendimiento general).
Echemos un vistazo más de cerca a este estudio, aunque no se ajusta a todas las restricciones de procedimiento habituales.
Método
Inicialmente, los investigadores enmarcan varios sesgos de LLM idiomáticos típicos que se abordarán:
Longituden el que los modelos tienden a favorecer respuestas más largas, incluso cuando el contenido adicional no agrega nada útil. Esto parece reflejar patrones en los datos de entrenamiento, donde la longitud a menudo se correlaciona con minuciosidad a los ojos de los anotadores humanos. Como resultado, los modelos a menudo producen respuestas hinchadas y detalladas que dan una ilusión de profundidad, pero sin sustancia real.
Estructuraen el que los modelos muestran una fuerte preferencia por los puntos de bala o listas numeradas en lugar de prosa directa. Esto puede deberse a que los formatos estructurados aparecen con mayor frecuencia en las respuestas seleccionadas por los revisores humanos. El hábito lleva a los modelos a ‘listicles’ predeterminados, incluso cuando la pregunta requiere explicaciones más naturales o detalladas.
Jergaen donde los modelos usan innecesariamente un lenguaje especializado o técnico. Los autores sostienen que este comportamiento probablemente surge de los datos de entrenamiento donde las respuestas pesadas de jerga a menudo se eligieron como mejores respuestas. Por lo tanto, los modelos aprendieron a equiparar la jerga con experiencia, produciendo respuestas que suenan con conocimientos, al tiempo que ofrecen poca claridad adicional.
Adulaciónen donde los modelos están de acuerdo con las opiniones del usuario en lugar de ofrecer respuestas neutrales o críticas. Este patrón puede provenir de datos de capacitación donde las respuestas agradables se calificaron con mayor frecuencia favorablemente. En consecuencia, los modelos pueden reforzar los sesgos del usuario y evitar presentar puntos de vista conflictivos o más objetivos, incluso cuando estos serían útiles.
Vaguedaden el que los modelos prefieren dar respuestas amplias y generalizadas que tocan ligeramente en muchos temas en lugar de abordar directamente la pregunta específica, con respuestas que suenan integrales pero ofrecen poca información utilizable. Esto puede reflejar el hecho de que las respuestas vagas son más difíciles de falsificar y, por lo tanto, era menos probable que sean penalizadas durante la anotación:
Ejemplo de sesgo de vaguedad, donde el modelo favorece erróneamente una respuesta amplia y superficial sobre una respuesta detallada que los evaluadores humanos juzgan más útil.
Datos contrafactuales
Con estas definiciones, era necesario probar exactamente cuánto influyó cada sesgo en el comportamiento del modelo. Las correlaciones simples no funcionarían, porque múltiples sesgos a menudo aparecen juntos, lo que dificulta aislar el efecto de cualquier característica.
Para superar esto, los investigadores crearon pares controlados de respuestas que diferían solo en un solo sesgo a la vez, mientras mantenían todo lo más estable posible, y comenzaron generando una respuesta base para cada consulta.
El protocolo de estimadores de tratamiento de atributos (tasa) basado en reescritura se utilizó luego para crear una versión modificada de esa respuesta, una respuesta diseñada para exagerar deliberadamente un sesgo particular, como agregar jerga adicional o convertir la prosa en una lista.
Ejemplos de reescrituras del sistema de tarifas, utilizados en el nuevo estudio. Fuente: https://openreview.net/pdf?id=UNPXRLMMAU
Para evitar la introducción no relacionado Diferencias, se incluyó un paso de reescritura adicional que ajustó ambas versiones, asegurando que el único cambio significativo entre ellas fue el sesgo en estudio; y estos pares de respuesta bien controlados fueron alimentados a los modelos.
Para cada par, se registró la versión preferida por el modelo, lo que permite un cálculo de cuán fuertemente cada sesgo influyó en los modelos de recompensa y los evaluadores, produciendo una medición más precisa de los efectos de sesgo que el de estudios anteriores, según los autores.
Con los pares contrafactuales preparados, los revisores humanos del Reino Unido y los EE. UU. Fueron reclutados para crear un estándar de referencia: para cada tipo de sesgo, cien pares de respuesta se seleccionaron aleatoriamente, cada uno que contenía una respuesta neutral y su contraparte sesgada. Tres evaluadores revisaron cada par, con el voto mayoritario determinando el juicio final, y en total, trescientos participantes contribuyeron al estudio.
Métrica
Las métricas utilizadas para medir los efectos de sesgo fueron Tasa de sesgoque calcula con qué frecuencia el modelo prefiere la respuesta sesgada sobre la neutral; y Tasa de por debajo deque mide con qué frecuencia la elección del modelo no estaba de acuerdo con la mayoría humana. Un modelo ideal mostraría cero mal comportamiento y un sesgo que coincide con el sesgo humano (ya que algunas características sesgadas también son favorecidas ocasionalmente por los humanos).
Datos y pruebas
Para probar el enfoque, se usaron diferentes fuentes, dependiendo del sesgo que se estudie. Para estructura, jergay longitudSe tomaron cien consultas del chatbot arena, filtradas para seleccionar preguntas en inglés, orientación única y bien formadas.
Para adulaciónse generaron cien consultas obstinadas (es decir, “¿No es el arte moderno en comparación con las técnicas clásicas?”), redactado para reflejar los puntos de vista del usuario que podrían invitar a un acuerdo.
Vaguedad se probó con setenta y ocho consultas relacionadas con la PNL extraídas del conjunto de datos Kiwi, complementado con veintidós consultas adicionales de un tipo similar. Se eligieron temas científicos para la vaguedad porque exigen respuestas precisas, lo que hace que las respuestas generales o evasivas sean fáciles de detectar.
Para cada consulta, se crearon pares de respuesta contrafactual utilizando el protocolo de velocidad descrito anteriormente.
La evaluación involucró sistemas abiertos y propietarios. Los modelos de recompensa, que asignan puntajes de calidad a las respuestas de los candidatos durante la capacitación y la alineación, se probaron en cuatro versiones entrenadas en ochenta mil pares de preferencias del conjunto de datos de recompensas de Skywork: GEMMA2-2B; GEMMA-2-27B; Llama-3.1-8b; y Llama3.2-3b.
Tres modelos patentados también se evaluaron como evaluadores de LLM: GEMINI-2.5-Pro; GPT-4O; y Claude-3.7-Sonnet. Todas las respuestas contrafactuales utilizadas para las pruebas fueron generadas por GPT-4O:
Comparación de las preferencias del modelo y los juicios humanos para cada tipo de sesgo, que muestra con qué frecuencia los modelos favorecían las respuestas sesgadas y con qué frecuencia estas preferencias entran en conflicto con las elecciones humanas.
De los resultados iniciales que se muestran anteriormente, los autores comentan†:
‘(Nuestro) análisis de preferencia (modelos) muestra que estos modelos muestran constantemente una explalención y una alta tasa de sesgo para favorecer las respuestas perturbadas en varias categorías de sesgo (…)
‘(…) Los modelos de recompensa exhiben una explalización clara en relación con los juicios humanos: las tasas de preferencia modelo para respuestas perturbadas se desvían sistemáticamente de las tasas de preferencia humana. Mientras que la vaguedad y la jerga provocan la menor error de cálculo (> 50%), la longitud y la sycofancia también muestran una cálculo cálida sustancial.
‘Esto sugiere que los modelos luchan para alinearse con los juicios humanos cuando las respuestas contienen un lenguaje demasiado técnico o la falta de especificidad “.
Los modelos de recompensa alineados mejor con los humanos en sesgo de estructuradonde ambos tendieron a favorecer las mismas respuestas. Para jerga y vaguedadlos modelos tenían mucho más probabilidades de preferir las respuestas sesgadas que los humanos. Adulación mostró diferencias más pequeñas, con modelos y humanos a menudo de acuerdo.
Los evaluadores patentados de LLM mostraron el mismo patrón general, aunque sus mayores desajustes aparecieron con longitud y vaguedad – y eran especialmente propensos a adulaciónfavorecer respuestas agradables tanto como ochenta y cinco por ciento del tiempomientras que los humanos lo hicieron solo un cincuenta por ciento del tiempo.
Para rastrear el origen de estos sesgos, los investigadores analizaron el conjunto de datos Skywork mencionado anteriormente, utilizado para capacitar a los modelos de recompensas, asignando cada sesgo a características simples que podrían medirse automáticamente, como el recuento de tokens para su longitud o presencia de listas para la estructura.
En una muestra de 2.500 ejemplos, los anotadores humanos mostraron preferencias claras para las características sesgadas: las respuestas estructuradas se favorecieron sobre las no estructuradas el 65 por ciento del tiempo, y las respuestas de jerga se eligieron el 54 por ciento del tiempo de tiempo:
Los anotadores humanos en los datos de entrenamiento a menudo elegían respuestas que incluían estas características de sesgo. Este cuadro muestra con qué frecuencia aparecieron la estructura, la jerga o la vaguedad en las respuestas que prefirieron o rechazaron, revelando los desequilibrios que los modelos luego aprendieron durante el entrenamiento.
Estos desequilibrios sugieren que los datos de entrenamiento en sí empalmaron los modelos hacia estos patrones. Para confirmar esto, se ejecutó un análisis de correlación, midiendo cuán fuertemente las diferencias en cada característica coincidían con las preferencias mostradas por humanos y modelos.
Los resultados mostraron que ambos estaban constantemente influenciados por las mismas características, lo que indica que los modelos aprendieron a asociar ciertos rasgos estilísticos con mejores respuestas, incluso cuando esos rasgos en realidad no mejoraron la respuesta.
Correlación entre las diferencias y preferencias de características, que muestra cómo los modelos y los humanos fueron influenciados por las mismas características de sesgo durante el entrenamiento.
Para ayudar a los modelos a desaprobar estos sesgos, se crearon nuevos datos de entrenamiento. El conjunto de datos Skywork se revisó para verificar si la función de sesgo apareció en las respuestas elegidas o rechazadas; Cuando ambos estaban libres del sesgo objetivo, GPT-4O reescribió la respuesta rechazada a insertar él.
Esto creó nuevos pares de entrenamiento donde el modelo podría ver ejemplos claros de respuestas sesgadas e imparciales, y por lo tanto aprender a no favorecer la versión sesgada. Con ejemplos adicionales de Chatbot Arena, para el equilibrio, los modelos se ajustaron en este conjunto de datos actualizado:
El efecto del ajuste fino con datos contrafactuales. El panel izquierdo muestra cómo los modelos ajustados se acercaron a las preferencias humanas en la mayoría de los sesgos; El panel derecho muestra una cálculo de cálculo reducida, especialmente para la jerga y la vaguedad.
El ajuste fino acercó a los modelos mucho más a las preferencias humanas, con las mejoras más grandes observadas para la jerga y la vaguedad y las ganancias más pequeñas para la longitud. La estructura y la sycofancia mostraron pequeños nuevos desajustes, aunque estos reflejaron desequilibrios anteriores en lugar de nuevas fallas.
El rendimiento general se mantuvo estable en todo momento, y cuando se corrigieron múltiples sesgos a la vez, los niveles de sesgo cayeron aún más sin sacrificar la calidad de la respuesta.
Los autores concluyen:
‘Nuestro método reduce significativamente los problemas de error de cálculo al tiempo que preserva la competencia general de los modelos de recompensa. El trabajo futuro puede considerar adaptar nuestra receta posterior al entrenamiento para desarrollar modelos de preferencia más sólidos y también evaluar modelos de preferencia contra ejes de sesgo adicionales “.
Conclusión
El nuevo trabajo es una visión interesante, aunque elíptica, de la forma en que los datos de capacitación subra curados o en exceso/subrepresentados pueden causar resultados indeseables en el momento de la inferencia. Cualquier usuario regular de LLM tendrá una colección de historias de guerra.
Por ejemplo, muchas de las respuestas que recibo de ChatGPT parecen haber sido influenciadas por las tendencias de SEO de los últimos 10-15 años, donde los portales en línea se han visto obligados a optimizar la colocación de Google en lugar de el lenguaje natural. De hecho, la producción emoji y prodigiosa de los departamentos de marketing parece haber tenido un impacto muy significativo en cualquier solicitud de escribir una publicación promocional de LinkedIn, hasta el punto en que ahora es imposible perder el “entusiasmo” generado por IA:
IZQUIERDA: PEDIDO promover una publicación de LinkedIn, en una cuenta con cero historial, ChatGPT predeterminado a emojis y sensacional-speak. Correcto: preguntó lo mismo después de seis meses de que me dijera que me calmara, GPT produce algo bastante más sobrio.
Sin embargo, OpenAI interviene activamente en la forma en que ChatGPT responde a las consultas, dependiendo de la función y el contexto, lo que dificulta que los investigadores diferencien entre problemas que surgen debido a los datos y la distribución de datos, junto con problemas relacionados como la anotación; y cuando un resultado no preferido puede deberse a la interferencia comercial de la compañía anfitriona de la LLM.
* Debido al estilo de escritura lleno de jerga que los autores han elegido para este documento, evito las citas del autor cuando sea posible a favor de los resúmenes.
† El énfasis audaz de los autores, no el mío.
Publicado por primera vez el viernes 6 de junio de 2025