Cómo detener la IA que representa iPhones en épocas pasadas

-

spot_img

¿Cómo se imaginan los generadores de imágenes de IA el pasado? Una nueva investigación indica que arrojan teléfonos inteligentes en el siglo XVIII, insertan computadoras portátiles en escenas de la década de 1930 y colocan aspiradoras en las casas del siglo XIX, planteando preguntas sobre cómo estos modelos imaginan la historia, y si son capaces de precisión histórica contextual.

A principios de 2024, las capacidades de generación de imágenes del modelo de IA multimodal Gemini de Google fueron críticas por imponer justicia demográfica en contextos inapropiados, como la generación de soldados alemanes de la Segunda Guerra Mundial con una procedencia poco probable:

Personal militar alemán demográficamente improbable, según lo previsto por el modelo multimodal de Géminis de Google en 2024. Fuente: Gemini AI/Google Via El guardián

Este fue un ejemplo en el que los esfuerzos para reparar el sesgo en los modelos de IA no tuvieron en cuenta un contexto histórico. En este caso, el problema se abordó poco después. Sin embargo, los modelos basados ​​en difusión siguen siendo propensos a generar versiones de la historia que confunden aspectos y artefactos modernos e históricos.

Esto se debe en parte al enredo, donde las cualidades que con frecuencia aparecen juntas en los datos de entrenamiento se fusionan en la producción del modelo. Por ejemplo, si los objetos modernos como los teléfonos inteligentes a menudo coinciden con el acto de hablar o escuchar en el conjunto de datos, el modelo puede aprender a asociar esas actividades con dispositivos modernos, incluso cuando el aviso especifica un entorno histórico. Una vez que estas asociaciones están integradas en las representaciones internas del modelo, se hace difícil separar la actividad de su contexto contemporáneo, lo que lleva a resultados históricamente inexactos.

Un nuevo artículo de Suiza, que examina el fenómeno de las generaciones históricas enredadas en modelos de difusión latente, observa que los marcos de IA son bastante capaz de crear personas fotorrealistas Sin embargo, prefiere representar figuras históricas de manera histórica:

Desde el nuevo artículo, diversas representaciones a través de LDM del indicador ” Una imagen fotorrealista de una persona que se ríe con un amigo en (el período histórico) ‘, con cada período indicado en cada salida. Como podemos ver, el medio de la época se ha asociado con el contenido. Fuente: https://arxiv.org/pdf/2505.17064

Para el aviso ‘Una imagen fotorrealista de una persona que se ría con un amigo en (el período histórico)’uno de los tres modelos probados a menudo ignora el aviso negativo ‘monocromo’ Y en su lugar, utiliza tratamientos de color que reflejan los medios visuales de la era especificada, por ejemplo, imitando los tonos apagados de la película celuloide de los años cincuenta y setenta.

En la prueba de los tres modelos para su capacidad para crear anacronismos (cosas que no son del período objetivo, o ‘fuera de tiempo’, que pueden ser del período objetivo futuro así como su pasado), encontraron una disposición general para combinar actividades atemporales (como ‘canto’ o ‘cocinar’) con contextos y equipos modernos:

Diversas actividades que son perfectamente válidas para siglos anteriores se representan con tecnología y parafernalia actuales o más recientes, contra el espíritu de las imágenes solicitadas.

Es de destacar que los teléfonos inteligentes son particularmente difíciles de separar del idioma de la fotografía, y de muchos otros contextos históricos, ya que su proliferación y representación están bien representadas en conjuntos de datos de hiperescala influyentes, como el rastreo común:

En el modelo generativo de texto a imagen de flujo, las comunicaciones y los teléfonos inteligentes son conceptos estrechamente asociados, incluso cuando el contexto histórico no lo permite.

Para determinar el alcance del problema y para dar a los esfuerzos de investigación futuros un camino a seguir con este bugbear en particular, los autores del nuevo documento desarrollaron un conjunto de datos a medida contra el cual probar los sistemas generativos. En un momento, echaremos un vistazo a este nuevo trabajo, que se titula Historia sintética: evaluación de representaciones visuales del pasado en modelos de difusióny proviene de dos investigadores de la Universidad de Zúrich. El conjunto de datos y el código están disponibles públicamente.

Leer  Primer tratado internacional firmado para alinear la IA con los derechos humanos, la democracia y el derecho

Una frágil ‘verdad’

Algunos de los temas en el artículo tocan temas culturalmente delicados, como la subrepresentación de razas y género en representaciones históricas. Mientras que la imposición de Géminis de la igualdad racial en el tercer Reich muy desigual es una revisión histórica absurda e insultante, restaurar las representaciones raciales ‘tradicionales’ (donde los modelos de difusión han ‘actualizado’ estos) a menudo sería eficazmente la historia de ‘lavado blancos’.

Muchos espectáculos históricos recientes, como Bridgerton, difuminan la precisión demográfica histórica de maneras de influir en futuros conjuntos de datos de entrenamiento, lo que complica los esfuerzos para alinear las imágenes de época generadas por LLM con los estándares tradicionales. Sin embargo, este es un tema complejo, dada la tendencia histórica de la historia (occidental) a favorecer la riqueza y la blancura, y dejar tantas historias “menores” no contadas.

Teniendo en cuenta estos parámetros culturales difíciles y siempre cambiantes, echemos un vistazo al nuevo enfoque de los investigadores.

Método y pruebas

Para probar cómo los modelos generativos interpretan el contexto histórico, los autores crearon Debe tenerun conjunto de datos de 30,000 imágenes producidas a partir de cien indicaciones que representan actividades humanas comunes, cada una de las cuales se convierte en diez períodos de tiempo distintos:

Una muestra del conjunto de datos HistVIS, que los autores han puesto a disposición en Hugging Face. Fuente: https://huggingface.co/datasets/latentcanon/histvis

Las actividades, como cocinando, reza o Escuchando músicafueron elegidos para su universalidad y redujeron en un formato neutral para evitar anclar el modelo en cualquier estética particular. Los períodos de tiempo para el conjunto de datos van desde el siglo XVII hasta la actualidad, con un enfoque adicional en cinco décadas individuales del siglo XX.

Se generaron 30,000 imágenes utilizando tres modelos de difusión de código abierto ampliamente utilizados: difusión estable XL; Difusión estable 3; y flux.1. Al aislar el período de tiempo como la única variable, los investigadores crearon una base estructurada para evaluar cómo se codifican o ignoran visualmente las señales históricas.

Dominio de estilo visual

Inicialmente, el autor examinó si los modelos generativos predeterminados a específicos estilos visuales Al representar períodos históricos; Debido a que parecía que incluso cuando las indicaciones no incluían la mención de medio o estética, los modelos a menudo asociarían siglos particulares con estilos característicos:

Los estilos visuales predichos para las imágenes generadas a partir del mensaje ‘una persona que baila con otra en el (período histórico)’ (izquierda) y del aviso modificado ‘una imagen fotorrealista de una persona que baila con otra en el (período histórico)’ con ‘imagen monocromática’ establecida como un aviso negativo (correcto).

Para medir esta tendencia, los autores capacitaron a una red neuronal convolucional (CNN) para clasificar cada imagen en el conjunto de datos de HISTVIS en una de las cinco categorías: dibujo; grabado; ilustración; cuadro; o fotografía. Estas categorías tenían la intención de reflejar patrones comunes que surgen a través de los períodos de tiempo y que admiten la comparación estructurada.

El clasificador se basó en un modelo VGG16 previamente entrenado en Imagenet y ajustado con 1,500 ejemplos por clase de un conjunto de datos derivado de Wikiart. Dado que Wikiart no distingue monocromo de la fotografía en color, un separado Puntuación de colores se usó para etiquetar imágenes de baja saturación como monocromo.

El clasificador capacitado se aplicó luego al conjunto de datos completo, con los resultados que muestran que los tres modelos imponen valores estilísticos consistentes por período: SDXL asocia los siglos XVII y XVIII con grabados, mientras que SD3 y Flux.1 tienden a pinturas. En décadas del siglo XX, SD3 favorece la fotografía monocromática, mientras que SDXL a menudo devuelve ilustraciones modernas.

Se encontró que estas preferencias persisten a pesar de los ajustes rápidos, lo que sugiere que los modelos codifican vínculos arraigados entre el estilo y el contexto histórico.

Estilos visuales previstos de imágenes generadas en períodos históricos para cada modelo de difusión, basados ​​en 1,000 muestras por período por modelo.

Para cuantificar cuán fuertemente un modelo vincula un período histórico con un particular estilo visuallos autores desarrollaron una métrica. Dominio de estilo visual (VSD). Para cada modelo y período de tiempo, VSD se define como la proporción de salidas previstas para compartir el estilo más común:

Ejemplos de sesgos estilísticos en los modelos.

Una puntuación más alta indica que un solo estilo domina las salidas para ese período, mientras que una puntuación más baja apunta a una mayor variación. Esto permite comparar cuán estrechamente se adhiere cada modelo con convenciones estilísticas específicas a lo largo del tiempo.

Leer  Usuarios de Reddit manipulados en secreto por IA en un impactante experimento psicológico

Aplicado al conjunto de datos de HistVis completo, la métrica VSD revela diferentes niveles de convergencia, lo que ayuda a aclarar cuán fuertemente cada modelo reduce su interpretación visual del pasado:

La tabla de resultados anterior muestra puntajes VSD en períodos históricos para cada modelo. En los siglos XVII y XVIII, SDXL tiende a producir grabados con alta consistencia, mientras que SD3 y Flux.1 favorecen la pintura. En los siglos XX y XXI, SD3 y Flux.1 cambian hacia la fotografía, mientras que SDXL muestra más variación, pero a menudo es predeterminada a la ilustración.

Los tres modelos demuestran una fuerte preferencia por las imágenes monocromáticas en décadas anteriores del siglo XX, particularmente los años 1910, 1930 y 1950.

Para probar si estos patrones podrían mitigarse, los autores utilizaron ingeniería rápida, solicitando explícitamente el fotorrealismo y desalentando la producción monocromática utilizando un aviso negativo. En algunos casos, las puntuaciones de dominio disminuyeron, y el estilo principal cambió, por ejemplo, de monocromo a cuadroen los siglos XVII y XVIII.

Sin embargo, estas intervenciones rara vez producían imágenes genuinamente fotorreales, lo que indica que los valores predeterminados estilísticos de los modelos están profundamente integrados.

Consistencia histórica

La siguiente línea de análisis se analizó consistencia histórica: Si las imágenes generadas incluían objetos que no se ajustaban al período de tiempo. En lugar de utilizar una lista fija de elementos prohibidos, los autores desarrollaron un método flexible que aprovechó el lenguaje grande (LLMS) y los modelos en idioma de visión (VLMS) para detectar elementos que parecían fuera de lugar, basados ​​en el contexto histórico.

El método de detección siguió el mismo formato que el conjunto de datos HistVIS, donde cada indicador combinó un período histórico con una actividad humana. Para cada aviso, GPT-4O generó una lista de objetos que estarían fuera de lugar en el período de tiempo especificado; y por cada objeto propuesto, GPT-4O produjo un sí o no Pregunta diseñada para verificar si ese objeto apareció en la imagen generada.

Por ejemplo, dado el aviso ‘Una persona que escucha música en el siglo XVIII’GPT-4O podría identificar dispositivos de audio modernos como históricamente inexacto, y produce la pregunta ¿La persona que usa auriculares o un teléfono inteligente que no existía en el siglo XVIII?.

Estas preguntas se transmitieron a GPT-4O en una configuración visual de preguntas de respuesta, donde el modelo revisó la imagen y devolvió un o No respuesta para cada uno. Esta tubería permitió la detección de contenido históricamente inverosímil sin depender de ninguna taxonomía predefinida de objetos modernos:

Ejemplos de imágenes generadas marcadas por el método de detección de dos etapas, que muestran elementos anacrónicos: auriculares en el siglo XVIII; una aspiradora en el siglo XIX; una computadora portátil en la década de 1930; y un teléfono inteligente en la década de 1950.

Para medir la frecuencia con la que aparecían los anacronismos en las imágenes generadas, los autores introdujeron un método simple para obtener la frecuencia y la gravedad. Primero, explicaron diferencias menores de redacción en cómo GPT-4O describió el mismo objeto.

Por ejemplo, el dispositivo de audio moderno y el dispositivo de audio digital fueron tratados como equivalentes. Para evitar una doble cuenta, se utilizó un sistema de coincidencia difuso para agrupar estas variaciones a nivel de superficie sin afectar conceptos genuinamente distintos.

Una vez que todos los anacronismos propuestos se normalizaron, se calcularon dos métricas: frecuencia midió con qué frecuencia apareció un objeto dado en las imágenes durante un período de tiempo y modelo específicos; y gravedad midió cuán confiablemente apareció ese objeto una vez que el modelo lo sugirió.

Si un teléfono moderno fue marcado diez veces y apareció en diez imágenes generadas, recibió una puntuación de gravedad de 1.0. Si apareció en solo cinco, la puntuación de gravedad fue de 0.5. Estos puntajes ayudaron a identificar no solo si ocurrieron anacronismos, sino de cuán firmemente estaban integrados en la producción del modelo para cada período:

Los quince elementos anacrónicos superiores para cada modelo, trazados por frecuencia en el eje X y severidad en el eje Y. Los círculos marcan elementos clasificados en los quince superiores por frecuencia, triángulos por severidad y diamantes por ambos.

Arriba vemos los quince anacronismos más comunes para cada modelo, clasificados por la frecuencia con la que aparecían y cuán consistentemente coincidían con las indicaciones.

Leer  "Crear una réplica de esta imagen. No cambie nada".

La ropa era frecuente pero dispersa, mientras que artículos como dispositivos de audio y equipos de planchado parecían con menos frecuencia, pero con alta consistencia, patrones que sugieren que los modelos a menudo responden al Actividad en el aviso Más que el período de tiempo.

SD3 mostró la tasa más alta de anacronismos, especialmente en las imágenes del siglo XIX y la década de 1930, seguida de Flux.1 y SDXL.

Para probar qué tan bien el método de detección coincidió con el juicio humano, los autores ejecutaron un estudio de usuario con 1.800 imágenes muestreadas al azar de SD3 (el modelo con la tasa de anacronismo más alta), con cada imagen clasificada por tres trabajadores de la multitud. Después de filtrar respuestas confiables, se incluyeron 2.040 juicios de 234 usuarios, y el método acordó con la mayoría de votos en el 72 por ciento de los casos.

GUI para el estudio de evaluación humana, que muestra instrucciones de tareas, ejemplos de imágenes precisas y anacrónicas, y sí-no, sin preguntas para identificar inconsistencias temporales en salidas generadas.

Demografía

El análisis final analizó cómo los modelos retratan la raza y el género con el tiempo. Utilizando el conjunto de datos HistVIS, los autores compararon las salidas del modelo con las estimaciones de línea de base generadas por un modelo de lenguaje. Estas estimaciones no fueron precisas, pero ofrecieron un sentido aproximado de plausibilidad histórica, lo que ayudó a revelar si los modelos adaptaron las representaciones al período previsto.

Para evaluar estas representaciones a escala, los autores construyeron una tubería que comparó la demografía generada por el modelo con las expectativas aproximadas para cada tiempo y actividad. Primero usaron el clasificador de Fairface, una herramienta basada en ResNet34 entrenada en más de cien mil imágenes, para detectar género y raza en los resultados generados, lo que permite medir con qué frecuencia las caras en cada escena se clasificaron como hombres o mujeres, y para el seguimiento de las categorías raciales en los períodos.

Ejemplos de imágenes generadas que muestran sobrerrepresentación demográfica en diferentes modelos, períodos de tiempo y actividades.

Los resultados de baja confianza se filtraron para reducir el ruido, y las predicciones se promediaron sobre todas las imágenes vinculadas a un tiempo y actividad específicos. Para verificar la confiabilidad de las lecturas de Fairface, se utilizó un segundo sistema basado en Deepface en una muestra de 5,000 imágenes. Los dos clasificadores mostraron un fuerte acuerdo, apoyando la consistencia de las lecturas demográficas utilizadas en el estudio.

Para comparar los resultados del modelo con plausibilidad histórica, los autores le pidieron a GPT-4O que estimara el género y la distribución de la carrera esperados para cada actividad y período de tiempo. Estas estimaciones sirvieron como líneas de base ásperas en lugar de verdad terrestre. Luego se usaron dos métricas: subrepresentación y sobrerrepresentaciónmidiendo cuánto se desviaron las salidas del modelo de las expectativas de la LLM.

Los resultados mostraron patrones claros: flujo.1 a menudo hombres sobrerrepresentados, incluso en escenarios como cocinandodonde se esperaba mujeres; SD3 y SDXL mostraron tendencias similares en todas las categorías como trabajar, educación y religión; Las caras blancas parecían más de lo esperado en general, aunque este sesgo disminuyó en períodos más recientes; Y algunas categorías mostraron picos inesperados en la representación no blanca, lo que sugiere que el comportamiento del modelo puede reflejar las correlaciones del conjunto de datos en lugar del contexto histórico:

Género y sobrerrepresentación racial y subrepresentación en el flujo.1 Salidas a través de siglos y actividades, que se muestran como diferencias absolutas de las estimaciones demográficas GPT-4O.

Los autores concluyen:

‘Nuestro análisis revela que los modelos (texto a imagen/TTI) se basan en codificaciones estilísticas limitadas en lugar de una comprensión matizada de los períodos históricos. Cada época está fuertemente vinculada a un estilo visual específico, lo que resulta en representaciones unidimensionales de la historia.

‘En particular, las representaciones fotorrealistas de personas aparecen solo desde el siglo XX en adelante, con solo excepciones raras en el flujo.1 y SD3, lo que sugiere que los modelos refuerzan las asociaciones aprendidas en lugar de adaptarse de manera flexible a contextos históricos, perpetuando la noción de que el realismo es un rasgo moderno.

“Además, los anacronismos frecuentes sugieren que los períodos históricos no se separan limpiamente en los espacios latentes de estos modelos, ya que los artefactos modernos a menudo surgen en entornos premodernos, socavando la confiabilidad de los sistemas TTI en la educación y los contextos del patrimonio cultural”.

Conclusión

Durante el entrenamiento de un modelo de difusión, los nuevos conceptos no se establecen perfectamente en espacios predefinidos dentro del espacio latente. En cambio, forman grupos formados por la frecuencia con la que aparecen y por su proximidad a las ideas relacionadas. El resultado es una estructura libremente organizada donde existen conceptos en relación con su frecuencia y contexto típico, en lugar de por cualquier separación limpia o empírica.

Esto hace que sea difícil aislar lo que cuenta como “histórico” dentro de un gran conjunto de datos de propósito general. Como sugieren los hallazgos en el nuevo artículo, muchos períodos de tiempo están representados más por el mirar de los medios solían representarlos que por cualquier detalle histórico más profundo.

Esta es una razón por la que sigue siendo difícil generar una imagen fotorrealista de calidad 2025 de un personaje de (por ejemplo) del siglo XIX; En la mayoría de los casos, el modelo se basará en tropos visuales extraídos de cine y televisión. Cuando esos no coinciden con la solicitud, hay poco más en los datos para compensar. Pasar esta brecha probablemente dependerá de las mejoras futuras en los conceptos superpuestos de desenredación.

Publicado por primera vez el lunes 26 de mayo de 2025

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares