AI lucha por emular el lenguaje histórico

-

spot_img

Una colaboración entre los investigadores en los Estados Unidos y Canadá ha encontrado que los modelos de idiomas grandes (LLM) como ChatGPT luchan por reproducir modismos históricos sin una extensión previa extensa, un proceso costoso y laboral que es intensivo que se encuentra más allá de la mayoría de las iniciativas académicas o de entretenimiento, que hace proyectos como completar el final de Charles Dickens final, la nota poco inferior efectivamente a través de una propuesta de IA no considerable.

Los investigadores exploraron una variedad de métodos para generar texto que sonado Históricamente preciso, comenzando con una simple solicitud utilizando prosa de principios del siglo XX, y pasando a ajustar un modelo comercial en una pequeña colección de libros de ese período.

También compararon los resultados con un modelo separado que había sido entrenado por completo en libros publicados entre 1880 y 1914.

En la primera de las pruebas, instruyendo a Chatgpt-4o a imitar aletadesiglo El lenguaje produjo resultados bastante diferentes de los del modelo más pequeño basado en GPT2 que había sido fino en la literatura a partir del período:

Se le pidió que complete un texto histórico real (centro superior), incluso un ChatGPT-4O de bienvenida (abajo a la izquierda) no puede ayudar a volver al modo ‘Blog’, no representar el idioma solicitado. Por el contrario, el modelo GPT2 ajustado (inferior a la derecha) captura bien el estilo del lenguaje, pero no es tan preciso de otras maneras. Fuente: https://arxiv.org/pdf/2505.00030

Aunque el ajuste fino acerca la salida al estilo original, los lectores humanos todavía podían detectar rastros de lenguaje o ideas modernas, lo que sugiere que incluso los modelos cuidadosamente ajustados continúan reflejando la influencia de sus datos de capacitación contemporáneos.

Los investigadores llegan a la frustrante conclusión de que no hay atajos económicos hacia la generación de texto histórico o diálogo histórico de corrección de manera idiomática producida por máquina. También conjeturan que el desafío en sí podría estar mal plenado:

‘(Nosotros) también deberíamos considerar la posibilidad de que el anacronismo pueda ser inevitable en cierto sentido. Ya sea que representemos el pasado al ajustar los modelos históricos para que puedan mantener conversaciones, o enseñando modelos contemporáneos para ventriloquización de un período anterior, puede ser necesario algún compromiso entre los objetivos de autenticidad y fluidez de conversación.

“Después de todo, no hay ejemplos” auténticos “de una conversación entre un interrogador del siglo XXI y un encuestado de 1914. Los investigadores que intentan crear dicha conversación deberán reflexionar sobre la (premisa) que la interpretación siempre implica una negociación entre el presente y el (pasado)”.

El nuevo estudio se titula ¿Pueden los modelos de idiomas representar el pasado sin anacronismo?y proviene de tres investigadores en toda la Universidad de Illinois, la Universidad de Columbia Británica y la Universidad de Cornell.

Desastre completo

Inicialmente, en un enfoque de investigación de tres partes, los autores probaron si los modelos de lenguaje moderno podrían ser empujados a imitar el lenguaje histórico a través de una simple solicitud. Utilizando extractos reales de libros publicados entre 1905 y 1914, le pidieron a ChatGPT -4O que continuara estos pasajes en el mismo idioma.

El texto del período original fue:


‘En este último caso, unos cinco o seis dólares se economizan por minuto, ya que más de veinte yardas de película deben ser retiradas para proyectar durante un solo minuto un objeto de una persona en reposo o un paisaje. Así se obtiene una combinación práctica de imágenes fijas y móviles, que produce la mayoría de los efectos artísticos.

‘También nos permite trabajar dos cinematógrafos que se proyectan alternativamente para evitar el centelleo, o proyectar simultáneamente imágenes rojas y verdes y reproducir colores naturales, así aliviando el ojo humano, acostumbrado a recibir los colores fundamentales simultáneamente, de toda fatiga fisiológica. Una palabra ahora sobre la aplicación de la luz fría a la fotografía instantánea.


Para evaluar si el texto generado coincidió con el estilo histórico previsto y consciente de que las personas no son especialmente hábiles para adivinar la fecha en que se escribió un texto, los investigadores se ajustaron a un modelo de Roberta para estimar las fechas de publicación, utilizando un subconjunto del corpus de inglés estadounidense histórico, que cubren material de 1810 a 2009.

El clasificador de Roberta se utilizó para evaluar las continuaciones producidas por ChatGPT – 4O, que se había provocado con pasajes reales de libros publicados entre 1905 y 1914.

La solicitud del sistema (es decir, las instrucciones contextuales para chatear sobre cómo abordar la tarea) fue:


‘Su tarea es completar pasajes de los libros de principios del siglo XX. Se le dará un pasaje de un libro publicado en 1913. Continúe este pasaje con el mismo estilo, por al menos 200 palabras. Solo proporcione esta continuación; No haga ningún comentario de encuadre, como ‘Aquí está la continuación:’.


A pesar de la solicitud de una sola vez y los 20-shot, las salidas de CHATGPT-4O se sesgaron constantemente hacia un registro estilístico del siglo XXI.

Leer  Mejora de la precisión de la edición de imágenes de IA

El ejemplo dado en el artículo presenta uno de los intentos de blog de ChatGPT-4O para continuar el texto del período real sobre la fotografía:


‘El uso de la luz fría en la fotografía instantánea ha revolucionado el enfoque para capturar imágenes en diferentes condiciones de luz. Tradicionalmente, los fotógrafos lucharon con la dureza y la variabilidad de la luz natural o la naturaleza intrusiva de la fotografía flash, lo que podría alterar el ambiente de una escena o el comportamiento natural de los sujetos, particularmente en la vida silvestre y la fotografía humana sincera.

“La luz fría, con su naturaleza más suave y difusa … permite una representación más natural de los colores y las texturas, que a menudo se pierde bajo la dura iluminación artificial”.


Como podemos ver fácilmente, este texto genérico de estilo wiki no coincide con el estilo prolix y elaborado del texto del período original. Además, realmente no continúa desde dónde sale el contenido original, sino que se lanza a una reflexión tangencial y abstracta en uno de los subtemas.

El equipo también probó GPT -1914, un modelo de clase GPT -2 más pequeño entrenado desde cero en 26.5 mil millones de tokens de literatura con fecha entre 1880 y 1914.

Aunque su salida fue menos coherente que la de ChatGPT – 4O, fue más consistente con el estilo del período de origen. El único ejemplo proporcionado en el documento, nuevamente como una finalización del texto del período del mundo real en fotografía, dice:


‘El principio de su acción ya se ha explicado (p. 4). Aquí solo mencionaremos que se puede aplicar con ventaja cuando deseamos obtener fotografías muy rápidas en papel recubierto de colodión, así como las tomadas por medio de placas gelatinas.

‘En tales casos, la exposición no debe exceder al menos un segundo; Pero si se desea que la imagen se desarrolle en menos tiempo, digamos medio segundo, entonces la temperatura nunca debe caer por debajo de los 20 ° C, de lo contrario, la imagen se volverá demasiado oscura después del desarrollo; Además, la placa perdería su sensibilidad en estas condiciones.

‘Sin embargo, para fines ordinarios, es suficiente para exponer la superficie sensible a un bajo grado de calor sin que se necesiten precauciones especiales más allá de mantener el’ (sic)


Dado que incluso el material real y original es arcano y es bastante difícil de seguir, es difícil entender hasta qué punto GPT-1914 ha recogido con precisión el original; Pero el resultado ciertamente suena más autor-autor.

Sin embargo, los autores concluyeron a partir de este experimento que la simple provisión hace poco para superar los sesgos contemporáneos de un gran modelo previo al estado previo como ChatGPT-4O.

La trama se espesa

Para medir cuán de cerca los resultados del modelo se parecían a una escritura histórica auténtica, los investigadores utilizaron un clasificador estadístico para estimar la fecha de publicación probable de cada muestra de texto. Luego visualizaron los resultados utilizando una gráfica de densidad del núcleo, que muestra dónde el modelo cree que cada pasaje cae en una línea de tiempo histórica.

Las fechas de publicación estimadas para el texto real y generado, basado en un clasificador entrenado para reconocer el estilo histórico (1905-1914 textos fuente en comparación con las continuaciones por GPT-4O utilizando indicaciones de una sola vez y 20 disparos, y por GPT-1914 entrenó solo en literatura desde 1880-1914).

El modelo Roberta de fino y sintonizado utilizado para esta tarea, señalan los autores, no es impecable, pero no obstante fue capaz de resaltar las tendencias estilísticas generales. Pasajes escritos por GPT -1914, el modelo entrenado completamente en la literatura de época, agrupados alrededor de principios del siglo XX, similar al material fuente original.

Por el contrario, las salidas de ChatGPT-4O, incluso cuando se les solicita múltiples ejemplos históricos, tendían a parecerse a la escritura de veintiséis años, reflejando los datos en los que originalmente fue entrenado.

Los investigadores cuantificaron este desajuste utilizando la divergencia de Jensen-Shannon, una medida de cuán diferentes son las dos distribuciones de probabilidad. GPT-1914 obtuvo un cierre de 0.006 en comparación con el texto histórico real, mientras que las salidas de un disparo y 20 de chatgpt-4O mostraron brechas mucho más amplias, a 0.310 y 0.350 respectivamente.

Leer  Por qué los modelos de idiomas se 'se pierden' en la conversación

Los autores argumentan que estos hallazgos indican que solo la provisión, incluso con múltiples ejemplos, no es una forma confiable de producir un texto que simule de manera convincente un estilo histórico.

Completando el pasaje

Luego, el documento investiga si el ajuste fino podría producir un resultado superior, ya que este proceso implica afectar directamente los pesos utilizables de un modelo al “continuar” su entrenamiento en los datos especificados por el usuario, un proceso que puede afectar la funcionalidad central original del modelo, pero mejorar significativamente su rendimiento en el dominio que se está “empujando” a él o si no se enfatiza durante la contratación fina.

En el primer experimento de ajuste, el equipo entrenó a GPT-4O-Mini en alrededor de dos mil pares de completación de pasaje extraídos de libros publicados entre 1905 y 1914, con el objetivo de ver si un ajuste fino a menor escala podría cambiar los resultados del modelo hacia un estilo más históricamente preciso.

Utilizando el mismo clasificador basado en Roberta que actuó como juez en las pruebas anteriores para estimar la ‘fecha’ estilística de cada resultado, los investigadores encontraron que en el nuevo experimento, el modelo ajustado produjo un texto estrechamente alineado con la verdad terrestre.

Su divergencia estilística de los textos originales, medido por la divergencia de Jensen-Shannon, cayó a 0.002, generalmente en línea con GPT-1914:

Las fechas de publicación estimadas para el texto real y generado, que muestran cuán estrechamente GPT-1914 y una versión ajustada de GPT-4O-Mini coinciden con el estilo de la escritura de principios del siglo XX (basada en libros publicados entre 1905 y 1914).

Sin embargo, los investigadores advierten que esta métrica solo puede capturar características superficiales del estilo histórico, y no anacronismos conceptuales o objetivos más profundos.

‘(Esto) no es una prueba muy sensible. El modelo Roberta utilizado como juez aquí solo está capacitado para predecir una fecha, no para discriminar los pasajes auténticos de los anacrónicos. Probablemente usa evidencia estilística gruesa para hacer esa predicción. Los lectores humanos, o modelos más grandes, aún pueden detectar contenido anacrónico en pasajes que suenan superficialmente “en el período”.

Toque humano

Finalmente, los investigadores realizaron pruebas de evaluación humana utilizando 250 pasajes seleccionados a mano de libros publicados entre 1905 y 1914, y observan que muchos de estos textos probablemente se interpretarían de manera muy diferente hoy que en el momento de la escritura:

‘Nuestra lista incluía, por ejemplo, una entrada de Enciclopedia en Alsacia (que entonces era parte de Alemania) y una en Beri-Beri (que a menudo se explicaba como una enfermedad fúngica en lugar de una deficiencia nutricional). Si bien esas son diferencias de hecho, también seleccionamos pasajes que mostrarían diferencias más altas de actitud, retórica o imaginación.

‘Por ejemplo, las descripciones de lugares no europeos a principios del siglo XX tienden a deslizarse hacia la generalización racial. Una descripción del amanecer en la luna escrita en 1913 imagina fenómenos cromáticos ricos, porque nadie había visto fotografías de un mundo sin una (atmósfera).

Los investigadores crearon preguntas cortas que cada pasaje histórico podría responder plausiblemente, luego ajustado GPT-4O-Mini en estos pares de preguntas: respuesta. Para fortalecer la evaluación, capacitaron a cinco versiones separadas del modelo, cada vez que mantiene una parte diferente de los datos para las pruebas.

Luego produjeron respuestas utilizando tanto las versiones predeterminadas de GPT-4O y GPT-4O-Mini, así como las variantes fina, cada una evaluada en la porción que no había visto durante el entrenamiento.

Perdido en el tiempo

Para evaluar cuán convincentemente los modelos podrían imitar el lenguaje histórico, los investigadores pidieron a tres anotadores expertos que revisen 120 terminaciones generadas por IA y juzguen si cada uno parecía plausible para un escritor en 1914.

Este enfoque de evaluación directa resultó más desafiante de lo esperado: aunque los anotadores acordaron sus evaluaciones casi el ochenta por ciento del tiempo, el desequilibrio en sus juicios (con ‘plausible’ elegido dos veces más a menudo que ‘no plausible’) significaba que su nivel real de acuerdo era moderado, según lo medido por la puntuación de Kappa de Cohen de 0.554.

Los propios evaluadores describieron la tarea como difícila menudo, requiere una investigación adicional para evaluar si una declaración alineada con lo que se sabía o creía en 1914.

Algunos pasajes plantearon preguntas difíciles sobre el tono y la perspectiva, por ejemplo, si una respuesta estaba apropiadamente limitada en su visión del mundo para reflejar lo que hubiera sido típico en 1914. Este tipo de juicio a menudo dependía del nivel de etnocentrismo (es decir, la tendencia a ver otras culturas a través de los supuestos o sesgos propios).

Leer  Cómo los agentes de IA están transformando el sector educativo: una mirada al aprendizaje de Kira y más allá

En este contexto, el desafío era decidir si un pasaje expresaba suficiente sesgo cultural para parecer históricamente plausible sin sonar demasiado moderno o demasiado abiertamente ofensivo según los estándares actuales. Los autores señalan que incluso para los académicos familiarizados con el período, era difícil trazar una línea aguda entre el lenguaje que se sentía históricamente preciso y el lenguaje que reflejaba ideas actuales.

No obstante, los resultados mostraron una clasificación clara de los modelos, con la versión fina de GPT-4O-Mini juzgada más plausible en general:

Evaluaciones de los anotadores sobre cómo apareció la producción de cada modelo de cada modelo

Si este nivel de rendimiento, calificado plausible En el ochenta por ciento de los casos, es lo suficientemente confiable para la investigación histórica, no está claro, particularmente porque el estudio no incluyó una medida de referencia de la frecuencia con la que los textos de época genuinos podrían clasificarse erróneamente.

Alerta de intruso

Luego vino una ‘prueba de intruso’, en la que se mostraron a los anotadores expertos en cuatro pasajes anónimos que respondieron la misma pregunta histórica. Tres de las respuestas provienen de modelos de lenguaje, mientras que una era un extracto real y genuino de una fuente real de principios del siglo XX.

La tarea era identificar qué pasaje era el original, realmente escrito durante el período.

Este enfoque no pidió a los anotadores que calificaran la plausibilidad directamente, sino que medían con qué frecuencia el pasaje real se destacaba de las respuestas generadas por la IA, en efecto, probando si los modelos podrían engañar a los lectores para que piensen que su producción era auténtica.

La clasificación de los modelos coincidió con los resultados de la tarea de juicio anterior: la versión ajustada de GPT-4O-Mini fue la más convincente entre los modelos, pero aún no alcanzó la realidad.

La frecuencia con la que cada fuente se identificó correctamente como el pasaje histórico auténtico.

Esta prueba también sirvió como un punto de referencia útil, ya que, con el pasaje genuino identificado más de la mitad del tiempo, la brecha entre la prosa auténtica y sintética se mantuvo notable para los lectores humanos.

Un análisis estadístico conocido como prueba de McNemar confirmó que las diferencias entre los modelos eran significativas, excepto en el caso de las dos versiones sintonizadas (GPT -4O y GPT – 4O -Mini), que funcionaban de manera similar.

El futuro del pasado

Los autores descubrieron que provocar que los modelos de idiomas modernos adoptaran una voz histórica no produjeron resultados convincentes de manera confiable: los lectores humanos juzgaron menos de dos tercios de los resultados, e incluso esta figura probablemente exagera el rendimiento.

En muchos casos, las respuestas incluyeron señales explícitas de que el modelo estaba hablando desde una perspectiva actual, frases como ‘En 1914, aún no se sabe que …’ o ‘A partir de 1914, no estoy familiarizado con …’ eran lo suficientemente comunes como para aparecer en una quinta parte de las finalizaciones. Las renuncias de este tipo dejaron en claro que el modelo estaba simulando la historia desde el exterior, en lugar de escribir desde él.

Los autores afirman:

‘El bajo rendimiento del aprendizaje en contexto es desafortunado, porque estos métodos son los más fáciles y baratos para la investigación histórica basada en la IA. Hacemos hincapié en que no hemos explorado estos enfoques exhaustivamente.

‘Puede resultar que el aprendizaje en contexto es adecuado, ahora o en el futuro, para un subconjunto de áreas de investigación. Pero nuestra evidencia inicial no es alentadora.

Los autores concluyen que si bien el ajuste de un modelo comercial en pasajes históricos puede producir una producción estilísticamente convincente a un costo mínimo, no elimina completamente los rastros de la perspectiva moderna. Pretrarse un modelo completamente sobre el material de época evita el anacronismo pero exige recursos mucho mayores y da como resultado una producción menos fluida.

Ninguno de los métodos ofrece una solución completa y, por ahora, cualquier intento de simular voces históricas parece implicar una compensación entre autenticidad y coherencia. Los autores concluyen que se necesitarán más investigaciones para aclarar la mejor manera de navegar por esa tensión.

Conclusión

Quizás una de las preguntas más interesantes para surgir del nuevo artículo es de la autenticidad. Si bien no son herramientas perfectas, las funciones y métricas de pérdida como LPIP y SSIM brindan a los investigadores de visión por computadora al menos una metodología similar para evaluar contra la verdad de tierra.

Al generar un texto nuevo en el estilo de una era pasada, por el contrario, no hay verdad terrestre, solo un intento de habitar una perspectiva cultural desaparecida. Intentar reconstruir esa mentalidad de las huellas literarias es en sí mismo un acto de cuantización, ya que tales rastros son simplemente evidencia, mientras que la conciencia cultural de la que emergen permanece más allá de la inferencia, y probablemente más allá de la imaginación.

En un nivel práctico también, las bases de los modelos de idiomas modernos, conformados por las normas y datos actuales, el riesgo de reinterpretar o suprimir ideas que habrían parecido razonables o poco notables para un lector eduardiano, pero que ahora se registran como artefactos (frecuentemente ofensivos) de prejuicios, desigualdad o injusticia.

Uno se pregunta, por lo tanto, incluso si pudiéramos crear tal coloquio, si podría no repelernos.

Publicado por primera vez el viernes 2 de mayo de 2025

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares