Usar IA para predecir una película exitosa

-

spot_img

Aunque el cine y la televisión a menudo son vistos como industrias creativas y abiertas, durante mucho tiempo han sido reacios al riesgo. Los altos costos de producción (que pronto pueden perder la ventaja de compensación de ubicaciones en el extranjero más baratas, al menos para proyectos estadounidenses) y un panorama de producción fragmentado dificulta que las compañías independientes absorban una pérdida significativa.

Por lo tanto, durante la última década, la industria ha tenido un interés creciente en si el aprendizaje automático puede detectar tendencias o patrones en cómo el público responde a los proyectos de cine y televisión propuestos.

Las principales fuentes de datos siguen siendo el sistema Nielsen (que ofrece escala, aunque sus raíces se encuentran en la televisión y la publicidad) y los métodos basados ​​en muestras, como los grupos focales, que intercambian escala para la demografía curada. Esta última categoría también incluye retroalimentación de cuadros de puntuación de vistas previas de películas gratuitas; sin embargo, en ese momento, la mayor parte del presupuesto de una producción ya se gastan.

La teoría/teorías del ‘gran éxito’

Inicialmente, los sistemas ML aprovecharon los métodos de análisis tradicionales, como la regresión lineal, los vecinos K-nears, Kears, el descenso de gradiente estocástico, los árboles de decisión y los bosques, y las redes neuronales, generalmente en varias combinaciones más cercanas a estilo a un análisis estadístico pre-AI, como una iniciativa de la Universidad de Florida de 2019 para pronosticar los pronosticados televisores exitosos que se muestran basados ​​en combinaciones de actores y escritores (entre otros factores):::::::::::::::::):::::::::::::::):

Un estudio de 2018 calificó el rendimiento de episodios basados ​​en combinaciones de personajes y/o escritores (la mayoría de los episodios fueron escritos por más de una persona). Fuente: https://arxiv.org/pdf/1910.12589

El trabajo relacionado más relevante, al menos el que se implementa en la naturaleza (aunque a menudo criticado) está en el campo de los sistemas de recomendación:

Una tubería de recomendación de video típica. Los videos en el catálogo se indexan utilizando características que pueden ser anotadas manualmente o extraídas automáticamente. Las recomendaciones se generan en dos etapas seleccionando primero videos candidatos y luego clasificándolos de acuerdo con un perfil de usuario inferido de las preferencias de visualización. Fuente: https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full

Sin embargo, este tipo de enfoques analizan proyectos que ya tienen éxito. En el caso de posibles nuevos programas o películas, no está claro qué tipo de verdad terrestre sería más aplicable, sobre todo porque los cambios en el sabor público, combinados con mejoras y aumentos de fuentes de datos, significan que las décadas de datos consistentes generalmente no están disponibles.

Esta es una instancia del inicio en frío Problema, donde los sistemas de recomendación deben evaluar a los candidatos sin ningún datos de interacción previa. En tales casos, el filtrado colaborativo tradicional se descompone, ya que se basa en patrones en el comportamiento del usuario (como ver, calificar o compartir) para generar predicciones. El problema es que en el caso de la mayoría de las películas o programas nuevas, aún no hay suficientes comentarios de la audiencia para respaldar estos métodos.

Comcast predice

Un nuevo artículo de Comcast Technology AI, en asociación con la Universidad de George Washington, propone una solución a este problema al provocar un modelo de idioma con metadatos estructurados sobre películas inéditas.

Las entradas incluyen elenco, género, sinopsis, calificación de contenido, ánimoy premiocon el modelo que devuelve una lista clasificada de posibles éxitos futuros.

Los autores usan la salida del modelo como un sustituto del interés de la audiencia cuando no hay datos de participación disponibles, con la esperanza de evitar el sesgo temprano hacia los títulos que ya son bien conocidos.

Leer  Chatbots de IA de Meta Meta expuesto: Capturado de sexting menores usando voces de celebridades

El muy corto (tres páginas), titulado Predecir los éxitos de la película antes de que ocurran con LLMSproviene de seis investigadores en Comcast Technology AI, y uno de GWU, y de los estados:

‘Nuestros resultados muestran que LLMS, cuando se usa metadatos de la película, puede superar significativamente las líneas de base. Este enfoque podría servir como un sistema asistido para múltiples casos de uso, lo que permite la puntuación automática de grandes volúmenes de nuevo contenido publicado diariamente y semanalmente.

‘Al proporcionar información temprana antes de que los equipos editoriales o algoritmos hayan acumulado datos de interacción suficientes, los LLM pueden optimizar el proceso de revisión de contenido.

“Con mejoras continuas en la eficiencia de LLM y el aumento de los agentes de recomendación, las ideas de este trabajo son valiosas y adaptables a una amplia gama de dominios”.

Si el enfoque resulta robusto, podría reducir la dependencia de la industria de métricas retrospectivas y títulos muy promovidos al introducir una forma escalable de marcar el contenido prometedor antes del lanzamiento. Por lo tanto, en lugar de esperar a que el comportamiento del usuario indique la demanda, los equipos editoriales podrían recibir pronósticos tempranos de interés de la audiencia impulsados ​​por los metadatos, redistribuyendo la exposición en una gama más amplia de nuevos lanzamientos.

Método y datos

Los autores describen un flujo de trabajo de cuatro etapas: construcción de un conjunto de datos dedicado de inédito metadatos de la película; el establecimiento de un modelo de referencia para la comparación; la evaluación de las LLM apropiadas utilizando tanto el razonamiento del lenguaje natural como la predicción basada en la incrustación; y la optimización de salidas a través de ingeniería rápida en modo generativo, utilizando modelos de idiomas LLAMA 3.1 y 3.3 de Meta.

Dado que los autores afirman, ningún conjunto de datos disponible públicamente ofreció una forma directa de probar su hipótesis (debido a que la mayoría de las colecciones existentes son anteriores a LLMS, y carecen de metadatos detallados), crearon un conjunto de datos de referencia de la plataforma de entretenimiento de Comcast, que sirve a decenas de millones de usuarios en interfaces directas y de terceros.

El conjunto de datos rastrea las películas recientemente lanzadas, y si luego se hicieron populares, con la popularidad definida a través de las interacciones de los usuarios.

La colección se centra en películas en lugar de en serie, y los autores afirman:

“Nos centramos en las películas porque están menos influenciadas por el conocimiento externo que las series de televisión, mejorando la confiabilidad de los experimentos”.

Se asignaron etiquetas analizando el tiempo que llevó un título para ser popular en diferentes ventanas y tamaños de lista. El LLM fue solicitado con campos de metadatos como género, sinopsis, clasificación, era, elenco, multitud, ánimo, premioy tipos de personajes.

A modo de comparación, los autores usaron dos líneas de base: un orden aleatorio; y un modelo popular de incrustación (PE) (al que llegaremos en breve).

El proyecto utilizó modelos de idiomas grandes como el método de clasificación principal, generando listas ordenadas de películas con puntajes de popularidad predichos y justificaciones acompañantes, y estas salidas fueron formadas por estrategias de ingeniería rápidas diseñadas para guiar las predicciones del modelo utilizando metadatos estructurados.

La estrategia de solicitación enmarcó el modelo como un ‘asistente editorial’ asignado para identificar qué próximas películas tenían más probabilidades de ser popular, basándose únicamente en metadatos estructurados, y luego se encargó de reordenar una lista fija de títulos sin Introducción de nuevos elementos y devolver la salida en formato JSON.

Cada respuesta consistió en una lista clasificada, puntajes de popularidad asignados, justificaciones para las clasificaciones y referencias a cualquier ejemplos anteriores que influyan en el resultado. Estos múltiples niveles de metadatos tenían la intención de mejorar la comprensión contextual del modelo y su capacidad para anticipar futuras tendencias de la audiencia.

Leer  La lucha por la personalización de disparo cero en la IA generativa

Pruebas

El experimento siguió dos etapas principales: inicialmente, los autores probaron varias variantes del modelo para establecer una línea de base, que implica la identificación de la versión que funcionó mejor que un enfoque de orden aleatorio.

En segundo lugar, probaron modelos de idiomas grandes en modo generativoal comparar su salida con una línea de base más fuerte, en lugar de una clasificación aleatoria, elevando la dificultad de la tarea.

Esto significaba que los modelos tenían que hacerlo mejor que un sistema que ya mostraba cierta capacidad para predecir qué películas se volverían populares. Como resultado, afirman los autores, la evaluación reflejó mejor las condiciones del mundo real, donde los equipos editoriales y los sistemas de recomendación rara vez eligen entre un modelo y una oportunidad, pero entre sistemas competitivos con diferentes niveles de capacidad predictiva.

La ventaja de la ignorancia

Una restricción clave en esta configuración fue la brecha de tiempo entre el corte de conocimiento de los modelos y las fechas de lanzamiento reales de las películas. Debido a que los modelos de idiomas fueron entrenados en datos que terminaron de seis a doce meses antes de que las películas estuvieran disponibles, no tenían acceso a la información posterior a la liberación, asegurando que las predicciones se basaron completamente en metadatos, y no en ninguna respuesta de audiencia aprendida.

Evaluación de línea de base

Para construir una línea de base, los autores generaron representaciones semánticas de metadatos de películas utilizando tres modelos de incrustación: Bert V4; Linq-Embed-Mistral 7b; y LLAMA 3.3 70B, cuantificada a una precisión de 8 bits para cumplir con las limitaciones del entorno experimental.

Linq-Embed-Mistral fue seleccionado para su inclusión debido a su posición superior en la tabla de clasificación MTEB (texto de referencia de incrustación masiva).

Cada modelo produjo incrustaciones de vectores de películas candidatas, que luego se compararon con la incrustación promedio de los cien títulos más populares de las semanas anteriores al lanzamiento de cada película.

La popularidad se infirió utilizando la similitud cosena entre estos incrustaciones, con puntajes de similitud más altos que indican un mayor atractivo predicho. La precisión de clasificación de cada modelo se evaluó midiendo el rendimiento contra una línea de base de pedidos aleatorios.

Mejora del rendimiento de los modelos de incrustación populares en comparación con una línea de base aleatoria. Cada modelo se probó utilizando cuatro configuraciones de metadatos: V1 incluye solo género; V2 incluye solo sinopsis; V3 combina género, sinopsis, calificación de contenido, tipos de personajes, estado de ánimo y era de lanzamiento; V4 agrega fundición, tripulación y premios a la configuración V3. Los resultados muestran cómo las entradas de metadatos más ricas afectan la precisión de clasificación. Fuente: https://arxiv.org/pdf/2505.02693

Los resultados (que se muestran arriba) demuestran que Bert V4 y Linq-Embed-Mistral 7B entregaron las mejoras más fuertes en la identificación de los tres títulos más populares, aunque ambos quedaron ligeramente cortos para predecir el elemento más popular.

Bert fue seleccionado en última instancia como el modelo de referencia para comparar con el LLMS, ya que su eficiencia y ganancias generales superaron sus limitaciones.

Evaluación de LLM

Los investigadores evaluaron el rendimiento utilizando dos enfoques de clasificación: a pareja y Listwine. La clasificación por pares evalúa si el modelo ordena correctamente un elemento en relación con otro; y la clasificación de Listwise considera la precisión de toda la lista ordenada de candidatos.

Esta combinación permitió evaluar no solo si los pares de películas individuales se clasificaron correctamente (precisión local), sino también qué tan bien la lista completa de candidatos reflejó el verdadero orden de popularidad (precisión global).

Leer  ¿Sentir presión para invertir en IA? Bien, deberías ser

Se emplearon modelos completos y no cuantizados para prevenir la pérdida de rendimiento, asegurando una comparación consistente y reproducible entre las predicciones basadas en LLM y las líneas de base de incrustación.

Métrica

Para evaluar cuán efectivamente se utilizaron la popularidad de la película de los modelos de idiomas, se utilizaron métricas basadas en la clasificación y basadas en la clasificación, con especial atención a la identificación de los tres títulos más populares.

Se aplicaron cuatro métricas: la precisión@1 midió con qué frecuencia apareció el elemento más popular en la primera posición; El rango recíproco capturó cuán alto es el elemento real superior clasificado en la lista prevista al tomar el inverso de su posición; Ganancia acumulativa con descuento normalizada (NDCG@K) evaluó qué tan bien la clasificación completa coincidió con la popularidad real, con puntajes más altos que indican una mejor alineación; y recuperar@3 midió la proporción de títulos verdaderamente populares que aparecieron en las tres principales predicciones del modelo.

Dado que la mayoría de la participación del usuario ocurre cerca de la parte superior de los menús clasificados, la evaluación se centró en valores más bajos de kpara reflejar casos de uso prácticos.

Mejora del rendimiento de los modelos de idiomas grandes sobre Bert V4, medido como ganancias porcentuales en las métricas de clasificación. Los resultados se promediaron en diez ejecuciones por combinación de modelo-Prompt, con los dos valores principales resaltados. Las cifras informadas reflejan la mejora porcentual promedio en todas las métricas.

El rendimiento del modelo 3.1 (8b), 3.1 (405b) y 3.3 (70b) se evaluó midiendo mejoras métricas en relación con la línea de base Bert V4 establecida anteriormente. Cada modelo se probó utilizando una serie de indicaciones, que van desde mínimo hasta rico en información, para examinar el efecto del detalle de entrada en la calidad de la predicción.

Los autores afirman:

‘El mejor rendimiento se logra cuando se usa Llama 3.1 (405b) con el aviso más informativo, seguido de Llama 3.3 (70B). Según la tendencia observada, cuando se usa un aviso complejo y largo (MD V4), un modelo de lenguaje más complejo generalmente conduce a un rendimiento mejorado en varias métricas. Sin embargo, es sensible al tipo de información agregada.

El rendimiento mejoró cuando los premios del elenco se incluyeron como parte del aviso: en este caso, el número de premios principales recibidos por los cinco actores facturados principales en cada película. Estos metadatos más ricos formaron parte de la configuración rápida más detallada, superando una versión más simple que excluyó el reconocimiento de reparto. El beneficio fue más evidente en los modelos más grandes, Llama 3.1 (405b) y 3.3 (70b), los cuales mostraron una precisión predictiva más fuerte cuando se le dio esta señal adicional de prestigio y familiaridad de la audiencia.

Por el contrario, el modelo más pequeño, Llama 3.1 (8b), mostró un rendimiento mejorado a medida que las indicaciones se volvieron ligeramente más detalladas, progresando de género a sinopsis, pero disminuyó cuando se agregaron más campos, lo que sugiere que el modelo carecía de la capacidad de integrar indicaciones complejas de manera efectiva, lo que lleva a una generalización más débil.

Cuando las indicaciones se restringieron solo al género, todo Los modelos de bajo rendimiento contra la línea de base, lo que demuestra que los metadatos limitados eran insuficientes para apoyar predicciones significativas.

Conclusión

Los LLM se han convertido en el niño cartel para la IA generativa, lo que podría explicar por qué se están poniendo a trabajar en áreas donde otros métodos podrían ser mejor. Aun así, todavía hay mucho que no sabemos sobre lo que pueden hacer en diferentes industrias, por lo que tiene sentido darles una oportunidad.

En este caso particular, al igual que con los mercados de valores y el pronóstico del tiempo, solo hay una extensión limitada en la que los datos históricos pueden servir como base de predicciones futuras. En el caso de películas y programas de televisión, los muy método de entrega ahora es un objetivo móvil, en contraste con el período entre 1978-2011, cuando el cable, el satélite y los medios portátiles (VHS, DVD, et al.) Representaban una serie de interrupciones históricas transitivas o en evolución.

Tampoco puede ningún método de predicción en la medida en que el éxito o el fracaso de otro Las producciones pueden influir en la viabilidad de una propiedad propuesta, y sin embargo, este es con frecuencia el caso en la industria del cine y la televisión, que le encanta hacer una tendencia.

No obstante, cuando se usa cuidadosamente, los LLM podrían ayudar a fortalecer los sistemas de recomendación durante la fase de arranque en frío, ofreciendo un soporte útil en una gama de métodos predictivos.

Publicado por primera vez el martes 6 de mayo de 2025

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares