Buscando ‘búhos y lagartos’ en la audiencia de un anunciante

-

spot_img

Dado que se estima que el sector publicitario en línea ha gastado $ 740.3 mil millones de dólares en 2023, es fácil entender por qué las empresas de publicidad invierten recursos considerables en este hilo particular de investigación de la visión por computadora.

Aunque insular y protectora, la industria ocasionalmente publica estudios que insinúan un trabajo patentado más avanzado en el reconocimiento facial y de mirada ocular, incluido el reconocimiento de edad, fundamental para las estadísticas de análisis demográficos:

Estimación de la edad en un contexto publicitario en el flujo es de interés para los anunciantes que pueden estar apuntando a un grupo demográfico de edad particular. En este ejemplo experimental de estimación automática de la edad facial, la edad del artista Bob Dylan se rastrea a lo largo de los años. Fuente: https://arxiv.org/pdf/1906.03625

Estos estudios, que rara vez aparecen en repositorios públicos como ARXIV, usan a los participantes legítimamente reclutados como la base del análisis basado en IA que tiene como objetivo determinar hasta qué punto, y de qué manera, el espectador se está involucrando con un anuncio.

El histograma de gradientes orientados de DLIB (HOG) a menudo se usa en los sistemas de estimación facial. Fuente: https://www.comuter.org/csdl/journal/ta/2017/02/07475863/13rrunvyarn

Instinto animal

En este sentido, naturalmente, la industria publicitaria está interesada en determinar falsos positivos (ocasiones en que un sistema analítico malinterpreta las acciones de un sujeto), y en establecer criterios claros para cuando la persona que observa sus comerciales no está completamente involucrada con el contenido.

En lo que respecta a la publicidad basada en la pantalla, los estudios tienden a centrarse en dos problemas en dos entornos. Los entornos son ‘de escritorio’ o ‘móvil’, cada uno de los cuales tiene características particulares que necesitan soluciones de seguimiento a medida; y los problemas, desde el punto de vista del anunciante, están representados por Comportamiento del búho y comportamiento lagarto – La tendencia de los espectadores a no prestar toda la atención a un anuncio que está frente a ellos.

Ejemplos de comportamiento ‘búho’ y ‘lagarto’ en un tema de un proyecto de investigación publicitaria. Fuente: https://arxiv.org/pdf/1508.04028

Si estás buscando lejos Desde el anuncio previsto con toda su cabeza, este es el comportamiento de ‘búho’; Si su pose de la cabeza es estática pero sus ojos son deambulando Desde la pantalla, este es el comportamiento de ‘lagarto’. En términos de análisis y pruebas de nuevos anuncios en condiciones controladas, estas son acciones esenciales para que un sistema pueda capturar.

Un nuevo artículo de la adquisición de Affive de SmartEye aborda estos problemas, que ofrece una arquitectura que aprovecha varios marcos existentes para proporcionar una función combinada y concatenada en todas las condiciones necesarias y las posibles reacciones, y para poder saber si un espectador está aburrido, comprometido o de alguna manera remoto desde el contenido que el anuncio les desea ver.

Ejemplos de positivos verdaderos y falsos detectados por el nuevo sistema de atención para varias señales de distracción, que se muestran por separado para dispositivos de escritorio y móviles. Fuente: https://arxiv.org/pdf/2504.06237

El estado de los autores*:

‘La investigación limitada ha profundizado en el monitoreo de la atención durante los anuncios en línea. Si bien estos estudios se centraron en estimar la pose de la cabeza o la dirección de la mirada para identificar instancias de mirada desviada, ignoran los parámetros críticos, como el tipo de dispositivo (escritorio o móvil), la colocación de la cámara en relación con la pantalla y el tamaño de la pantalla. Estos factores influyen significativamente en la detección de atención.

‘En este artículo, proponemos una arquitectura para la detección de atención que abarca la detección de varios distractores, incluido el comportamiento del búho y la lagartija de mirar fuera de pantalla, hablar, somnolencia (a través de bostezo y cierre de ojos prolongados), y dejar la pantalla desatendida.

‘A diferencia de los enfoques anteriores, nuestro método integra características específicas del dispositivo como el tipo de dispositivo, la colocación de la cámara, el tamaño de la pantalla (para escritorios) y la orientación de la cámara (para dispositivos móviles) con la estimación de la mirada sin procesar para mejorar la precisión de la detección de atención’.

El nuevo trabajo se titula Monitorear la atención del espectador durante los anuncios en líneay proviene de cuatro investigadores en Affiva.

Método y datos

En gran parte debido al secreto y la naturaleza de código cerrado de tales sistemas, el nuevo artículo no compara el enfoque de los autores directamente con los rivales, sino que presenta sus hallazgos exclusivamente como estudios de ablación; El documento tampoco se adhiere en general al formato habitual de la literatura de visión por computadora. Por lo tanto, echaremos un vistazo a la investigación tal como se presenta.

Leer  Inflexión-2.5: El poderoso LLM que rivaliza con GPT-4 y Gemini

Los autores enfatizan que solo un número limitado de estudios han abordado la detección de atención específicamente en el contexto de anuncios en línea. En el SDK Affdex, que ofrece un reconocimiento de múltiples fijaciones en tiempo real, la atención se infiere únicamente de la pose de la cabeza, con los participantes etiquetados como desatento si su ángulo de la cabeza pasa un umbral definido.

Un ejemplo del SDK Affdex, un sistema AffIva que se basa en la pose de la cabeza como un indicador de atención. Fuente: https://www.youtube.com/watch?v=c2cwb5jhmby

En la colaboración de 2019 Medición automática de la atención visual al contenido de video utilizando el aprendizaje profundoun conjunto de datos de alrededor de 28,000 participantes fue anotado para varios comportamientos desatentos, incluidos mirando, ojos cerradoso participar en actividades no relacionadasy un modelo CNN-LSTM entrenado para detectar la atención de la apariencia facial con el tiempo.

Desde el documento de 2019, un ejemplo que ilustra los estados de atención predichos para un espectador que ve contenido de video. Fuente: https://www.jeffcohn.net/wp-content/uploads/2019/07/attention-13.pdf.pdf

Sin embargo, los autores observan que estos esfuerzos anteriores no tuvieron en cuenta los factores específicos del dispositivo, como si el participante estaba usando un escritorio o dispositivo móvil; Tampoco consideraron el tamaño de la pantalla o la colocación de la cámara. Además, el sistema Affdex se centra solo en identificar el desvío de la mirada, y omite otras fuentes de distracción, mientras que el trabajo de 2019 intenta detectar un conjunto más amplio de comportamientos, pero su uso de un solo CNN poco profundo puede, según el documento, el papel, el documento, ha sido inadecuado para esta tarea.

Los autores observan que algunas de las investigaciones más populares en esta línea no están optimizadas para las pruebas de anuncios, que tiene diferentes necesidades en comparación con dominios como la conducción o la educación, donde la colocación de la cámara y la calibración generalmente se fijan de antemano, dependiendo en su lugar en configuraciones no calibradas y operando dentro del rango de la mirada limitada de los dispositivos de escritorio y móviles.

Por lo tanto, han ideado una arquitectura para detectar la atención del espectador durante los anuncios en línea, aprovechando dos kits de herramientas comerciales: Affdex 2.0 y Smarteye SDK.

Ejemplos de análisis facial de AFFDEX 2.0. Fuente: https://arxiv.org/pdf/2202.12059

Estos trabajos anteriores extraen características de bajo nivel, como expresiones faciales, pose de cabeza y dirección de mirada. Estas características se procesan para producir indicadores de nivel superior, incluida la posición de la mirada en la pantalla; bostezo; y hablar.

El sistema identifica cuatro tipos de distracción: mirada fuera de la pantalla; modorra,; discurso; y pantallas desatendidas. También ajusta el análisis de la mirada de acuerdo con si el espectador está en un escritorio o dispositivo móvil.

Conjuntos de datos: mirada

Los autores utilizaron cuatro conjuntos de datos para alimentar y evaluar el sistema de detección de atención: tres enfocándose individualmente en el comportamiento de la mirada, hablar y bostezar; y una cuarta extraída de sesiones de pruebas publicitarias del mundo real que contienen una mezcla de tipos de distracción.

Debido a los requisitos específicos del trabajo, se crearon conjuntos de datos personalizados para cada una de estas categorías. Todos los conjuntos de datos seleccionados se obtuvieron de un repositorio patentado con millones de sesiones grabadas de participantes que observaron anuncios en entornos de hogar o lugar de trabajo, utilizando una configuración basada en la web, con consentimiento informado, y debido a las limitaciones de esos acuerdos de consentimiento, los autores afirman que los conjuntos de datos para el nuevo trabajo no pueden estar disponibles públicamente.

Para construir el mirada DataSet, se pidió a los participantes que siguieran un punto en movimiento en varios puntos en la pantalla, incluidos sus bordes, y luego que miraron hacia otro lado de la pantalla en cuatro direcciones (arriba, abajo, izquierda y derecha) con la secuencia repetida tres veces. De esta manera, se estableció la relación entre captura y cobertura:

Capturas de pantalla que muestran el estímulo de video de la mirada en (a) escritorio y (b) dispositivos móviles. El primer y tercer cuadro muestran instrucciones para seguir un punto móvil, mientras que el segundo y cuarto impulsan a los participantes a mirar hacia otro lado de la pantalla.

Los segmentos de puntos móviles fueron etiquetados como atentoy los segmentos fuera de la pantalla como inatentoproduciendo un conjunto de datos etiquetado de ejemplos positivos y negativos.

Cada video duró aproximadamente 160 segundos, con versiones separadas creadas para plataformas de escritorio y móviles, cada una con resoluciones de 1920 × 1080 y 608 × 1080, respectivamente.

Leer  Deepseek-Grm: revolucionando la IA escalable y rentable para las empresas

Se recopilaron un total de 609 videos, que comprenden 322 escritorio y 287 grabaciones móviles. Las etiquetas se aplicaron automáticamente en función del contenido de video, y el conjunto de datos se dividió en 158 muestras de entrenamiento y 451 para pruebas.

Conjuntos de datos: hablar

En este contexto, uno de los criterios que definen la ‘falta de atención’ es cuando una persona habla más de un segundo (¿Qué caso podría ser un comentario momentáneo, o incluso una tos)?

Dado que el entorno controlado no registra ni analiza el audio, el discurso se infiere observando el movimiento interno de los puntos de referencia faciales estimados. Por lo tanto para detectar discurso Sin audio, los autores crearon un conjunto de datos basado completamente en la entrada visual, extraída de su repositorio interno y divididos en dos partes: el primero de estos contenía aproximadamente 5,500 videos, cada uno etiquetado manualmente por tres anotadores como hablando o no (de estos, 4,400 para entrenamiento y validación, y 1,100 para probar).

El segundo comprendía 16,000 sesiones etiquetadas automáticamente en función del tipo de sesión: 10,500 participantes de características que miran en silencio anuncios y 5,500 participantes muestran que expresan opiniones sobre las marcas.

Conjuntos de datos: bostezo

Si bien existen algunos conjuntos de datos de ‘bostezo’, incluidos Yawdd y la fatiga del conductor, los autores afirman que ninguno es adecuado para escenarios de pruebas publicitarias, ya que cualquiera de los cuales aparecen simulado bostezos o de lo contrario contienen contorsiones faciales que podrían confundirse con miedo, u otras acciones que no son de cano.

Por lo tanto, los autores usaron 735 videos de su colección interna, eligiendo sesiones que probablemente contengan un caída de la mandíbula durando más de un segundo. Cada video fue etiquetado manualmente por tres anotadores como mostrados activo o bostezo inactivo. Solo el 2.6 por ciento de los cuadros contenían bostezos activos, subrayando el desequilibrio de clase, y el conjunto de datos se dividió en 670 videos de entrenamiento y 65 para las pruebas.

Conjuntos de datos: distracción

El distracción El conjunto de datos también se extrajo del repositorio de pruebas de anuncios de los autores, donde los participantes habían visto anuncios reales sin tareas asignadas. Un total de 520 sesiones (193 en dispositivos móviles y 327 en entornos de escritorio) fueron seleccionadas al azar y etiquetadas manualmente por tres anotadores como atento o inatento.

Comportamiento desatento incluido mirada fuera de la pantalla, discurso, modorray pantallas desatendidas. Las sesiones abarcan diversas regiones en todo el mundo, con grabaciones de escritorio más comunes, debido a la colocación flexible de la cámara web.

Modelos de atención

El modelo de atención propuesto procesa características visuales de bajo nivel, a saber, expresiones faciales; pose de la cabeza; y Dirección de la mirada: extraída a través del Affdex 2.0 2.0 y Smarteye SDK mencionado anteriormente.

Luego se convierten en indicadores de alto nivel, con cada distractor manejado por un clasificador binario separado entrenado en su propio conjunto de datos para la optimización y evaluación independientes.

Esquema para el sistema de monitoreo propuesto.

El mirada El modelo determina si el espectador está mirando o lejos de la pantalla utilizando coordenadas de mirada normalizadas, con calibración separada para dispositivos de escritorio y móviles. Ayudar a este proceso es una máquina vectorial de soporte lineal (SVM), entrenada en características espaciales y temporales, que incorpora una ventana de memoria para suavizar los cambios rápidos de la mirada.

Para detectar Hablando sin audioel sistema utilizó regiones bucales recortadas y un 3D-CNN entrenado en segmentos de video conversacionales y no conversacionales. Las etiquetas se asignaron en función del tipo de sesión, con un suavizado temporal que reduce los falsos positivos que pueden resultar de movimientos breves breves.

Bostezo se detectó utilizando cultivos de imagen de cara completa, para capturar un movimiento facial más amplio, con un 3D-CNN entrenado en marcos etiquetados manualmente (aunque la tarea fue complicada por la baja frecuencia de bostezo en la visualización natural y por su similitud con otras expresiones).

Abandono de la pantalla se identificó mediante la ausencia de una cara o pose de cabeza extrema, con predicciones hechas por un árbol de decisión.

Estado de atención final se determinó utilizando una regla fija: si algún módulo detectado detectado, el visor estaba marcado inatento – Un enfoque que prioriza la sensibilidad y se ajusta por separado para los contextos de escritorio y móviles.

Pruebas

Como se mencionó anteriormente, las pruebas siguen un método ablativo, donde se eliminan los componentes y el efecto sobre el resultado anotado.

Diferentes categorías de falta de atención percibida identificadas en el estudio.

El modelo de mirada identificó el comportamiento fuera de la pantalla a través de tres pasos clave: normalizar las estimaciones de la mirada sin procesar, ajustar la salida y estimar el tamaño de la pantalla para dispositivos de escritorio.

Leer  Hollywood mira por encima del hombro cuando Veo 3 entra en la imagen

Para comprender la importancia de cada componente, los autores los eliminaron individualmente y evaluaron el rendimiento en 226 escritorio y 225 videos móviles extraídos de dos conjuntos de datos. Los resultados, medidos por las puntuaciones G-Mean y F1, se muestran a continuación:

Resultados que indican el rendimiento del modelo de mirada completa, junto con versiones con pasos de procesamiento individuales eliminados.

En todos los casos, el rendimiento disminuyó cuando se omitió un paso. La normalización demostró ser especialmente valiosa en las computadoras de escritorio, donde la colocación de la cámara varía más que en los dispositivos móviles.

El estudio también evaluó cómo las características visuales predijeron la orientación de la cámara móvil: la ubicación de la cara, la pose de la cabeza y la mirada de los ojos obtuvieron 0.75, 0.74 y 0.60, mientras que su combinación alcanzó 0.91, destacando, el estado de los autores, la ventaja de integrar múltiples señales.

El discurso El modelo, entrenado en la distancia vertical del labio, logró un ROC-AUC de 0.97 en el conjunto de pruebas etiquetado manualmente, y 0.96 en el conjunto de datos etiquetado automáticamente más grande, lo que indica un rendimiento constante en ambos.

El bostezo El modelo alcanzó un ROC-AUC del 96.6 por ciento usando la relación de aspecto bucal sola, que mejoró al 97.5 por ciento cuando se combinó con predicciones de la unidad de acción de Affdex 2.0.

El modelo de pantalla desatendida clasificó momentos como inatento Cuando Affdex 2.0 y Smarteye no pudieron detectar una cara por más de un segundo. Para evaluar la validez de esto, los autores anotaron manualmente todos estos eventos sin cara en el distracción real conjunto de datos, identificando la causa subyacente de cada activación. Los casos ambiguos (como la obstrucción de la cámara o la distorsión del video) se excluyeron del análisis.

Como se muestra en la tabla de resultados a continuación, solo el 27 por ciento de las activaciones de ‘no cara’ se debieron a que los usuarios salieron físicamente de la pantalla.

Diversas razones obtenidas por las cuales no se encontró una cara, en ciertos casos.

El documento dice:

“A pesar de que las pantallas desatendidas constituyeron solo el 27% de las instancias que desencadenaron la señal sin cara, se activó por otras razones indicativas de falta de atención, como los participantes que miran fuera de la pantalla con un ángulo extremo, haciendo un movimiento excesivo o ocluyeron su rostro significativamente con un objeto/mano”.

En el último de las pruebas cuantitativas, los autores evaluaron cómo agregar progresivamente diferentes señales de distracción: la mirada fuera de la pantalla (a través de la mirada y la pose de la cabeza), la somnolencia, la conversación y las pantallas desatendidas) afectaron el rendimiento general de su modelo de atención.

Las pruebas se realizaron en dos conjuntos de datos: el distracción real conjunto de datos y un subconjunto de prueba del mirada conjunto de datos. Las puntuaciones G-Mean y F1 se utilizaron para medir el rendimiento (aunque la somnolencia y la conversación se excluyeron del análisis del conjunto de datos de la mirada, debido a su relevancia limitada en este contexto).

Como se muestra a continuación, la detección de atención mejoró de manera consistente a medida que se agregaron más tipos de distracción, con mirada fuera de la pantallael distractor más común, proporcionando la línea de base más fuerte.

El efecto de agregar diversas señales de distracción a la arquitectura.

De estos resultados, el documento establece:

‘De los resultados, primero podemos concluir que la integración de todas las señales de distracción contribuye a una mayor detección de atención.

‘En segundo lugar, la mejora en la detección de atención es consistente en los dispositivos de escritorio y móviles. En tercer lugar, las sesiones móviles en el conjunto de datos real muestran movimientos significativos de la cabeza al mirar fácilmente, que se detectan fácilmente, lo que lleva a un mayor rendimiento para los dispositivos móviles en comparación con las computadoras de escritorio. Cuarto, agregar la señal de somnolencia tiene una mejora relativamente ligera en comparación con otras señales, ya que generalmente es raro que suceda.

“Finalmente, la señal de pantalla desatendida tiene una mejora relativamente mayor en los dispositivos móviles en comparación con las computadoras de escritorio, ya que los dispositivos móviles se pueden dejar fácilmente desatendidos”.

Los autores también compararon su modelo con Affdex 1.0, un sistema anterior utilizado en las pruebas de anuncios, e incluso la detección de la mirada basada en la cabeza del modelo actual superó a Affdex 1.0 en ambos tipos de dispositivos:

‘Esta mejora es el resultado de la incorporación de movimientos de la cabeza tanto en las direcciones de guiñada como en el tono, así como la normalización de la pose de la cabeza para tener en cuenta los cambios menores. Los pronunciados movimientos de la cabeza en el conjunto de datos móvil real han provocado que nuestro modelo de cabeza funcione de manera similar a Affdex 1.0.

Los autores cierran el papel con una redonda cualitativa (quizás bastante superficial), que se muestra a continuación.

Ejemplo de salidas del modelo de atención en dispositivos de escritorio y móviles, con cada fila presentando ejemplos de positivos verdaderos y falsos para diferentes tipos de distracción.

Los autores afirman:

‘Los resultados indican que nuestro modelo detecta efectivamente varios distractores en configuraciones no controladas. Sin embargo, ocasionalmente puede producir falsos positivos en ciertos casos de borde, como la inclinación severa de la cabeza mientras se mantiene la mirada en la pantalla, algunas oclusiones bucales, ojos excesivamente borrosos o imágenes faciales muy oscuras. ‘

Conclusión

Si bien los resultados representan un avance medido pero significativo sobre el trabajo previo, el valor más profundo del estudio se encuentra en la visión que ofrece al impulso persistente para acceder al estado interno del espectador. Aunque los datos se recopilaron con consentimiento, la metodología apunta hacia futuros marcos que podrían extenderse más allá de la configuración estructurada de investigación de mercado.

Esta conclusión bastante paranoica solo está reforzada por la naturaleza enclaustrada, limitada y celosamente protegida de este hilo de investigación particular.

* Mi conversión de las citas en línea de los autores en hipervínculos.

Publicado por primera vez el miércoles 9 de abril de 2025

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares