Estimación de la predicción del atractivo facial para transmisiones en vivo

-

spot_img

Hasta la fecha, la Predicción del Atractivo Facial (FAP) se ha estudiado principalmente en el contexto de la investigación psicológica, en la industria de la belleza y la cosmética, y en el contexto de la cirugía estética. Es un campo de estudio desafiante, ya que los estándares de belleza tienden a ser nacionales más que globales.

Esto significa que ningún conjunto de datos eficaz basado en IA es viable, porque los promedios medios obtenidos del muestreo de rostros/calificaciones de todas las culturas estarían muy sesgados (donde las naciones más pobladas ganarían tracción adicional), de lo contrario se aplicaría a ninguna cultura en absoluto (donde el promedio medio de múltiples carreras/clasificaciones equivaldría a ninguna carrera real).

En cambio, el desafío es desarrollar metodologías conceptuales y flujos de trabajo en los que se podrían procesar datos específicos de cada país o cultura, para permitir el desarrollo de modelos FAP eficaces por región.

Los casos de uso de FAP en la investigación de belleza y psicología son bastante marginales y, por lo demás, específicos de la industria; por lo tanto, la mayoría de los conjuntos de datos seleccionados hasta la fecha contienen solo datos limitados o no se han publicado en absoluto.

La fácil disponibilidad de predictores de atractivo en línea, en su mayoría dirigidos a audiencias occidentales, no necesariamente representa el estado del arte en FAP, que parece actualmente dominado por investigaciones del este de Asia (principalmente China) y los correspondientes conjuntos de datos de Asia oriental.

Ejemplos de conjuntos de datos del artículo de 2020 ‘Predicción de la belleza facial femenina asiática utilizando redes neuronales profundas mediante aprendizaje por transferencia y fusión de funciones multicanal’. Fuente: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Los usos comerciales más amplios para la estimación de la belleza incluyen aplicaciones de citas en línea y sistemas generativos de inteligencia artificial diseñados para “retocar” imágenes de avatares reales de personas (ya que tales aplicaciones requerían un estándar cuantificado de belleza como métrica de efectividad).

Dibujar caras

Las personas atractivas siguen siendo un activo valioso en la publicidad y la creación de influencia, lo que hace que los incentivos financieros en estos sectores sean una oportunidad clara para avanzar en conjuntos de datos y marcos de FAP de última generación.

Por ejemplo, un modelo de IA entrenado con datos del mundo real para evaluar y calificar la belleza facial podría identificar eventos o individuos con un alto potencial de impacto publicitario. Esta capacidad sería especialmente relevante en contextos de transmisión de video en vivo, donde métricas como “seguidores” y “me gusta” actualmente sirven solo como implícito indicadores de la capacidad de un individuo (o incluso de un tipo facial) para cautivar a una audiencia.

Esta es una métrica superficial, por supuesto, y la voz, la presentación y el punto de vista también juegan un papel importante en la captación de audiencia. Por lo tanto, la conservación de los conjuntos de datos de FAP requiere supervisión humana, así como la capacidad de distinguir el atractivo facial del “engañoso” (sin el cual, personas influyentes fuera del dominio como Alex Jones podrían terminar afectando la curva promedio de FAP para una colección diseñada exclusivamente para estimar la belleza facial).

vivir belleza

Para abordar la escasez de conjuntos de datos FAP, investigadores de China están ofreciendo el primer conjunto de datos FAP a gran escala, que contiene 100.000 imágenes de rostros, junto con 200.000 anotaciones humanas que estiman la belleza facial.

Muestras del nuevo conjunto de datos de LiveBeauty. Fuente: https://arxiv.org/pdf/2501.02509

Con derecho vivir bellezael conjunto de datos presenta 10.000 identidades diferentes, todas capturadas desde plataformas de transmisión en vivo (no especificadas) en marzo de 2024.

Leer  El surgimiento de los robots más inteligentes: cómo los LLM están cambiando la IA incorporada

Los autores también presentan FPEM, un novedoso método FAP multimodal. FPEM integra conocimiento facial holístico previo y características semánticas estéticas multimodales a través de un módulo previo de atractivo personalizado (PAPM), un módulo codificador de atractivo multimodal (MAEM) y un módulo de fusión multimodal (CMFM).

El documento sostiene que FPEM logra un rendimiento de vanguardia en el nuevo conjunto de datos de LiveBeauty y otros conjuntos de datos de FAP. Los autores señalan que la investigación tiene aplicaciones potenciales para mejorar la calidad del video, la recomendación de contenido y el retoque facial en la transmisión en vivo.

Los autores también prometen que el conjunto de datos estará disponible “pronto”, aunque hay que admitir que cualquier restricción de licencia inherente al dominio fuente probablemente se transmitirá a la mayoría de los proyectos aplicables que podrían hacer uso del trabajo.

El nuevo artículo se titula Predicción del atractivo facial en transmisión en vivo: un nuevo punto de referencia y un método multimodaly proviene de diez investigadores del Grupo Alibaba y la Universidad Jiao Tong de Shanghai.

Método y datos

De cada transmisión de 10 horas desde las plataformas de transmisión en vivo, los investigadores seleccionaron una imagen por hora durante las primeras tres horas. Se seleccionaron las retransmisiones con mayor número de páginas vistas.

Luego, los datos recopilados fueron sujetos a varias etapas de preprocesamiento. El primero de ellos es medición del tamaño de la región de la caraque utiliza el modelo de detección FaceBoxes basado en CPU de 2018 para generar un cuadro delimitador alrededor de los lineamientos faciales. La canalización garantiza que el lado más corto del cuadro delimitador supere los 90 píxeles, evitando regiones de la cara pequeñas o poco claras.

El segundo paso es detección de desenfoqueque se aplica a la región de la cara utilizando la varianza del operador laplaciano en el canal de altura (Y) del recorte facial. Esta variación debe ser mayor que 10, lo que ayuda a filtrar imágenes borrosas.

El tercer paso es estimación de la pose de la caraque utiliza el modelo de estimación de pose 3DDFA-V2 2021:

Ejemplos del modelo de estimación 3DDFA-V2. Fuente: https://arxiv.org/pdf/2009.09960

Aquí, el flujo de trabajo garantiza que el ángulo de inclinación de la cara recortada no sea mayor de 20 grados y el ángulo de guiñada no sea mayor de 15 grados, lo que excluye caras con poses extremas.

El cuarto paso es evaluación de proporción facialque también utiliza las capacidades de segmentación del modelo 3DDFA-V2, lo que garantiza que la proporción de la región del rostro recortada sea superior al 60 % de la imagen, excluyendo las imágenes en las que el rostro no es prominente. es decir, pequeño en el panorama general.

Finalmente, el quinto paso es eliminación de caracteres duplicadosque utiliza un modelo de reconocimiento facial de última generación (no atribuido), para los casos en los que la misma identidad aparece en más de una de las tres imágenes recopiladas para un vídeo de 10 horas.

Evaluación humana y anotación

Se reclutaron veinte anotadores, seis hombres y 14 mujeres, lo que refleja la demografía de la plataforma en vivo utilizada*. Los rostros se mostraron en la pantalla de 6,7 pulgadas de un iPhone 14 Pro Max, en condiciones constantes de laboratorio.

Leer  La herramienta de 'co-científico' de AI de Google: revolucionando la investigación biomédica

La evaluación se dividió en 200 sesiones, cada una de las cuales empleó 50 imágenes. Se pidió a los sujetos que calificaran el atractivo facial de las muestras con una puntuación de 1 a 5, con un descanso de cinco minutos entre cada sesión y todos los sujetos participaron en todas las sesiones.

Por lo tanto, se evaluaron la totalidad de las 10.000 imágenes en veinte sujetos humanos, llegando a 200.000 anotaciones.

Análisis y Preprocesamiento

En primer lugar, se realizó una selección posterior de los sujetos utilizando el índice de valores atípicos y el coeficiente de correlación de rangos de Spearman (SROCC). Los sujetos cuyas calificaciones tenían un SROCC inferior a 0,75 o una proporción atípica superior al 2 % se consideraron poco fiables y fueron eliminados, obteniéndose finalmente 20 sujetos.

Luego se calculó una puntuación media de opinión (MOS) para cada imagen de rostro, promediando las puntuaciones obtenidas por los sujetos válidos. El MOS sirve como etiqueta de atractivo real para cada imagen, y la puntuación se calcula promediando todas las puntuaciones individuales de cada sujeto válido.

Finalmente, el análisis de las distribuciones MOS para todas las muestras, así como para las muestras femeninas y masculinas, indicó que exhibían una forma de estilo gaussiano, que es consistente con las distribuciones de atractivo facial del mundo real:

Ejemplos de distribuciones LiveBeauty MOS.

La mayoría de las personas tienden a tener un atractivo facial promedio, y hay menos individuos en los extremos de atractivo muy bajo o muy alto.

Además, el análisis de los valores de asimetría y curtosis mostró que las distribuciones se caracterizaban por colas delgadas y se concentraban alrededor de la puntuación promedio, y que El alto atractivo fue más frecuente entre las muestras femeninas. en los videos de transmisión en vivo recopilados.

Arquitectura

Se utilizó una estrategia de entrenamiento de dos etapas para el modelo multimodal mejorado facial previo (FPEM) y la fase de fusión híbrida en LiveBeauty, dividida en cuatro módulos: un módulo previo de atractivo personalizado (PAPM), un módulo codificador de atractivo multimodal ( MAEM), un módulo de fusión intermodal (CMFM) y un módulo de fusión de decisiones (DFM).

Esquema conceptual para el canal de formación de LiveBeauty.

El módulo PAPM toma una imagen como entrada y extrae características visuales de múltiples escalas usando un Swin Transformer, y también extrae características faciales usando un modelo FaceNet previamente entrenado. Luego, estas características se combinan utilizando un bloque de atención cruzada para crear una característica de “atractivo” personalizada.

También en la fase de capacitación preliminar, MAEM utiliza una imagen y descripciones textuales de atractivo, aprovechando CLIP para extraer características semánticas estéticas multimodales.

Las descripciones de texto con plantilla tienen el formato de ‘una foto de una persona con {a} atractivo’ (dónde {a} puede ser malo, pobre, justo, bien o perfecto). El proceso estima la similitud del coseno entre incrustaciones textuales y visuales para llegar a una probabilidad de nivel de atractivo.

En la fase de fusión híbrida, el CMFM refina las incrustaciones textuales utilizando la característica de atractivo personalizado generada por el PAPM, generando así incrustaciones textuales personalizadas. Luego utiliza una estrategia de regresión de similitud para hacer una predicción.

Finalmente, el DFM combina las predicciones individuales de PAPM, MAEM y CMFM para producir una puntuación única y final de atractivo, con el objetivo de lograr un consenso sólido.

Funciones de pérdida

Para las métricas de pérdida, el PAPM se entrena utilizando una pérdida L1, una medida de la diferencia absoluta entre la puntuación de atractivo prevista y la puntuación de atractivo real (verdadera).

Leer  Aumento en el uso de ChatGPT para adolescentes: ¿Qué significa esto para la educación?

El módulo MAEM utiliza una función de pérdida más compleja que combina una pérdida de puntuación (LS) con una pérdida de clasificación fusionada (LR). La pérdida de clasificación (LR) comprende una pérdida de fidelidad (LR1) y una pérdida de clasificación bidireccional (LR2).

LR1 compara el atractivo relativo de pares de imágenes, mientras que LR2 garantiza que la distribución de probabilidad prevista de los niveles de atractivo tenga un único pico y disminuya en ambas direcciones. Este enfoque combinado tiene como objetivo optimizar tanto la puntuación precisa como la clasificación correcta de las imágenes en función del atractivo.

El CMFM y el DFM se entrenan mediante una simple pérdida de L1.

Pruebas

En las pruebas, los investigadores compararon LiveBeauty con nueve enfoques anteriores: ComboNet; 2D-FAP; REX-INCEP; CNN-ER (presentado en REX-INCEP); MEBelleza; AVA-MLSP; TANet; Dele-Trans; y COMER.

También se probaron métodos de referencia que se ajustan a un protocolo de Evaluación Estética de la Imagen (IAA). Se trataba de ViT-B; ResNeXt-50; y Inception-V3.

Además de LiveBeauty, los otros conjuntos de datos probados fueron SCUT-FBP5000 y MEBeauty. A continuación, se comparan las distribuciones MOS de estos conjuntos de datos:

Distribuciones MOS de los conjuntos de datos de referencia.

Respectivamente, estos conjuntos de datos de invitados se dividieron entre un 60% y un 40% y entre un 80% y un 20% para entrenamiento y pruebas, por separado, para mantener la coherencia con sus protocolos originales. LiveBeauty se dividió en una proporción del 90% al 10%.

Para la inicialización del modelo en MAEM, se utilizaron VT-B/16 y GPT-2 como codificadores de imagen y texto, respectivamente, inicializados mediante configuraciones de CLIP. Para PAPM, se utilizó Swin-T como codificador de imágenes entrenable, de acuerdo con SwinFace.

Se utilizó el optimizador AdamW y un programador de tasa de aprendizaje configurado con calentamiento lineal bajo un esquema de recocido de coseno. Las tasas de aprendizaje diferían entre las fases de entrenamiento, pero cada una tenía un tamaño de lote de 32, durante 50 épocas.

Resultados de las pruebas

Los resultados de las pruebas en los tres conjuntos de datos de FAP se muestran arriba. De estos resultados, el artículo afirma:

‘Nuestro método propuesto logra el primer lugar y supera el segundo lugar en aproximadamente 0,012, 0,081, 0,021 en términos de valores SROCC en LiveBeauty, MEBeauty y SCUT-FBP5500 respectivamente, lo que demuestra la superioridad de nuestro método propuesto.

‘(Los) métodos IAA son inferiores a los métodos FAP, lo que manifiesta que los métodos genéricos de evaluación estética pasan por alto los rasgos faciales involucrados en la naturaleza subjetiva del atractivo facial, lo que lleva a un desempeño deficiente en las tareas FAP.

‘(El) rendimiento de todos los métodos cae significativamente en MEBeauty. Esto se debe a que las muestras de capacitación son limitadas y los rostros son étnicamente diversos en MEBeauty, lo que indica que existe una gran diversidad en el atractivo facial.

“Todos estos factores hacen que la predicción del atractivo facial en MEBeauty sea más desafiante”.

Consideraciones éticas

La investigación sobre el atractivo es una búsqueda potencialmente divisiva, ya que al establecer estándares de belleza supuestamente empíricos, tales sistemas tenderán a reforzar los sesgos en torno a la edad, la raza y muchas otras secciones de la investigación de la visión por computadora en relación con los humanos.

Se podría argumentar que un sistema FAP es inherentemente predispuesto reforzar y perpetuar perspectivas parciales y sesgadas sobre el atractivo. Estos juicios pueden surgir de anotaciones dirigidas por humanos –a menudo realizadas en escalas demasiado limitadas para una generalización eficaz del dominio– o del análisis de patrones de atención en entornos en línea como plataformas de streaming, que, posiblemente, están lejos de ser meritocráticos.

* El artículo se refiere a los dominios fuente sin nombre tanto en singular como en plural.

Publicado por primera vez el miércoles 8 de enero de 2025.

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares