Exponer ediciones de IA pequeñas pero significativas en video real

-

spot_img

En 2019, la presidenta de la Cámara de Representantes de EE. UU., Nancy Pelosi, fue objeto de un ataque de estilo profundo objetivo y bastante baja en tecnología, cuando el video real de ella fue editado para que pareciera borracho, un incidente irreal que se compartió varios millones de veces antes de que saliera la verdad (y, potencialmente, después de que un daño obstinado a su capital político fue afectado por quienes no se mantuvieron en contacto con la historia).

Aunque esta tergiversación requirió solo una edición simple de audiovisual de audio, en lugar de cualquier IA, sigue siendo un ejemplo clave de cómo los cambios sutiles en la salida audiovisual real pueden tener un efecto devastador.

En ese momento, la escena de Deepfake estaba dominada por los sistemas de reemplazo facial con sede en Autoencoder que habían debutado a fines de 2017, y que no habían mejorado significativamente en calidad desde entonces. Tales sistemas tempranos habrían sido difíciles de crear este tipo de alteraciones pequeñas pero significativas, o para perseguir de manera realista hilos de investigación modernos, como la edición de expresiones:

El marco de 2022 ‘Director de Emoción Neural’ cambia el estado de ánimo de una cara famosa. Fuente: https://www.youtube.com/watch?v=li6w8prdmjq

Las cosas ahora son bastante diferentes. La industria del cine y la televisión está seriamente interesada en la alteración de la postproducción de actuaciones reales utilizando enfoques de aprendizaje automático y la facilitación de IA de post facto El perfeccionismo incluso ha sido bajo críticas recientes.

Anticipando (o podría decirse) esta demanda, la escena de investigación de síntesis de imagen y video ha avanzado una amplia gama de proyectos que ofrecen ‘ediciones locales’ de capturas faciales, en lugar de reemplazos directos: los proyectos de este tipo incluyen Autoencoders de videos de difusión; Coserlo en el tiempo; Cara de chat; Magicface; y disco, entre otros.

Edición de expresión con el proyecto Magicface de enero de 2025. Fuente: https://arxiv.org/pdf/2501.02260

Nuevas caras, nuevas arrugas

Sin embargo, las tecnologías habilitadoras se están desarrollando mucho más rápidamente que los métodos para detectarlas. Casi todos los métodos de detección de Deepfake que surgen en la literatura están persiguiendo los métodos de fake de ayer con los conjuntos de datos de ayer. Hasta esta semana, ninguno de ellos había abordado el potencial progresivo de los sistemas de IA para crear alteraciones locales pequeñas y tópicas en el video.

Ahora, un nuevo artículo de la India ha reparado esto, con un sistema que busca identificar caras que han sido editado (en lugar de reemplazarse) a través de técnicas basadas en IA:

Detección de ediciones locales sutiles en Deepfakes: se altera un video real para producir falsificaciones con cambios matizados como cejas elevadas, rasgos de género modificados y cambios en la expresión hacia el asco (ilustrado aquí con un solo cuadro). Fuente: https://arxiv.org/pdf/2503.22121

El sistema de autores está dirigido a identificar defensores profundos que involucran manipulaciones faciales sutiles y localizadas, una clase de falsificación descuidada. En lugar de centrarse en las inconsistencias globales o los desajustes de identidad, el enfoque se dirige a cambios de grano fino, como ligeros cambios de expresión o ediciones pequeñas a características faciales específicas.

El método utiliza el delimitador de las unidades de acción (AUS) en el Sistema de codificación de acción facial (FACS), que define 64 áreas mutables individuales posibles en la cara, que juntos forman expresiones.

Algunas de las partes constituyentes 64 partes en FACS. Fuente: https://www.cs.cmu.edu/~face/facs.htm

Los autores evaluaron su enfoque contra una variedad de métodos de edición recientes e informan ganancias de rendimiento consistentes, tanto con conjuntos de datos más antiguos como con vectores de ataque mucho más recientes:

Leer  Chatgpt ahora recuerda todo lo que le has dicho, esto es lo que necesitas saber

‘Al usar características basadas en AU para guiar las representaciones de video aprendidas a través de Autoencoders enmascarados ((MAE)), nuestro método captura efectivamente los cambios localizados cruciales para detectar ediciones faciales sutiles.

“Este enfoque nos permite construir una representación latente unificada que codifica tanto las ediciones localizadas como las alteraciones más amplias en los videos centrados en la cara, proporcionando una solución integral y adaptable para la detección de profundos”.

El nuevo artículo se titula Detección de manipulaciones de defake profundos localizados utilizando representaciones de video guiadas por la unidad de accióny proviene de tres autores en el Instituto Indio de Tecnología de Madras.

Método

En línea con el enfoque adoptado por Videomae, el nuevo método comienza aplicando la detección de la cara a un video y muestreo de marcos espaciados uniformemente centrados en las caras detectadas. Estos marcos se dividen en pequeñas divisiones 3D (es decir, parches habilitados temporalmente), cada uno que captura detalles espaciales y temporales locales.

Esquema para el nuevo método. El video de entrada se procesa con detección de la cara para extraer marcos centrados en la cara espaciados uniformemente, que luego se dividen en parches ‘tubulares’ y se pasan a través de un codificador que fusiona representaciones latentes de dos tareas de pretexto previos al pretenido. El vector resultante es utilizado por un clasificador para determinar si el video es real o falso.

Cada parche 3D contiene una ventana de píxeles de tamaño fijo (es decir, 16 × 16) de un pequeño número de marcos sucesivos (es decir, 2). Esto permite al modelo aprender cambios de movimiento y expresión a corto plazo, no solo cómo se ve la cara, sino también Cómo se mueve.

Los parches están incrustados y codificados posicionalmente antes de pasar a un codificador diseñado para extraer características que pueden distinguir real de falso.

Los autores reconocen que esto es particularmente difícil cuando se trata de manipulaciones sutiles y abordan este problema construyendo un codificador que combina dos tipos separados de representaciones aprendidas, utilizando un mecanismo de atención cruzada para fusionarlas. Esto está destinado a producir un espacio de características más sensible y generalizable para detectar ediciones localizadas.

Tareas de pretexto

La primera de estas representaciones es un codificador entrenado con una tarea de autoencodificación enmascarada. Con el video dividido en parches 3D (la mayoría de los cuales están ocultos), el codificador aprende a reconstruir las partes faltantes, lo que lo obliga a capturar importantes patrones espacio -temporales, como el movimiento facial o la consistencia a lo largo del tiempo.

El entrenamiento de tareas de pretexto implica enmascarar partes de la entrada de video y usar una configuración de codificador codificador para reconstruir los marcos originales o los mapas de la unidad de acción por cuadro, dependiendo de la tarea.

Sin embargo, el documento observa que esto solo no proporciona suficiente sensibilidad para detectar ediciones de grano fino, y los autores introducen un segundo codificador entrenado para detectar unidades de acción facial (AUS). Para esta tarea, el modelo aprende a reconstruir mapas AU densos para cada cuadro, nuevamente a partir de entradas parcialmente enmascaradas. Esto lo alienta a centrarse en la actividad muscular localizada, que es donde ocurren muchas ediciones sutiles de Deepfake.

Otros ejemplos de unidades de acción facial (faus o aus). Fuente: https://www.eiagroup.com/the-facial-action-coding-system/

Una vez que ambos codificadores están provocados, sus salidas se combinan utilizando atención cruzada. En lugar de simplemente fusionar los dos conjuntos de características, el modelo utiliza las características basadas en AU como consultas Esa guía la atención sobre las características espaciales-temporales aprendidas de la autoencodificación enmascarada. En efecto, el codificador de la unidad de acción le dice al modelo dónde buscar.

Leer  Google puede perder a Chrome, y la primera en la fila de Openai para agarrarlo

El resultado es una representación latente fusionada que está destinada a capturar tanto el contexto de movimiento más amplio como el detalle de nivel de expresión localizado. Este espacio de características combinadas se usa para la tarea de clasificación final: predecir si un video es real o manipulado.

Datos y pruebas

Implementación

Los autores implementaron el sistema mediante el preprocesamiento de videos de entrada con el marco de detección de cara basado en FaceXzoo Pytorch, obteniendo 16 marcos centrados en la cara de cada clip. Las tareas de pretexto descritas anteriormente fueron capacitadas en el conjunto de datos Celebv-HQ, que comprende 35,000 videos faciales de alta calidad.

Del documento de origen, ejemplos del conjunto de datos CelebV-HQ utilizado en el nuevo proyecto. Fuente: https://arxiv.org/pdf/2207.12393

La mitad de los ejemplos de datos fueron enmascarados, lo que obligó al sistema a aprender principios generales en lugar de sobrecargarse a los datos de origen.

Para la tarea de reconstrucción del marco enmascarado, el modelo se entrenó para predecir regiones faltantes de los marcos de video utilizando una pérdida de L1, minimizando la diferencia entre el contenido original y reconstruido.

Para la segunda tarea, el modelo fue entrenado para generar mapas para 16 unidades de acción facial, cada una de las cuales representa movimientos musculares sutiles en áreas tales como cejas, párpados, nariz y labios, nuevamente supervisados ​​por la pérdida de L1.

Después de la entrega previa, los dos codificadores fueron fusionados y ajustados para la detección de Deepfake utilizando el conjunto de datos FaceForensics ++, que contiene videos reales y manipulados.

El conjunto de datos FaceForensics ++ ha sido la piedra angular de la detección de Deepfake desde 2017, aunque ahora está considerablemente desactualizado, con respecto a las últimas técnicas de síntesis facial. Fuente: https://www.youtube.com/watch?v=x2g48q2i2zq

Para tener en cuenta el desequilibrio de clases, los autores utilizaron la pérdida focal (una variante de pérdida de entropía cruzada), que enfatiza ejemplos más desafiantes durante el entrenamiento.

Toda la capacitación se realizó en una sola GPU RTX 4090 con 24 GB de VRAM, con un tamaño de lote de 8 para 600 épocas (revisiones completas de los datos), utilizando puntos de control previamente capacitados de Videomae para inicializar los pesos para cada una de las tareas de pretexto.

Pruebas

Las evaluaciones cuantitativas y cualitativas se llevaron a cabo contra una variedad de métodos de detección de profundos: FTCN; RealForensics; Forense labial; EficeNet+Vit; Rayos X de cara; Congelación alt; Cadmm; Laanet; y el SBI de Blendface. En todos los casos, el código fuente estaba disponible para estos marcos.

Las pruebas se centraron en los defensores de editados locales, donde solo se alteró parte de un clip de origen. Las arquitecturas utilizadas fueron Autoencoders de video de difusión (DVA); Coserlo en el tiempo (stit); Edición de la cara desenredada (DFE); Flujo de token; VideoP2p; Text2live; y Fatezero. Estos métodos emplean una diversidad de enfoques (difusión para DVA y StyleGan2 para STIT y DFE, por ejemplo)

Leer  Mejor video de IA generativo por tramas arrastrando durante el entrenamiento

Los autores afirman:

‘Para garantizar una cobertura integral de diferentes manipulaciones faciales, incorporamos una amplia variedad de características faciales y ediciones de atributos. Para la edición de características faciales, modificamos el tamaño de los ojos, la distancia de la visión de la vista, la relación de la nariz, la distancia de la boca de la nariz, la relación de los labios y la relación de las mejillas. Para la edición de atributos faciales, variamos expresiones como sonrisa, ira, asco y tristeza.

‘Esta diversidad es esencial para validar la robustez de nuestro modelo en una amplia gama de ediciones localizadas. En total, generamos 50 videos para cada uno de los métodos de edición mencionados anteriormente y validamos la sólida generalización de nuestro método para la detección de defectos profundos.

Los conjuntos de datos de Deepfake más antiguos también se incluyeron en las rondas, a saber, Celeb-DFV2 (CDF2); Detección de defake (DFD); Desafío de detección de Deepfake (DFDC); y Wilddeepfake (DFW).

Las métricas de evaluación fueron área bajo curva (AUC); Precisión promedio; y puntaje medio F1.

Del documento: la comparación en los profundos profundos localizados recientes muestra que el método propuesto superó a todos los demás, con una ganancia de 15 a 20 por ciento tanto en AUC como en precisión promedio sobre el mejor enfoque.

Los autores también proporcionan una comparación de detección visual para vistas manipuladas localmente (reproducidas solo en parte a continuación, debido a la falta de espacio):

Se alteró un video real utilizando tres manipulaciones localizadas diferentes para producir falsificaciones que permanecían visualmente similar al original. Aquí se muestran marcos representativos junto con los puntajes de detección falsos promedio para cada método. Si bien los detectores existentes lucharon con estas ediciones sutiles, el modelo propuesto asignó constantemente altas probabilidades falsas, lo que indica una mayor sensibilidad a los cambios localizados.

Los investigadores comentan:

‘(Los) métodos de detección SOTA existentes, (Laanet), (SBI), (AltFreezing) y (CADMM), experimentan una caída significativa en el rendimiento en los últimos métodos de generación de Deepfake. Los métodos SOTA actuales exhiben AUC tan bajos como 48-71%, lo que demuestra sus malas capacidades de generalización con los recientes profundos.

‘Por otro lado, nuestro método demuestra una generalización robusta, logrando un AUC en el rango 87-93%. Una tendencia similar también se nota en el caso de la precisión promedio. Como se muestra (a continuación), nuestro método también logra constantemente un alto rendimiento en los conjuntos de datos estándar, superando el 90% de AUC y es competitivo con los recientes modelos de detección de Deepfake ‘.

El rendimiento en los conjuntos de datos de Deepfake tradicionales muestra que el método propuesto seguía siendo competitivo con los enfoques principales, lo que indica una fuerte generalización en una variedad de tipos de manipulación.

Los autores observan que estas últimas pruebas involucran modelos que podrían verse razonablemente como anticuados, y que se introdujeron antes de 2020.

A través de una representación visual más extensa del rendimiento del nuevo modelo, los autores proporcionan una tabla extensa al final, solo una parte de la cual tenemos espacio para reproducir aquí:

En estos ejemplos, se modificó un video real utilizando tres ediciones localizadas para producir falsificaciones visualmente similares al original. Los puntajes de confianza promedio entre estas manipulaciones muestran, afirman los autores, que el método propuesto detectó las falsificaciones de manera más confiable que otros enfoques principales. Consulte la página final del PDF de origen para obtener los resultados completos.

Los autores sostienen que su método logra puntajes de confianza por encima del 90 por ciento para la detección de ediciones localizadas, mientras que los métodos de detección existentes permanecieron por debajo del 50 por ciento en la misma tarea. Interpretan esta brecha como evidencia de la sensibilidad y la generalización de su enfoque, y como una indicación de los desafíos que enfrentan las técnicas actuales para tratar este tipo de manipulaciones faciales sutiles.

Para evaluar la confiabilidad del modelo en condiciones del mundo real, y de acuerdo con el método establecido por CADMM, los autores probaron su rendimiento en videos modificados con distorsiones comunes, incluidos los ajustes a la saturación y el contraste, el desenfoque gaussiano, la pixelación y los artefactos de compresión basados ​​en bloques, así como el ruido aditivo.

Los resultados mostraron que la precisión de detección se mantuvo en gran medida estable en estas perturbaciones. La única disminución notable ocurrió con la adición de ruido gaussiano, lo que causó una caída modesta en el rendimiento. Otras alteraciones tuvieron un efecto mínimo.

Una ilustración de cómo la precisión de detección cambia en diferentes distorsiones de video. El nuevo método se mantuvo resistente en la mayoría de los casos, con solo una pequeña disminución en AUC. La caída más significativa ocurrió cuando se introdujo el ruido gaussiano.

Estos hallazgos, proponen los autores, sugieren que la capacidad del método para detectar manipulaciones localizadas no se ve fácilmente interrumpida por las degradaciones típicas en la calidad del video, lo que respalda su potencial robustez en entornos prácticos.

Conclusión

La manipulación de la IA existe en la conciencia pública principalmente en la noción tradicional de defectos profundos, donde la identidad de una persona se impone al cuerpo de otra persona, que puede estar realizando acciones antitéticas a los principios del propietario de la identidad. Esta concepción se está actualizando lentamente para reconocer las capacidades más insidiosas de los sistemas de video generativos (en la nueva raza de videos profundos) y las capacidades de los modelos de difusión latentes (LDM) en general.

Por lo tanto, es razonable esperar que el tipo de edición local que le preocupa el nuevo artículo se preocupa por no estar a la atención del público hasta que ocurra un evento fundamental al estilo Pelosi, ya que las personas se distraen de esta posibilidad por temas más fáciles de agarrar titulares como el fraude de videos de fake profundos.

No obstante, como el actor Nic Cage ha expresado una preocupación consistente sobre la posibilidad de que los procesos de postproducción “revisen” el desempeño de un actor, también deberíamos fomentar una mayor conciencia de este tipo de ajuste de video “sutil”, no menos importante porque somos increíblemente sensibles a variaciones muy pequeñas de expresión facial, y porque el contexto puede cambiar significativamente el impacto de los pequeños movimientos faciales (considerar el efecto injurioso de un efecto facial.

Publicado por primera vez el miércoles 2 de abril de 2025

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares