Una nueva colaboración de investigación entre Israel y Japón sostiene que los sistemas de detección de peatones poseen debilidades inherentes, lo que permite a las personas bien informadas evadir los sistemas de reconocimiento facial al navegar por rutas cuidadosamente planificadas a través de áreas donde las redes de vigilancia son menos efectivas.
Con la ayuda de imágenes disponibles públicamente de Tokio, Nueva York y San Francisco, los investigadores desarrollaron un método automatizado para calcular tales rutas, basadas en los sistemas de reconocimiento de objetos más populares que probablemente se usen en redes públicas.
Los tres cruces utilizados en el estudio: Shibuya Crossing en Tokio, Japón; Broadway, Nueva York; y el distrito de Castro, San Francisco. Fuente: https://arxiv.org/pdf/2501.15653
Por este método, es posible generar mapa de calor de confianza que demarcan áreas dentro de la alimentación de la cámara donde es menos probable que los peatones proporcionen un éxito de reconocimiento facial positivo:
A la derecha, vemos el mapa de calor de confianza generado por el método de los investigadores. Las áreas rojas indican poca confianza y una configuración de postura, pose de la cámara y otro factor que probablemente impidan el reconocimiento facial.
En teoría, dicho método podría instrumentarse en una aplicación consciente de la ubicación, o algún otro tipo de plataforma para difundir las rutas menos ‘amigables para el reconocimiento’ de A a B en cualquier ubicación calculada.
El nuevo artículo propone dicha metodología, titulada Técnica de mejora de la privacidad basada en la ubicación (L-Pet); También propone una contramedida titulada Umbral adaptativo basado en la ubicación (L-Bat), que esencialmente ejecuta exactamente las mismas rutinas, pero luego usa la información para reforzar y mejorar las medidas de vigilancia, en lugar de diseñar formas de evitar ser reconocidas; Y en muchos casos, tales mejoras no serían posibles sin una mayor inversión en la infraestructura de vigilancia.
Por lo tanto, el documento establece una posible guerra tecnológica de escalada entre aquellos que buscan optimizar sus rutas para evitar la detección y la capacidad de los sistemas de vigilancia para hacer uso completo de las tecnologías de reconocimiento facial.
Los métodos anteriores de detección de frustrar son menos elegantes que esto, y se centran en enfoques adversos, como los ataques TNT, y el uso de patrones impresos para confundir el algoritmo de detección.
Las cámaras de vigilancia automatizadas del trabajo de 2019: parches de adversario para atacar la detección de personas ‘demostraron un patrón impresionado adversario capaz de convencer a un sistema de reconocimiento de que no se detecta ninguna persona, lo que permite una especie de’ invisibilidad. Fuente: https://arxiv.org/pdf/1904.08653
Los investigadores detrás del nuevo artículo observan que su enfoque requiere menos preparación, sin necesidad de idear elementos portátiles adversos (ver imagen arriba).
El papel se titula Una técnica de mejora de la privacidad para evadir la detección por cámaras de video callejeras sin usar accesorios adversosy proviene de cinco investigadores en la Universidad Ben-Gurion de Negev y Fujitsu Limited.
Método y pruebas
De acuerdo con trabajos anteriores, como la máscara adversaria, el abogado, los parches adversos y varias otras salidas similares, los investigadores suponen que el ‘atacante’ peatonal sabe qué sistema de detección de objetos se está utilizando en la red de vigilancia. En realidad, esto no es una suposición irrazonable, debido a la adopción generalizada de sistemas de código abierto de última generación, como Yolo en sistemas de vigilancia de Cisco y Ultralíticos (actualmente la fuerza impulsora central en el desarrollo de Yolo).
El documento también supone que el peatón tiene acceso a una transmisión en vivo en Internet fijada en las ubicaciones que se calcularán, lo que, nuevamente, es una suposición razonable en la mayoría de los lugares que probablemente tengan una intensidad de cobertura.
Sitios como 511ny.org ofrecen acceso a muchas cámaras de vigilancia en el área de Nueva York. Fuente: https: //511ny.or
Además de esto, el peatón necesita acceso al método propuesto y a la escena en sí (es decir, los cruces y rutas en las que se establece una ruta ‘segura’).
Para desarrollar L-PET, los autores evaluaron el efecto del ángulo peatonal en relación con la cámara; el efecto de la altura de la cámara; el efecto de la distancia; y el efecto de la hora del día. Para obtener la verdad terrestre, fotografiaron a una persona en los ángulos 0 °, 45 °, 90 °, 135 °, 180 °, 225 °, 270 ° y 315 °.
Observaciones de la verdad en tierra realizadas por los investigadores.
Repitieron estas variaciones en tres alturas de cámara diferentes (0.6m, 1.8m, 2.4m), y con condiciones de iluminación variadas (mañana, tarde, noche y ‘laboratorio’).
Al alimentar este metraje a los detectores de objetos R-CNN y YOLOV3 más rápidos, descubrieron que la confianza del objeto depende de la agudeza del ángulo del peatón, la distancia del peatón, la altura de la cámara y las condiciones climáticas/de iluminación*.
Luego, los autores probaron una gama más amplia de detectores de objetos en el mismo escenario: R-CNN más rápido; Yolov3; SSD; DiffusionDet; y rtmdet.
Los autores afirman:
‘Encontramos que las cinco arquitecturas detector de objetos se ven afectadas por la posición del peatón y la luz ambiental. Además, encontramos que para tres de los cinco modelos (YOLOV3, SSD y RTMDET) el efecto persiste a través de todos los niveles de luz ambiental ”.
Para extender el alcance, los investigadores utilizaron imágenes tomadas de cámaras de tráfico disponibles públicamente en tres ubicaciones: Shibuya Crossing en Tokio, Broadway en Nueva York y el distrito de Castro en San Francisco.
Cada ubicación proporcionaba entre cinco y seis grabaciones, con aproximadamente cuatro horas de metraje por grabación. Para analizar el rendimiento de detección, se extrajo un cuadro cada dos segundos y se procesó utilizando un detector de objetos R-CNN más rápido. Para cada píxel en los cuadros obtenidos, el método estimó la confianza promedio de las cajas de detección de ‘persona’ que están presentes en ese píxel.
‘Encontramos que en las tres ubicaciones, la confianza del detector de objetos variaba según la ubicación de las personas en el marco. Por ejemplo, en las imágenes de cruce de Shibuya, hay grandes áreas de baja confianza más lejos de la cámara, así como más cerca de la cámara, donde un poste oscurece parcialmente a los peatones que pasan.
El método L-PET es esencialmente este procedimiento, posiblemente ‘armado’ para obtener un camino a través de un área urbana que es menos probable que el peatón sea reconocido con éxito.
Por el contrario, L-Bat sigue el mismo procedimiento, con la diferencia que actualiza los puntajes en el sistema de detección, creando un bucle de retroalimentación diseñado para obviar el enfoque L-PET y hacer que las ‘áreas ciegas’ del sistema sean más efectivas.
(Sin embargo, en términos prácticos, mejorar la cobertura basada en los mapas de calor obtenidos requeriría algo más que una actualización de la cámara en la posición esperada; según los criterios de prueba, incluida la ubicación, requeriría la instalación de cámaras adicionales para cubrir los descuidados Áreas: por lo tanto, se podría argumentar que el método L-Pet aumenta esta ‘Guerra Fría’ particular en un escenario muy costoso) de hecho)
La confianza de detección peatonal promedio para cada píxel, en diversos marcos de detectores, en el área observada de Castro Street, analizada en cinco videos. Cada video se grabó en diferentes condiciones de iluminación: amanecer, diurna, puesta de sol y dos configuraciones nocturnas distintas. Los resultados se presentan por separado para cada escenario de iluminación.
Habiendo convertido la representación de la matriz basada en píxeles en una representación de gráficos adecuada para la tarea, los investigadores adaptaron el algoritmo Dijkstra para calcular caminos óptimos para que los peatones naveguen a través de áreas con una detección de vigilancia reducida.
En lugar de encontrar la ruta más corta, el algoritmo se modificó para minimizar la confianza de la detección, tratando las regiones de alta confianza como áreas con mayor ‘costo’. Esta adaptación permitió al algoritmo identificar rutas que pasaban a través de puntos ciegos o zonas de baja detección, guiando efectivamente a los peatones a lo largo de caminos con una visibilidad reducida a los sistemas de vigilancia.
Una visualización que representa la transformación del mapa de calor de la escena de una matriz basada en píxeles en una representación basada en gráficos.
Los investigadores evaluaron el impacto del sistema L-Bat en la detección de peatones con un conjunto de datos construido a partir de las grabaciones de cuatro horas antes mencionadas del tráfico de peatones públicos. Para completar la colección, se procesó un cuadro cada dos segundos utilizando un detector de objetos SSD.
De cada cuadro, se seleccionó un cuadro delimitador que contenía una persona detectada como una muestra positiva, y se usó otra área aleatoria sin personas detectadas como muestra negativa. Estas muestras gemelas formaron un conjunto de datos para evaluar dos modelos R-CNN más rápidos, uno con L-Bat aplicado y otro sin.
El rendimiento de los modelos se evaluó verificando cuán precisamente identificaron muestras positivas y negativas: un cuadro delimitador que se superpone a una muestra positiva se consideró un verdadero positivo, mientras que un cuadro delimitador que se superpone a una muestra negativa se etiquetó como un falso positivo.
Las métricas utilizadas para determinar la confiabilidad de detección de L-Bat eran área bajo la curva (AUC); verdadera tasa positiva (TPR); tasa de falsos positivos (FPR); y verdadera confianza positiva promedio. Los investigadores afirman que el uso de L-Bat aumentó la confianza de la detección mientras mantiene una alta tasa positiva verdadera (aunque con un ligero aumento en los falsos positivos).
Para terminar, los autores señalan que el enfoque tiene algunas limitaciones. Una es que los mapas de calor generados por su método son específicos para una hora particular del día. Aunque no se exponen en él, esto indicaría que se necesitaría un enfoque mayor y de niveles múltiples para dar cuenta de la hora del día en una implementación más flexible.
También observan que los mapas de calor no se transferirán a diferentes arquitecturas de modelos y están vinculados a un modelo de detector de objetos específico. Dado que el trabajo propuesto es esencialmente una prueba de concepto, más arquitecturas hábiles podrían, presumiblemente también, también desarrollarse para remediar esta deuda técnica.
Conclusión
Cualquier nuevo método de ataque para el cual la solución está ‘pagar por nuevas cámaras de vigilancia’ tiene cierta ventaja, ya que la expansión de las redes de cámaras cívicas en áreas altamente realizadas puede ser políticamente desafiante, además de representar un gasto cívico notable que generalmente necesitará un mandato de votantes .
Quizás la pregunta más grande planteada por el trabajo es ‘¿Los sistemas de vigilancia de fuente cerrada aprovechan los marcos SOTA de código abierto como YOLO?’. Esto es, por supuesto, imposible de saber, ya que los creadores de los sistemas patentados que alimentan tantas redes de cámaras estatales y cívicas (al menos en los EE. UU.) Argumentarían que revelar dicho uso podría abrirlas para atacar.
No obstante, la migración de la TI del gobierno y el código patentado interno al código de origen global y abierto sugeriría que cualquier persona que pruebe la afirmación de los autores con (por ejemplo) Yolo podría alcanzar el premio mayor de inmediato.
* Normalmente incluiría los resultados de la tabla relacionados cuando se proporcionan en el documento, pero en este caso la complejidad de las tablas del documento los hace descuidados para el lector casual y, por lo tanto, un resumen es más útil.
Publicado por primera vez el martes 28 de enero de 2025