Casi el 80% de los conjuntos de datos de capacitación pueden ser un peligro legal para Enterprise AI

-

spot_img

Un artículo reciente de LG AI Research sugiere que los conjuntos de datos supuestamente “abiertos” utilizados para capacitar a los modelos de IA pueden estar ofreciendo una falsa sensación de seguridad, descubriendo que casi cuatro de cada cinco conjuntos de datos de IA etiquetados como “comercialmente utilizables” en realidad contienen riesgos legales ocultos.

Dichos riesgos van desde la inclusión de material con derechos de autor no revelado hasta términos de licencia restrictivos enterrados en las dependencias de un conjunto de datos. Si los hallazgos del documento son precisos, las empresas que dependen de los conjuntos de datos públicos pueden necesitar reconsiderar sus tuberías de IA actuales o arriesgar la exposición legal aguas abajo.

Los investigadores proponen una solución radical y potencialmente controvertida: agentes de cumplimiento basados ​​en IA capaces de escanear y auditar historias de datos de datos más rápido y más precisa que los abogados humanos.

El documento dice:

‘Este documento aboga por el riesgo legal de los conjuntos de datos de capacitación de IA no se puede determinar únicamente mediante la revisión de los términos de licencia a nivel de superficie; Un análisis exhaustivo y de extremo a extremo de la redistribución del conjunto de datos es esencial para garantizar el cumplimiento.

‘Dado que dicho análisis está más allá de las capacidades humanas debido a su complejidad y escala, los agentes de IA pueden cerrar esta brecha realizándolo con mayor velocidad y precisión. Sin automatización, los riesgos legales críticos siguen siendo en gran medida sin examinar, lo que pone en peligro el desarrollo ético de la IA y la adherencia regulatoria.

“Instamos a la comunidad de investigación de IA a reconocer el análisis legal de extremo a extremo como un requisito fundamental y a adoptar enfoques impulsados ​​por la IA como la ruta viable hacia el cumplimiento de conjuntos de datos escalables”.

Al examinar 2.852 conjuntos de datos populares que parecían utilizables comercialmente en función de sus licencias individuales, el sistema automatizado de los investigadores encontró que solo 605 (alrededor del 21%) eran legalmente seguros para la comercialización una vez que se rastrearon todos sus componentes y dependencias

El nuevo artículo se titula No confíe en las licencias que ve: el cumplimiento del conjunto de datos requiere el rastreo de ciclo de vida a gran escala de IAy proviene de ocho investigadores en la investigación de LG AI.

Derechos y errores

Los autores destacan los desafíos que enfrentan las empresas que avanzan con el desarrollo de la IA en un panorama legal cada vez más incierto, ya que la antigua mentalidad académica de ‘uso justo’ en torno a la capacitación en conjunto de datos da paso a un entorno fracturado donde las protecciones legales no están claras y el puerto seguro ya no está garantizado.

Como señaló recientemente una publicación, las empresas se están volviendo cada vez más a la defensiva sobre las fuentes de sus datos de capacitación. El autor Adam Buick comenta*:

‘(Mientras) Openai reveló las principales fuentes de datos para GPT-3, el documento que presenta GPT-4 reveló Solo que los datos sobre los cuales se había capacitado al modelo era una mezcla de “datos disponibles públicamente (como datos de Internet) y datos con licencia de proveedores de terceros.

‘Las motivaciones detrás de este alejamiento de la transparencia no han sido articuladas en ningún detalle particular por los desarrolladores de IA, quienes en muchos casos no han dado ninguna explicación en absoluto.

“Por su parte, Operai justificó su decisión de no divulgar más detalles sobre GPT-4 sobre la base de las preocupaciones con respecto a ‘el panorama competitivo y las implicaciones de seguridad de los modelos a gran escala’, sin más explicación dentro del informe ‘.

La transparencia puede ser un término falso, o simplemente uno equivocado; Por ejemplo, el modelo generativo de Firefly Firefly de Adobe, capacitado en los datos de stock que Adobe tenía los derechos de explotar, supuestamente ofrecía a los clientes reasignos sobre la legalidad de su uso del sistema. Más tarde, surgió alguna evidencia de que el bote de datos de Firefly se había ‘enriquecido’ con datos potencialmente con derechos de autor de otras plataformas.

Leer  Por qué los modelos de idiomas se 'se pierden' en la conversación

Como discutimos a principios de esta semana, existen iniciativas crecientes diseñadas para garantizar el cumplimiento de la licencia en conjuntos de datos, incluida una que solo raspará videos de YouTube con licencias de Commons creative flexibles.

El problema es que las licencias en sí mismas pueden ser erróneas o otorgadas por error, como parece indicar la nueva investigación.

Examinar conjuntos de datos de código abierto

Es difícil desarrollar un sistema de evaluación como el nexo de los autores cuando el contexto está cambiando constantemente. Por lo tanto, el documento establece que el sistema Marco de cumplimiento de datos de Nexus se basa en “diversos precedentes y motivos legales en este momento”.

Nexus utiliza un agente impulsado por IA llamado Autocompliación Para cumplimiento de datos automatizado. Autocompliance se compone de tres módulos clave: un módulo de navegación para la exploración web; un módulo de respuesta (QA) para la extracción de información; y un módulo de puntuación para la evaluación de riesgos legales.

Autocompliance comienza con una página web proporcionada por el usuario. La IA extrae detalles clave, busca recursos relacionados, identifica los términos y dependencias de la licencia y asigna un puntaje de riesgo legal. Fuente: https://arxiv.org/pdf/2503.02784

Estos módulos funcionan con modelos AI ajustados, incluido el modelo EXAOne-3.5-32b-Instructo, entrenado en datos sintéticos y marcados con humanos. Autocompliance también utiliza una base de datos para los resultados de almacenamiento en caché para mejorar la eficiencia.

Autocompliance comienza con una URL de conjunto de datos proporcionada por el usuario y la trata como la entidad raíz, buscando sus términos y dependencias de licencia, y rastreando recursivamente conjuntos de datos vinculados para crear un gráfico de dependencia de la licencia. Una vez que se asignan todas las conexiones, calcula los puntajes de cumplimiento y asigna clasificaciones de riesgo.

El marco de cumplimiento de datos descrito en el nuevo trabajo identifica varios Tipos de entidades involucrados en el ciclo de vida de datos, incluido conjuntos de datosque forman la entrada central para el entrenamiento de IA; Software de procesamiento de datos y modelos de IAque se utilizan para transformar y utilizar los datos; y Proveedores de servicios de plataformaque facilitan el manejo de datos.

Leer  Tres debates que enfrenta la industria de la IA: inteligencia, progreso y seguridad

El sistema evalúa de manera integral los riesgos legales al considerar estas diversas entidades y sus interdependencias, yendo más allá de la evaluación de rutina de las licencias de conjuntos de datos para incluir un ecosistema más amplio de los componentes involucrados en el desarrollo de la IA.

El cumplimiento de los datos evalúa el riesgo legal en todo el ciclo de vida de datos. Asigna puntajes basados ​​en detalles del conjunto de datos y en 14 criterios, clasificando entidades individuales y agregando el riesgo en todas las dependencias.

Entrenamiento y métricas

Los autores extrajeron las URL de los 1,000 conjuntos de datos más descargados en la cara abrazada, submuestreando al azar 216 elementos para constituir un conjunto de pruebas.

El modelo ExaOne se ajustó en el conjunto de datos personalizado de los autores, con el módulo de navegación y el módulo de respuesta de preguntas utilizando datos sintéticos, y el módulo de puntuación que usa datos marcados con humanos.

Las etiquetas de la verdad en tierra fueron creadas por cinco expertos legales capacitados durante al menos 31 horas en tareas similares. Estos expertos humanos identificaron manualmente dependencias y términos de licencia para 216 casos de prueba, luego agregaron y refinaron sus hallazgos a través de la discusión.

Con el sistema de autocompliación entrenado y calibrado por humanos probado contra ChatGPT-4O y Perplexity Pro, se descubrieron en particular más dependencias dentro de los términos de la licencia:

Precisión en la identificación de dependencias y términos de licencia para 216 conjuntos de datos de evaluación.

El documento dice:

‘El autocompliación supera significativamente a todos los demás agentes y expertos humanos, logrando una precisión de 81.04% y 95.83% en cada tarea. En contraste, los chatgpt-4o y la perplejity pro muestran una precisión relativamente baja para las tareas de origen y licencia, respectivamente.

“Estos resultados resaltan el rendimiento superior del autocompliación, lo que demuestra su eficacia en el manejo de ambas tareas con una precisión notable, al tiempo que indica una brecha sustancial de rendimiento entre los modelos basados ​​en IA y el experto humano en estos dominios”.

En términos de eficiencia, el enfoque de autocompliación tardó solo 53.1 segundos en funcionar, en contraste con 2,418 segundos para una evaluación humana equivalente en las mismas tareas.

Además, la ejecución de la evaluación costó $ 0.29 USD, en comparación con $ 207 USD para los expertos humanos. Sin embargo, debe tenerse en cuenta que esto se basa en alquilar un nodo GCP A2-Megagpu-16GPU mensualmente a una tasa de $ 14,225 por mes, lo que significa que este tipo de rentabilidad está relacionada principalmente con una operación a gran escala.

Investigación del conjunto de datos

Para el análisis, los investigadores seleccionaron 3,612 conjuntos de datos que combinaban los 3.000 conjuntos de datos más descargados de la cara de abrazo con 612 conjuntos de datos de la iniciativa de procedencia de datos 2023.

Leer  Claudior Coelho, director de IA de Zscaler – Serie de entrevistas

El documento dice:

‘A partir de las 3.612 entidades objetivo, identificamos un total de 17.429 entidades únicas, donde 13,817 entidades aparecieron como las dependencias directas o indirectas de las entidades objetivo.

‘Para nuestro análisis empírico, consideramos que una entidad y su gráfico de dependencia de la licencia tienen una estructura de una sola capa si la entidad no tiene ninguna dependencia y una estructura de múltiples capas si tiene una o más dependencias.

‘De los 3.612 conjuntos de datos objetivo, 2,086 (57.8%) tenían estructuras de múltiples capas, mientras que los otros 1.526 (42.2%) tenían estructuras de una sola capa sin dependencias’.

Los conjuntos de datos con derechos de autor solo se pueden redistribuir con autoridad legal, que puede provenir de una licencia, excepciones de la ley de derechos de autor o términos del contrato. La redistribución no autorizada puede conducir a consecuencias legales, incluida la infracción de derechos de autor o las violaciones del contrato. Por lo tanto, la identificación clara del incumplimiento es esencial.

Violaciones de distribución encontradas bajo el criterio citado del artículo 4.4. de cumplimiento de datos.

El estudio encontró 9,905 casos de redistribución de conjuntos de datos no conformes, divididos en dos categorías: 83.5% fueron prohibidos explícitamente bajo términos de licencia, lo que hace que la redistribución sea una clara violación legal; y el 16.5% involucró conjuntos de datos con condiciones de licencia conflictivas, donde se permitió la redistribución en teoría, pero que no cumplió con los términos requeridos, creando riesgos legales aguas abajo.

Los autores admiten que los criterios de riesgo propuestos en Nexus no son universales y pueden variar según la jurisdicción y la aplicación de IA, y que las mejoras futuras deberían centrarse en adaptarse a las regulaciones globales cambiantes mientras refinan la revisión legal impulsada por la IA.

Conclusión

Este es un documento prolix y en gran parte hostil, pero aborda quizás el factor de retraso más grande en la adopción actual de la IA de la industria, la posibilidad de que aparentemente los datos “abiertos” serán reclamados más tarde por varias entidades, individuos y organizaciones.

Bajo DMCA, las violaciones pueden implicar legalmente multas masivas en un por lo que base. Cuando las violaciones pueden llegar a millones, como en los casos descubiertos por los investigadores, la responsabilidad legal potencial es realmente significativa.

Además, las empresas que se pueden demostrar que se han beneficiado de los datos aguas arriba no pueden (como de costumbre) la ignorancia como una excusa, al menos en el mercado de los Estados Unidos influyente. Actualmente tampoco tienen herramientas realistas para penetrar las implicaciones laberínticas enterradas en los acuerdos de licencia de conjunto de datos supuestamente abiertos.

El problema en la formulación de un sistema como Nexus es que sería lo suficientemente desafiante como para calibrarlo por estado dentro de los EE. UU., O una base por nación dentro de la UE; La posibilidad de crear un marco verdaderamente global (una especie de ‘interpol para la procedencia del conjunto de datos’) se ve socavada no solo por los motivos conflictivos de los diversos gobiernos involucrados, sino por el hecho de que tanto estos gobiernos como el estado de sus leyes actuales a este respecto están cambiando constantemente.

* Mi sustitución de hipervínculos por las citas de los autores.
Se prescriben seis tipos en el documento, pero los dos finales no están definidos.

Publicado por primera vez el viernes 7 de marzo de 2025

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares