Protegiendo las indicaciones de las filtraciones de datos de LLM

Opinión Un interesante sumisión de IBM Neurips 2024 de finales de 2024 resurgió en ARXIV la semana pasada. Propone un sistema que puede intervenir automáticamente para proteger a los usuarios de enviar información personal o confidencial en un mensaje cuando tienen una conversación con un modelo de idioma grande (LLM) como ChatGPT.

Ejemplos de maqueta utilizados en un estudio de usuario para determinar las formas en que las personas preferirían interactuar con un servicio de intervención inmediata. Fuente: https://arxiv.org/pdf/2502.18509

Los simulacros que se muestran anteriormente fueron empleados por los investigadores de IBM en un estudio para probar la fricción potencial del usuario a este tipo de ‘interferencia’.

Aunque se dan detalles escasos sobre la implementación de la GUI, podemos suponer que dicha funcionalidad podría incorporarse a un complemento de navegador que se comunica con un marco LLM local ‘Firewall’; O que se podría crear una aplicación que puede conectarse directamente a (por ejemplo) la API de OpenAI, recreando efectivamente el programa independiente descargable de OpenAI para ChatGPT, pero con salvaguardas adicionales.

Dicho esto, el chatgpt en sí mismo automáticamente autocensora las respuestas a las indicaciones que percibe que contienen información crítica, como los detalles bancarios:

ChatGPT se niega a interactuar con las indicaciones que contienen información de seguridad crítica percibida, como los datos bancarios (los detalles en el mensaje anterior son ficticios y no funcionales). Fuente: https://chatgpt.com/

Sin embargo, el chatGPT es mucho más tolerante con respecto a los diferentes tipos de información personal, incluso si difundir dicha información de alguna manera podría no ser en el mejor interés del usuario (en este caso quizás por varias razones relacionadas con el trabajo y la divulgación):

El ejemplo anterior es ficticio, pero ChatGPT no duda en entablar una conversación sobre el usuario sobre un tema sensible que constituye un riesgo potencial de reputación o ganancias (el ejemplo anterior es totalmente ficticio).

En el caso anterior, podría haber sido mejor escribir: “¿Cuál es el significado de un diagnóstico de leucemia sobre la capacidad de una persona para escribir y sobre su movilidad?”

El proyecto IBM identifica y reinterpreta tales solicitudes de una postura ‘personal’ a una ‘genérica’.

Esquema para el sistema IBM, que utiliza LLM locales o heurísticas basadas en PNL para identificar material sensible en posibles indicaciones.

Esto supone que el material reunido por las LLM en línea, en esta etapa naciente de la entusiasta adopción del chat AI del público, nunca se alimentará a modelos posteriores ni a los marcos publicitarios posteriores que podrían explotar consultas de búsqueda basadas en los usuarios para proporcionar publicidad potencial dirigida.

Aunque ahora no se sabe que tal sistema o arreglo exista, tampoco tal funcionalidad todavía estaba disponible en los amanecer de la adopción de Internet a principios de la década de 1990; Desde entonces, el intercambio cruzado de información para alimentar la publicidad personalizada ha llevado a diversos escándalos, así como a la paranoia.

Por lo tanto, la historia sugiere que sería mejor desinfectar entradas de inmediato LLM ahora, antes de que dichos datos se acumulen en el volumen, y antes de que nuestros envíos basados en LLM terminen en bases de datos cíclicas permanentes y/o modelos, u otras estructuras y esquemas basados en información.

¿Acuérdate de mí?

Un factor con un soporte contra el uso de indicaciones de LLM ‘genéricas’ o desinfectadas es que, francamente, la facilidad para personalizar un costoso LLM de API como chatGPT es bastante convincente, al menos en el estado actual de la técnica, pero esto puede implicar la exposición a largo plazo de la información privada.

Leer ¿Cómo afectan los datos sintéticos las alucinaciones de IA?

Con frecuencia le pido a ChatGPT que me ayude a formular scripts de Windows PowerShell y archivos BAT para automatizar los procesos, así como en otros asuntos técnicos. Con este fin, me parece útil que el sistema memorice permanentemente detalles sobre el hardware que tengo disponible; mis competencias de habilidades técnicas existentes (o falta de ellas); y varios otros factores ambientales y reglas personalizadas:

ChatGPT permite a un usuario desarrollar un ‘caché’ de recuerdos que se aplicarán cuando el sistema considera las respuestas a futuras indicaciones.

Inevitablemente, esto mantiene información sobre mí almacenada en servidores externos, sujetos a términos y condiciones que pueden evolucionar con el tiempo, sin ninguna garantía de que OpenAi (aunque podría ser cualquier otro proveedor importante de LLM) respetará los términos que establecen.

En general, sin embargo, la capacidad de construir un caché de recuerdos en ChatGPT es más útil debido a la ventana de atención limitada de LLM en general; Sin incrustaciones a largo plazo (personalizados), el usuario siente, frustrantemente, que está conversando con una entidad que sufre de amnesia anterógrada.

Es difícil decir si los modelos más nuevos eventualmente serán adecuados para proporcionar respuestas útiles sin la necesidad de almacenar recuerdos o crear GPT personalizados que se almacenan en línea.

Amnesia temporal

Aunque uno puede hacer que las conversaciones de ChatGPT “temporales” sean útiles tener el historial de chat como referencia que se pueda destilarse, cuando el tiempo lo permite, en un registro local más coherente, tal vez en una plataforma de toma de notas; Pero en cualquier caso, no podemos saber exactamente qué sucede con estos chats ‘descartados’ (aunque OpenAI afirma que no se utilizarán para el entrenamiento, no afirma que estén destruidos), según la infraestructura de ChatGPT. Todo lo que sabemos es que los chats ya no aparecen en nuestra historia cuando se encienden ‘chats temporales’ en ChatGPT.

Varias controversias recientes indican que los proveedores basados en API, como OpenAI, no deben quedarse necesariamente a cargo de proteger la privacidad del usuario, incluido el descubrimiento de la memorización emergente, lo que significa que los LLM más grandes tienen más probabilidades usar.

Piensa diferente

Esta tensión entre la utilidad extrema y el riesgo potencial manifiesto de LLM necesitará algunas soluciones inventivas, y la propuesta de IBM parece ser una plantilla básica interesante en esta línea.

Tres reformulaciones basadas en IBM que equilibran la utilidad contra la privacidad de los datos. En la banda más baja (rosa), vemos un aviso que está más allá de la capacidad del sistema para desinfectar de una manera significativa.

El enfoque de IBM intercepta los paquetes salientes a un LLM a nivel de red y los reescribe según sea necesario antes de que se pueda enviar el original. Las integraciones de GUI bastante más elaboradas vistas al comienzo del artículo son solo ilustrativas de dónde podría ir dicho enfoque, si se desarrolla.

Por supuesto, sin una agencia suficiente, el usuario puede no entender que está recibiendo una respuesta a una reformulación ligeramente alterada de su presentación original. Esta falta de transparencia es equivalente a la firewall de un sistema operativo que bloquea el acceso a un sitio web o servicio sin informar al usuario, quien luego puede buscar erróneamente otras causas del problema.

Indica como pasivos de seguridad

La perspectiva de la ‘intervención rápida’ analogiza bien a Windows OS Security, que ha evolucionado de un mosaico de productos comerciales (opcionalmente instalados) en la década de 1990 a un conjunto de herramientas de defensa de redes no opcionales y rígidamente forzadas que vienen como estándar con una instalación de Windows, y que requieren un esfuerzo para apagar o desinsensificar.

Leer El aprendizaje de refuerzo se encuentra con la cadena de pensamiento: transformando LLM en agentes de razonamiento autónomo

Si la desinfección rápida evoluciona a medida que los firewalls de la red lo hicieron en los últimos 30 años, la propuesta del artículo de IBM podría servir como un plan para el futuro: implementar un LLM totalmente local en la máquina del usuario para filtrar las indicaciones salientes dirigidas a las API LLM conocidas. Naturalmente, este sistema necesitaría integrar marcos y notificaciones de la GUI, dando al control de los usuarios, a menos que las políticas administrativas lo anulen, como se produce a menudo en los entornos empresariales.

Los investigadores realizaron un análisis de una versión de código abierto del conjunto de datos ShareGPT para comprender con qué frecuencia se viola la privacidad contextual en los escenarios del mundo real.

Llama-3.1-405B-Instructo se empleó como un modelo de “juez” para detectar violaciones de integridad contextual. A partir de un gran conjunto de conversaciones, se analizó un subconjunto de conversaciones de vuelta única en función de la longitud. El modelo de juez luego evaluó el contexto, la información confidencial y la necesidad de completar la tarea, lo que lleva a la identificación de conversaciones que contienen posibles violaciones de integridad contextual.

Un subconjunto más pequeño de estas conversaciones, que demostró violaciones de privacidad contextuales definitivas, se analizaron más a fondo.

El marco en sí se implementó utilizando modelos más pequeños que los agentes de chat típicos como ChatGPT, para habilitar la implementación local a través de Ollama.

Esquema para el sistema de intervención inmediata.

Los tres LLM evaluados fueron MIXTRAL-8X7B-INSTRUCT-V0.1; Llama-3.1-8b-Instructo; y Deepseek-R1-Distill-Llama-8B.

Las indicaciones del usuario son procesadas por el marco en tres etapas: Identificación de contexto; Clasificación de información confidencial; y reformulación.

Se implementaron dos enfoques para la clasificación de información confidencial: dinámica y estructurado Clasificación: la clasificación dinámica determina los detalles esenciales basados en su uso dentro de una conversación específica; La clasificación estructurada permite la especificación de una lista predefinida de atributos sensibles que siempre se consideran no esenciales. El modelo reformula el aviso si detecta detalles sensibles no esenciales al eliminarlos o volver a redactarlos para minimizar los riesgos de privacidad mientras mantiene la usabilidad.

Reglas de inicio

Aunque la clasificación estructurada como concepto no está bien ilustrada en el documento de IBM, es más similar al método de ‘definiciones de datos privados’ en la iniciativa de indicaciones privadas, que proporciona un programa independiente descargable que puede reescribir indicaciones, aunque sin la capacidad de intervenir directamente en el nivel de red, como lo hace el enfoque de IBM (en su lugar, el usuario debe copiar y pegar las indicaciones modificadas).

El ejecutable de indicaciones privadas permite una lista de sustituciones alternativas para el texto de entrada de usuario.

En la imagen de arriba, podemos ver que el usuario privado de indicaciones puede programar sustituciones automatizadas para instancias de información confidencial. En ambos casos, para las indicaciones privadas y el método IBM, parece poco probable que un usuario con suficiente presencia de mente y visión personal para curar dicha lista realmente necesitaría este producto, aunque podría construirse con el tiempo como incidentes.

En un rol de administrador, la clasificación estructurada podría funcionar como un firewall impuesto o una red de censores para los empleados; Y en una red doméstica podría, con algunos ajustes difíciles, convertirse en un filtro de red nacional para todos los usuarios de la red; Pero en última instancia, este método es posiblemente redundante, ya que un usuario que podría configurar esto correctamente también podría autocensor de manera efectiva en primer lugar.

Leer AI no necesariamente da mejores respuestas si eres educado

Opinión de Chatgpt

Desde que ChatGPT lanzó recientemente su herramienta de investigación profunda para usuarios pagados, utilicé esta instalación para pedirle a ChatGPT que revisara la literatura relacionada y me diera una versión ‘cínica’ del artículo de IBM. Recibí la respuesta más defensiva y burlona que el sistema ha dado cuando se me pidió que evalúe o analicara una nueva publicación:

CHATGPT-4O tiene una baja opinión del proyecto IBM.

“Si los usuarios no confían en OpenAi, Google o Anthrope para manejar sus datos de manera responsable”, Chatgpt postula. ‘¿Por qué confiarían en una capa de software de terceros que se encuentra entre ellos y la IA? El intermediario en sí se convierte en un nuevo punto de falla, lo que puede registrar, mal manejo o incluso filtrar datos antes de que llegue a la LLM. No resuelve nada si solo crea otra entidad para explotar los datos del usuario ‘.

Esta objeción parece egoísta y no aplicable, dada la historia histórica de proyectos de código abierto que realmente benefician a los usuarios finales a través de los esfuerzos concertados a largo plazo de desarrolladores y contribuyentes de la comunidad; y dado el creciente potencial de los dispositivos móviles para ejecutar, e incluso entrenar, LLMS livianos. Ciertamente, en este caso, el caso de uso no es terriblemente exigente.

A continuación, ChatGPT se pierde con confianza el punto de que un LLM liviano proporcione una supervisión de los aportes hacia un LLM comercial que no podría ejecutarse en una máquina local (porque el LLM es demasiado grande, y permitir que el acceso local sea demasiado riesgoso para la compañía que lo hace):

‘El filtrado de privacidad efectivo requiere comprender la entrada antes de decidir qué despojar. Si un intermediario es lo suficientemente inteligente como para reconocer datos confidenciales (nombres, direcciones, detalles financieros), entonces ya está procesando y analizando esos datos, lo que significa que tiene que almacenar o examinar lo que se supone que debe borrar.

‘Esto introduce una paradoja: a) un filtro tonto (sustitución básica de regex) será ineficaz y perderá riesgos de privacidad sutiles. b) Un filtro inteligente (rewriter con motor LLM) tiene que procesar la entrada completa, por lo que es tan peligroso como el LLM original.

“Si confía en el intermediario lo suficiente como para leer y reescribir sus aportes, ¿por qué no confiar en el LLM en sí?”

La respuesta a la pregunta final aquí es que el LLM local está destinado a estar completamente del lado del usuario e inevitablemente de código abierto, con una necesidad mínima o cero de acceso a la red. Una versión comercial equivalente, por bien intencionada desde el principio, eventualmente sería vulnerable a los cambios y cambios corporativos a los términos de servicio, mientras que una licencia de código abierto adecuada evitaría este tipo de ‘corrupción inevitable’.

ChatGPT argumentó además que la propuesta de IBM ‘rompe la intención del usuario’, ya que podría reinterpretar una solicitud en una alternativa que afecta su utilidad. Sin embargo, este es un problema mucho más amplio en la rápida desinfección, y no es específico de este caso de uso en particular.

Al finalizar (ignorar su sugerencia de usar LLMS locales ‘en su lugar’, que es exactamente lo que el artículo de IBM realmente propone), ChatGPT opinó que el método IBM representa una barrera para la adopción debido a la ‘fricción del usuario’ de implementar métodos de advertencia y edición en un chat.

Aquí, Chatgpt puede tener razón; Pero si se produce una presión significativa debido a otros incidentes públicos, o si las ganancias en una zona geográfica están amenazadas por la creciente regulación (y la compañía se niega a abandonar la región afectada por completo), la historia de la tecnología del consumidor sugiere que las salvaguardas eventualmente ya no serán opcionales de todos modos.

Conclusión

No podemos esperar de manera realista que Operai implemente salvaguardas del tipo que se proponen en el documento de IBM, y en el concepto central detrás de él; al menos no efectivamente.

Y ciertamente no a nivel mundial; Así como Apple bloquea ciertas características de iPhone en Europa, y LinkedIn tiene diferentes reglas para explotar los datos de sus usuarios en diferentes países, es razonable sugerir que cualquier compañía de IA no se adhiera a los términos y condiciones más rentables que son tolerables a cualquier nación en particular en la que opera, en cada caso, a expensas del derecho del usuario a la privacidad de datos, según sea necesario.

Publicado por primera vez el jueves 27 de febrero de 2025

Actualizado el jueves 27 de febrero de 2025 15:47:11 debido a un enlace incorrecto relacionado con Apple-MA

Etiquetas
Noticias de IA

Protegiendo las indicaciones de las filtraciones de datos de LLM

¿Acuérdate de mí?

Amnesia temporal

Piensa diferente

Indica como pasivos de seguridad

Reglas de inicio

Opinión de Chatgpt

Conclusión

LEAVE A REPLY Cancel reply

Recomendar noticias

Tottenham tiene un posible plan de transferencia para el utilitario francés,...

El West Ham ahora busca fichar al “sensacional” maestro de £...

Newcastle alinea el movimiento de la estrella francesa como reemplazo de...

El Liverpool investiga para fichar a Antoine Semenyo por 70 millones...

Los más populares

Leeds United hace contacto con la transferencia del centrocampista, pero solo se unirá en una...

Envoltura de pollo de búfalo

11 ejercicios de pilates para perder peso y construir un núcleo fuerte

Agregue un giro italiano a sus caminatas nocturnas con la ‘Passeggiata’

West Ham United ‘Come ADDENTE’ para firmar el flop de Chelsea

Sobre nosotras

Temas

Últimas noticias

Tottenham tiene un posible plan de transferencia para el utilitario francés,...

El West Ham ahora busca fichar al “sensacional” maestro de £...

Newcastle alinea el movimiento de la estrella francesa como reemplazo de...

Noticias populares

Leeds United hace contacto con la transferencia del centrocampista, pero solo...

Envoltura de pollo de búfalo

11 ejercicios de pilates para perder peso y construir un núcleo...