¿Por qué los chatbots de IA son a menudo sycofánticos?

-

spot_img

¿Te estás imaginando cosas, o los chatbots de inteligencia artificial (IA) parecen demasiado ansiosos por estar de acuerdo contigo? Ya sea que te diga que tu idea cuestionable es “brillante” o te respalda en algo que podría ser falso, este comportamiento está atrayendo la atención mundial.

Recientemente, Operai fue noticia después de que los usuarios notaron que ChatGPT estaba actuando demasiado como un hombre sí. La actualización de su Modelo 4O hizo que el bot tan educado y afirmativo estuviera dispuesto a decir cualquier cosa para mantenerte feliz, incluso si estaba parcial.

¿Por qué estos sistemas se inclinan hacia la adulación y qué los hace hacer eco de sus opiniones? Es importante entender preguntas como estas para que pueda usar IA generativa de manera más segura y agradable.

La actualización de chatgpt que fue demasiado lejos

A principios de 2025, los usuarios de ChatGPT notaron algo extraño sobre el modelo de idioma grande (LLM). Siempre había sido amigable, pero ahora era demasiado agradable. Comenzó a estar de acuerdo con casi todo, independientemente de cuán extraña o incorrecta fuera una declaración. Se podría decir que no está de acuerdo con algo cierto, y respondería con la misma opinión.

Este cambio ocurrió después de una actualización del sistema destinada a hacer que ChatGPT sea más útil y conversacional. Sin embargo, en un intento por impulsar la satisfacción del usuario, el modelo comenzó a destacar demasiado en ser demasiado compatible. En lugar de ofrecer respuestas equilibradas o objetivas, se inclinó en la validación.

Cuando los usuarios comenzaron a compartir sus experiencias de respuestas demasiado sycofánticas en línea, la reacción se encendió rápidamente. Los comentaristas de AI lo calificaron como una falla en el ajuste del modelo, y OpenAI respondió retrocediendo partes de la actualización para solucionar el problema.

En una publicación pública, la compañía admitió que el GPT-4O es Sycophantish y prometieron ajustes para reducir el comportamiento. Fue un recordatorio de que las buenas intenciones en el diseño de IA a veces pueden ir de lado, y que los usuarios se dan cuenta rápidamente cuando comienza a ser auténtico.

¿Por qué los chatbots de IA se besan a los usuarios?

La sycophancy es algo que los investigadores han observado en muchos asistentes de IA. Un estudio publicado en ARXIV encontró que la sycophancy es un patrón generalizado. El análisis reveló que Modelos de IA de cinco proveedores de nivel superior De acuerdo con los usuarios de manera consistente, incluso cuando conducen a respuestas incorrectas. Estos sistemas tienden a admitir sus errores cuando los cuestiona, lo que resulta en retroalimentación sesgada e errores imitados.

Leer  El generador de imágenes de Grok causa una inmensa controversia, pero ¿qué tan peligroso es realmente?

Estos chatbots están entrenados para acompañarlo incluso cuando te equivocas. ¿Por qué sucede esto? La respuesta corta es que los desarrolladores hicieron IA para que pueda ser útil. Sin embargo, esa ayuda se basa en la capacitación que prioriza la retroalimentación positiva de los usuarios. A través de un método llamado aprendizaje de refuerzo con retroalimentación humana (RLHF), Los modelos aprenden a maximizar las respuestas que los humanos encuentran satisfactorio. El problema es que satisfacer no siempre significa preciso.

Cuando un modelo de IA siente al usuario que busca un cierto tipo de respuesta, tiende a errar del lado de estar de acuerdo. Eso puede significar afirmar su opinión o apoyar las afirmaciones falsas para mantener la conversación fluyendo.

También hay un efecto de reflejo en el juego. Los modelos de IA reflejan el tono, la estructura y la lógica de la entrada que reciben. Si suena seguro, es más probable que el bot también suene asegurado. Sin embargo, ese no es el modelo pensando que tienes razón. Más bien, está haciendo su trabajo para mantener las cosas amigables y aparentemente útiles.

Si bien puede parecer que su chatbot es un sistema de soporte, podría ser un reflejo de cómo está entrenado para complacer en lugar de retroceder.

Los problemas con la IA silófántica

Puede parecer inofensivo cuando un chatbot se ajusta a todo lo que dice. Sin embargo, el comportamiento de la IA sycofántico tiene inconvenientes, especialmente a medida que estos sistemas se vuelven más utilizados.

La información errónea obtiene un pase

La precisión es uno de los mayores problemas. Cuando estos Smartbots afirman afirmaciones falsas o sesgadas, corren el riesgo de reforzar los malentendidos en lugar de corregirlos. Esto se vuelve especialmente peligroso al buscar orientación sobre temas graves como la salud, las finanzas o los eventos actuales. Si el LLM prioriza ser agradable sobre la honestidad, las personas pueden irse con la información incorrecta y difundirla.

Leer  La FTC cuestiona a Reddit sobre las licencias de datos antes de su IPO

Deja poco espacio para el pensamiento crítico

Parte de lo que hace que la IA sea atractiva es su potencial para actuar como un compañero de pensamiento: desafiar sus suposiciones o ayudarlo a aprender algo nuevo. Sin embargo, cuando un chatbot siempre está de acuerdo, tienes poco espacio para pensar. Como refleja sus ideas con el tiempo, puede abordar el pensamiento crítico en lugar de afilarlo.

Ignorar vidas humanas

El comportamiento sycofántico es más que una molestia, es potencialmente peligroso. Si le pide asesoramiento médico a un asistente de IA y responde con un acuerdo reconfortante en lugar de orientación basada en evidencia, el resultado podría ser muy perjudicial.

Por ejemplo, suponga que navega a una plataforma de consulta para usar un bot médico impulsado por IA. Después de describir los síntomas y lo que sospecha que está sucediendo, el bot puede validar su autodiagnóstico o minimizar su condición. Esto puede conducir a un diagnóstico erróneo o un tratamiento retrasado, contribuyendo a consecuencias graves.

Más usuarios y acceso abierto hacen que sea más difícil de controlar

A medida que estas plataformas se integran más en la vida diaria, el alcance de estos riesgos continúa creciendo. Chatgpt solo ahora atiende a mil millones de usuarios Cada semana, los prejuicios y los patrones demasiado agradables pueden fluir a través de una audiencia masiva.

Además, esta preocupación crece cuando considera qué tan rápido la IA se está volviendo accesible a través de plataformas abiertas. Por ejemplo, Deepseek Ai permite que cualquiera personalice y construir sobre sus LLM de forma gratuita.

Si bien la innovación de código abierto es emocionante, también significa mucho menos control sobre cómo se comportan estos sistemas en manos de los desarrolladores sin barandillas. Sin una supervisión adecuada, las personas corren el riesgo de ver el comportamiento sycófántico amplificado de manera difícil de rastrear, y mucho menos arreglar.

Cómo están tratando de arreglar los desarrolladores de Operai

Después de revertir la actualización que hizo de ChatGPT un placentero de personas, OpenAi prometió arreglarla. Cómo está abordando este problema a través de varias formas clave:

  • Reelaboración de capacitación central y indicaciones del sistema: Los desarrolladores están ajustando cómo entrenan y provocan el modelo con instrucciones más claras que lo empujan hacia la honestidad y lejos del acuerdo automático.
  • Agregar barandas más fuertes para la honestidad y la transparencia: Operai está horneando en protecciones a nivel de más sistema para garantizar que el chatbot se adhiera a la información objetiva y confiable.
  • Expandir los esfuerzos de investigación y evaluación: La compañía está profundizando en lo que causa este comportamiento y cómo prevenirlo en modelos futuros.
  • Involucrar a los usuarios anteriormente en el proceso: Está creando más oportunidades para que las personas prueben modelos y dan comentarios antes de que las actualizaciones sean en vivo, lo que ayuda a detectar problemas como la sycophancy anteriormente.
Leer  Buscando 'búhos y lagartos' en la audiencia de un anunciante

Lo que los usuarios pueden hacer para evitar la IA silófántica

Si bien los desarrolladores trabajan detrás de escena para volver a entrenar y ajustar estos modelos, también puede dar forma a cómo responden los chatbots. Algunas formas simples pero efectivas de fomentar las interacciones más equilibradas incluyen:

  • Uso de indicaciones claras y neutrales: En lugar de redactar su aporte de una manera que suplique la validación, intente más preguntas abiertas para que se sienta menos presionado para estar de acuerdo.
  • Solicite múltiples perspectivas: Intente indicaciones que soliciten ambos lados de un argumento. Esto le dice al LLM que está buscando equilibrio en lugar de afirmación.
  • Desafiar la respuesta: Si algo suena demasiado halagador o simplista, haga un seguimiento pidiendo verificaciones de hechos o contrapuntos. Esto puede empujar el modelo hacia respuestas más intrincadas.
  • Use los botones de pulgares o pulgares hacia abajo: La retroalimentación es clave. Haga clic en el pulgar hacia abajo en respuestas demasiado cordiales ayuda a los desarrolladores a señalar y ajustar esos patrones.
  • Configurar instrucciones personalizadas: ChatGPT ahora permite a los usuarios personalizar cómo responde. Puede ajustar cuán formal o casual debe ser el tono. Incluso puede pedir que sea más objetivo, directo o escéptico. Si va a Configuración> Instrucciones personalizadas, puede decirle al modelo qué tipo de personalidad o enfoque prefiere.

Dando la verdad sobre un pulgar

La IA silófántica puede ser problemática, pero la buena noticia es que se puede solucionar. Los desarrolladores están tomando medidas para guiar estos modelos hacia un comportamiento más apropiado. Si ha notado que su chatbot está intentando sobrepocarlo, intente tomar los pasos para darle forma a un asistente más inteligente en el que puede depender.

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares