Nuevos trabajos de investigación Pregunta de precios ‘token’ para chats de IA

-

spot_img

Una nueva investigación muestra que la forma en que la IA ofrece factura de tokens oculta el costo real de los usuarios. Los proveedores pueden inflar en silencio los cargos mediante el ajuste de tokens o resbalando en pasos ocultos. Algunos sistemas ejecutan procesos adicionales que no afectan la salida, pero aún se muestran en la factura. Se han propuesto herramientas de auditoría, pero sin supervisión real, los usuarios quedan pagando más de lo que creen.

En casi todos los casos, lo que nosotros, como consumidores, pagamos por las interfaces de chat con IA, como ChatGPT-4O, actualmente se mide en tokens: unidades invisibles de texto que pasan desapercibidas durante el uso, pero se cuentan con precisión exacta para fines de facturación; Y aunque cada intercambio tiene un precio por el número de tokens procesados, el usuario no tiene una forma directa de confirmar el recuento.

A pesar de nuestra (en el mejor) comprensión imperfecta de lo que obtenemos para nuestra unidad ‘token’ comprada, la facturación basada en tokens se ha convertido en el enfoque estándar entre los proveedores, descansando en lo que puede ser una suposición precaria de confianza.

Palabras simbólicas

Un token no es lo mismo que una palabra, aunque a menudo juega un papel similar, y la mayoría de los proveedores usan el término ‘token’ para describir pequeñas unidades de texto, como palabras, signos de puntuación o fragmentos de palabras. La palabra ‘increíble’por ejemplo, podría ser contado como un solo token por un sistema, mientras que otro podría dividirlo en y, criar y capazcon cada pieza aumentando el costo.

Este sistema se aplica tanto al texto de las entradas de un usuario como la respuesta del modelo, con el precio basado en el número total de estas unidades.

La dificultad radica en el hecho de que los usuarios No pueda ver este proceso. La mayoría de las interfaces no muestran recuentos de tokens mientras se produce una conversación, y la forma en que se calculan los tokens es difícil de reproducir. Incluso si se muestra un recuento después Una respuesta, es demasiado tarde para saber si fue justo, creando un desajuste entre lo que el usuario ve y lo que está pagando.

La investigación reciente apunta a problemas más profundos: un estudio muestra cómo los proveedores pueden sobrecargar sin romper las reglas, simplemente inflando los recuentos de tokens de manera que el usuario no puede ver; Otro revela el desajuste entre lo que muestran las interfaces y lo que realmente se factura, dejando a los usuarios con la ilusión de la eficiencia donde puede no haber ninguno; y un tercero expone cómo los modelos generan rutinariamente pasos de razonamiento internos que nunca se muestran al usuario, pero aún aparecen en la factura.

Los resultados representan un sistema que parece Preciso, con números exactos que implican claridad, pero cuya lógica subyacente permanece oculta. Ya sea por diseño o un defecto estructural, el resultado es el mismo: los usuarios pagan más de lo que pueden ver, y a menudo más de lo que esperan.

Más barato por la docena?

En el primero de estos documentos, titulado IS ¿Tu LLM te sobrecargó? Tokenización, transparencia e incentivosde cuatro investigadores del Instituto Max Planck para Software Systems, los autores argumentan que los riesgos de facturación basada en tokens se extienden más allá de la opacidad, señalando un incentivo incorporado para que los proveedores inflen los recuentos de tokens:

Leer  El futuro de la publicidad después de un golpe de estado de tráfico de IA

‘El núcleo del problema radica en el hecho de que la tokenización de una cadena no es única. Por ejemplo, considere que el usuario envía el aviso “¿Dónde se llevan a cabo las próximas neuripas?” Para el proveedor, el proveedor lo alimenta en un LLM, y el modelo genera la salida “| San | Diego |” que consiste en dos tokens.

‘Dado que el usuario es ajeno al proceso generativo, un proveedor egoísta tiene la capacidad de informar mal la tokenización de la salida al usuario sin siquiera cambiar la cadena subyacente. Por ejemplo, el proveedor podría simplemente compartir la tokenización “| S | a | n | | d | i | e | g | o |” ¡Y sobrecarga al usuario por nueve tokens en lugar de dos!

El documento presenta una heurística capaz de realizar este tipo de cálculo falso sin alterar la producción visible, y sin violar la plausibilidad en entornos de decodificación típicos. Probado en modelos de la serie Llama, Mistral y Gemma, utilizando indicaciones reales, el método logra sobrecargas medibles sin aparecer anómalos:

Inflación de tokens usando ‘mal información plausible’. Cada panel muestra el porcentaje de tokens sobrecargados resultantes de un proveedor que aplica el algoritmo 1 a las salidas de 400 indicaciones LMSYS, bajo parámetros de muestreo variables (M y P). Todas las salidas se generaron a la temperatura 1.3, con cinco repeticiones por configuración para calcular los intervalos de confianza del 90%. Fuente: https://arxiv.org/pdf/2505.21627

Para abordar el problema, los investigadores piden facturación basada en recuento de personajes En lugar de tokens, argumentando que este es el único enfoque que brinda a los proveedores una razón para informar el uso honestamente, y afirmar que si el objetivo es un precio justo, entonces vinculando el costo a los personajes visibles, no los procesos ocultos, es la única opción que representa el escrutinio. El precio basado en el personaje, argumentan, eliminarían el motivo para informar mal al tiempo que recompensan los resultados más cortos y más eficientes.

Aquí hay una serie de consideraciones adicionales, sin embargo (en la mayoría de los casos admitidos por los autores). En primer lugar, el esquema basado en el personaje propuesto introduce una lógica comercial adicional que puede favorecer al proveedor sobre el consumidor:

‘(A) proveedor que nunca informa mal tiene un incentivo claro para generar la secuencia de token de salida más corta posible y mejorar los algoritmos de tokenización de corriente como BPE, de modo que compriman la secuencia de token de salida tanto como sea posible’ ‘

El motivo optimista aquí es que se alienta al proveedor a producir un resultado conciso y más significativo y valioso. En la práctica, obviamente hay formas menos virtuosas para que un proveedor reduzca el conteo de texto.

En segundo lugar, es razonable suponer que los autores afirman que las empresas probablemente requerirían una legislación para transitar desde el sistema de token arcano a un método de facturación más claro y basado en texto. En el futuro, una startup insurgente puede decidir diferenciar su producto lanzándolo con este tipo de modelo de precios; Pero cualquier persona con un producto verdaderamente competitivo (y que opere a una escala más baja que la categoría EEE) está desincentivada para hacerlo.

Finalmente, los algoritmos hurtosos como los autores proponen vendrían con su propio costo computacional; Si el gasto de calcular un ‘recargo’ excediera el beneficio de ganancias potencial, el esquema claramente no tendría mérito. Sin embargo, los investigadores enfatizan que su algoritmo propuesto es efectivo y económico.

Leer  Trump anuncia una inversión del sector privado de 500 mil millones de dólares en infraestructura de inteligencia artificial

Los autores proporcionan el código para sus teorías en Github.

El interruptor

El segundo artículo, titulado Tokens invisibles, facturas visibles: la urgente necesidad de auditar operaciones ocultas en los servicios de Opace LLMde investigadores de la Universidad de Maryland y Berkeley, argumenta que los incentivos desalineados en las API del modelo de idioma comercial no se limitan a la división de tokens, sino que se extienden a clases enteras de operaciones ocultas.

Estos incluyen llamadas de modelo interno, razonamiento especulativo, uso de herramientas e interacciones múltiples de agentes, todas las cuales pueden facturarse al usuario sin visibilidad ni recurso.

Precios y transparencia de las API de razonamiento LLM en los principales proveedores. Todos los servicios enumerados cobran a los usuarios por tokens de razonamiento interno oculto, y ninguno hace que estos tokens sean visibles en tiempo de ejecución. Los costos varían significativamente, ya que el modelo O1-Pro de OpenAI cobra diez veces más por millón de tokens que Claude Opus 4 o Gemini 2.5 Pro, a pesar de la igualdad de opacidad. Fuente: https://www.arxiv.org/pdf/2505.18471

A diferencia de la facturación convencional, donde la cantidad y la calidad de los servicios son verificables, los autores sostienen que las plataformas LLM de hoy funcionan en opacidad estructural: Los usuarios se cobran en función del uso de token y API reportados, pero no tienen medios para confirmar que estas métricas reflejan un trabajo real o necesario.

El documento identifica dos formas clave de manipulación: inflación de la cantidaddonde el número de tokens o llamadas aumenta sin beneficio del usuario; y Renovación de calidaddonde los modelos o herramientas de menor rendimiento se utilizan en silencio en lugar de componentes premium:

‘En las API de razonamiento LLM, los proveedores a menudo mantienen múltiples variantes de la misma familia modelo, que difieren en capacidad, datos de capacitación u estrategia de optimización (por ejemplo, ChatGPT O1, O3). La rebaja del modelo se refiere a la sustitución silenciosa de los modelos de menor costo, lo que puede introducir desalineación entre la calidad del servicio esperado y real.

‘Por ejemplo, un modelo puede ser procesado por un modelo de menor tamaño, mientras que la facturación permanece sin cambios. Esta práctica es difícil de detectar para los usuarios, ya que la respuesta final aún puede parecer plausible para muchas tareas ‘.

El documento documenta casos en los que más del noventa por ciento de los tokens facturados nunca se mostraron a los usuarios, con un razonamiento interno que inflaba el uso del token en un factor mayor a veinte. Justificado o no, la opacidad de estos pasos niega a los usuarios cualquier base para evaluar su relevancia o legitimidad.

En los sistemas de agente, la opacidad aumenta, a medida que los intercambios internos entre los agentes de IA pueden incurrir en cargas sin afectar significativamente la salida final:

‘Más allá del razonamiento interno, los agentes se comunican intercambiando indicaciones, resúmenes e instrucciones de planificación. Cada agente interpreta las entradas de otros y genera salidas para guiar el flujo de trabajo. Estos mensajes entre agentes pueden consumir tokens sustanciales, que a menudo no son directamente visibles para los usuarios finales.

‘Todos los tokens consumidos durante la coordinación de los agentes, incluidas las indicaciones generadas, las respuestas e instrucciones relacionadas con la herramienta, generalmente no están aparecidas al usuario. Cuando los propios agentes usan modelos de razonamiento, la facturación se vuelve aún más opaca ‘

Para enfrentar estos problemas, los autores proponen un marco de auditoría en capas que involucre pruebas criptográficas de actividad interna, marcadores verificables de identidad de modelo o herramienta y supervisión independiente. Sin embargo, la preocupación subyacente es estructural: los esquemas actuales de facturación de LLM dependen de un persistente asimetría de informacióndejando a los usuarios expuestos a costos que no pueden verificar o descomponer.

Leer  Perplejidad ai "sincensores" Deepseek R1: ¿Quién decide los límites de AI?

Contando el invisible

El documento final, de investigadores de la Universidad de Maryland, vuelve a enfrentar el problema de facturación no como una cuestión de mal uso o mal información, sino de estructura. El papel, titulado Moneda: Contando los tokens de razonamiento invisible en las API comerciales de Opaco LLMy de diez investigadores de la Universidad de Maryland, observa que la mayoría de los servicios comerciales de LLM ahora ocultan el razonamiento intermedio que contribuye a la respuesta final de un modelo, pero todavía cobra por esas fichas.

El documento afirma que esto crea una superficie de facturación no observable donde se pueden fabricar, inyectar o inflarse las secuencias enteras sin detección*:

‘(Esta) invisibilidad permite a los proveedores Informar mal el token Counts o inyectar tokens de razonamiento de bajo costo y fabricado para inflar artificialmente los recuentos de tokens. Nos referimos a esta práctica como inflación del conteo de tokens.

‘Por ejemplo, un único ARC-AGI de alta eficiencia ejecutado por el modelo O3 de OpenAi consumió 111 millones de tokens, que cuesta $ 66,772.3 dada esta escala, incluso pequeñas manipulaciones pueden conducir a un impacto financiero sustancial.

“Dicha asimetría de la información permite a las compañías de IA a sobrecargar a los usuarios, socavando así sus intereses”.

Para contrarrestar esta asimetría, los autores proponen Acuñarun sistema de auditoría de terceros diseñado para verificar los tokens ocultos sin revelar su contenido, y que utiliza huellas dactilares hash y controles semánticos para detectar signos de inflación.

Descripción general del sistema de auditoría de monedas para Opaces Commercial LLMS. El panel A muestra cómo los incrustaciones de token de razonamiento se convierten en un árbol de Merkle para la verificación del recuento de tokens sin revelar contenido de token. El panel B ilustra las verificaciones de validez semántica, donde las redes neuronales livianas comparan los bloques de razonamiento con la respuesta final. Juntos, estos componentes permiten a los auditores de terceros detectar la inflación de token oculto al tiempo que preservan la confidencialidad del comportamiento del modelo patentado. Fuente: https://arxiv.org/pdf/2505.13778

Un componente verifica los recuentos de tokens criptográficamente utilizando un árbol de Merkle; El otro evalúa la relevancia del contenido oculto al compararlo con la inserción de la respuesta. Esto permite a los auditores detectar el relleno o la irrelevancia: señales de que los tokens se están insertando simplemente para subir la factura.

Cuando se implementa en las pruebas, Coin logró una tasa de éxito de detección de casi el 95% para algunas formas de inflación, con una exposición mínima de los datos subyacentes. Aunque el sistema aún depende de la cooperación voluntaria de los proveedores, y tiene una resolución limitada en casos de borde, su punto más amplio es inconfundible: la arquitectura misma de la facturación actual de LLM asume una honestidad que no se puede verificar.

Conclusión

Además de la ventaja de obtener el pago por pago de los usuarios, una moneda basada en scrip (como el sistema ‘Buzz’ en Civitai) ayuda a abstraer a los usuarios lejos del verdadero valor de la moneda que están gastando o el producto que están comprando. Del mismo modo, dar a un proveedor margen de maniobra para definir sus propias unidades de medición deja aún más al consumidor en la oscuridad sobre lo que realmente están gastando, en términos de dinero real.

Al igual que la falta de relojes en Las Vegas, las medidas de este tipo a menudo tienen como objetivo hacer que el consumidor sea imprudente o indiferente al costo.

El apenas entendido simbólicoque se puede consumir y definir de muchas maneras, quizás no sea una unidad de medición adecuada para el consumo de LLM, sobre todo porque puede costar muchas veces más tokens calcular un resultado más pobre de LLM en un idioma no inglés, en comparación con una sesión basada en inglés.

Sin embargo, la producción basada en el carácter, como lo sugiren los investigadores de Max Planck, probablemente favorecería los idiomas más concisos y penalizaría los idiomas naturalmente verbosos. Dado que las indicaciones visuales como un mostrador de token depreciación probablemente nos harían un poco más derrochadores en nuestras sesiones de LLM, parece poco probable que tales adiciones de GUI útiles lleguen pronto, al menos sin acciones legislativas.

* Énfasis de los autores. Mi conversión de las citas en línea de los autores a hipervínculos.

Publicado por primera vez el jueves 29 de mayo de 2025

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares