NVIDIA emite Hotfix para el problema de sobrecalentamiento del conductor de la GPU

-

spot_img

Ayer, Nvidia salió corriendo de una figura crítica para contener las consecuencias de una liberación previa del conductor que había provocado una alarma a través de la IA y las comunidades de juegos al hacer que los sistemas informen falsamente temperaturas de GPU, incluso cuando las demandas de enfriamiento subieron en silencio hacia niveles potencialmente críticos.

En la publicación oficial de Nvidia alrededor del lanzamiento de Hotfix, aunque solo el tercero en la lista de soluciones declaradas, el problema se cita como ‘Las utilidades de monitoreo de la GPU pueden dejar de informar la temperatura de la GPU después de que PC despierta del sueño ‘.

Poco después de que se lanzara el conductor listo para el juego afectado 576.02, se implementó un hilo fijo en el sub-reddit de difusión estable, titulado ¡Lea para guardar su GPU!se convirtió en un recurso para problemas anecdóticos y actualizaciones informadas por el usuario con respecto al nuevo controlador. De estos y otros informes en la web, se pueden establecer una línea de tiempo de problemas emergentes.

El primer informe de Reddit del error parece haber ocurrido el viernes por la tarde UTC, en el Subreddit Zephyrusg14, donde el usuario fricy81 citó una publicación en los foros de Nvidia (archivados):

Un usuario en los foros de NVIDIA encuentra problemas después de la actualización 576.02. Fuente: https://www.nvidia.com/en-us/geforce/forums/game-ready-drivers/13/563010/geforce-rd-57602-feedback-thread-releed-41625/3524072/

El usuario de los foros de NVIDIA informó que después de instalar la actualización del controlador, herramientas como MSI Afterburner y monitores en el juego como el de Obligaciones (que generalmente acceden a las lecturas del sistema nativo, al igual que el panel de GPU de Task Manager en Windows) dejaron de actualizar las lecturas de temperatura de GPU, congelándose a alrededor de 35-36 ° C.

Reiniciar el software de monitoreo no tuvo efecto, declaró el usuario, y solo un reinicio completo del sistema restauraría lecturas precisas. Herramientas como la aplicación de monitoreo de Hwinfo y Nvidia continuaron informando las temperaturas correctamente. El usuario enfatizó que el problema ocurrió durante el uso normal, no solo después de despertar el sistema del sueño.

La retroalimentación del usuario en varios foros destacó una interrupción general del comportamiento normal de la curva de ventilador y una alteración de la regulación térmica central, lo que resulta en que las unidades de procesamiento de gráficos se inquieten a temperaturas inesperadamente altas y se sobrecalienten de manera alarmante bajo lo que normalmente se consideraría cargas operativas estándar, como se detalla en este comentario:

Leer  Repensar la IA: el impulso por el derecho a reparar la inteligencia artificial

Me di cuenta de que algo estaba mal. El clima exterior probablemente era de alrededor de 55 ° F / 12 ° C, pero estaba cocinando vivo en mi habitación. Mi ventana estaba abierta y, sin embargo, no pude sentir ninguna diferencia. Todos los fanáticos corrían al máximo, y las temperaturas se veían bien al principio, alrededor de 68 ° C a 72 ° C después del juego por un tiempo.

‘Al principio, eso parecía normal, hasta la mañana siguiente, cuando me di cuenta de que no son temperaturas inactivas, y los fanáticos todavía estaban (pateando).

‘Había hecho un overclocking de IA después de arreglar algunas cosas últimamente, así que no estaba seguro de si los valores acababan de aumentar demasiado. Ha sucedido una vez antes después de instalar Asus AI Suite 3: la configuración del BIOS ni siquiera funcionaría correctamente por eso.

“De todos modos, seguí adelante y volví a un conductor mayor por ahora”.

Subóptimo

El PDF de lanzamiento oficial para la actualización del controlador 576.02 ofrece algunas pistas sobre los cambios que pueden haber contribuido a los nuevos problemas. En la Sección 5.5, NVIDIA reconoce que la temperatura de la GPU se puede informar incorrectamente en NVIDIA Optimista sistemas, específicamente que muestran grados cero cuando no se ejecutan aplicaciones.

La Sección 5.5 de las notas de actualización oficiales 576.02 aborda problemas de monitoreo de temperatura que parecen haber afectado un número más amplio de sistemas que el sistema Optimus. Fuente: https://us.download.nvidia.com/windows/576.02/576.02-win11-win10-release-notes.pdf

El lanzamiento establece:

5.5 Temperatura de GPU informada incorrectamente en Optimus Systems

5.5.1 Problema

En los sistemas Optimus, las herramientas de información de temperatura como Speccy o GPU-Z informan que la temperatura de la GPU de NVIDIA es cero cuando no se están ejecutando aplicaciones.

5.5.2 Explicación

En los sistemas Optimus, cuando la GPU NVIDIA no se usa, se pone en un estado de baja potencia. Esto hace que las herramientas de reportaje de temperatura devuelvan valores incorrectos. Despertar la GPU para consultar la temperatura daría como resultado mediciones sin sentido porque la temperatura de la GPU cambia como resultado.

Estas herramientas informarán temperaturas precisas solo cuando la GPU esté despierta y en funcionamiento.

Nvidia Optimus es una tecnología de conmutación de GPU que alterna entre gráficos integrados y discretos basados ​​en las demandas de aplicaciones, para equilibrar automáticamente el rendimiento y el consumo de energía, diseñada para conservar la vida útil de la batería y reducir el consumo de energía. Para tareas como la reproducción de juegos o video HD, Optimus activa la GPU discreta para un mejor rendimiento; Durante las actividades más ligeras como la navegación web, vuelve a gráficos integrados (a bordo).

Leer  Transformers y más allá: repensar las arquitecturas de IA para tareas especializadas

La actualización parece haber extendido un comportamiento previamente limitado a los sistemas Optimus, lo que permite que la GPU afectada ingrese a un estado de baja potencia mientras está inactivo, incluso cuando no se aloja en un sistema Optimus, a su vez que interrumpe los informes de temperatura en herramientas de terceros.

Ajuste de riesgos

En la mayoría de los escenarios, es justo decir que el VBIOS de la tarjeta gráfica probablemente habría evitado el daño permanente en GPU. VBIOS hace cumplir los límites térmicos y de potencia a nivel de firmware, independientemente del controlador.

Por lo tanto, incluso si un conductor causara un comportamiento inadecuado del ventilador o informar malas temperaturas, el VBIOS aún debe acelerar el rendimiento, aumentar la actividad del ventilador o cerrar la GPU para evitar la falla del hardware.

Eso no significa que el riesgo fuera trivial: las altas temperaturas sostenidas pueden degradar el rendimiento con el tiempo o los componentes adyacentes al estrés; Además, en ausencia de una comprensión común de que un controlador actualizado causó un problema (no menos importante en los sistemas donde los conductores actualizan ‘en silencio’), un problema de esta naturaleza podría engañar a una gran proporción de usuarios afectados, que pueden intentar remedios para problemas inexistentes, o incluso potencialmente causar daños a sus sistemas al aplicar las ‘soluciones’ no relevantes.

El comportamiento errante causado por la actualización 576.02 fue particularmente alarmante para aquellos que participan en flujos de trabajo de inteligencia artificial, donde el hardware de alto rendimiento se empuja rutinariamente a sus límites térmicos por duraciones extendidas.

El problemático conductor 576.02 inspiró una erupción más amplia de quejas después de su liberación a mediados de abril, a pesar de los informes iniciales de que ofrecía algunas mejoras de rendimiento beneficiosas. A pesar de la disposición de la Hotfix, y el nivel de interrupción que 576.02 parece haber causado, al momento de escribir, permanece disponible para descargar* en el sitio de Nvidia.

Leer  Entrenar a los agentes de IA en entornos limpios los hace sobresalir en el caos

Resplandor crepuscular

En términos de las consecuencias de la actualización defectuosa, existen numerosos tipos de daños o inconvenientes informados: el usuario Frankie_T9000 informó que su GPU se bloqueó en el arranque debido a la acumulación de calor bajo la actualización de fallas, y solo se estabilizó después de subvolar. Él comentó ‘Parece que no está perjudicada permanentemente, pero es necesario que lo antes posible (tengo almohadillas el miércoles) sospeche que la vieja pasta térmica estaba más envejada por la acumulación de calor, por lo que estoy colocando nuevas almohadillas de pasta.

Ayer, otro usuario en el mismo hilo declaró: ‘Estoy usando una curva de ventilador personalizada con MSI Afterburner, y siguió demostrando que las temperaturas de mi GPU estaban constantemente a 27 ° C, por lo que los fanáticos no se encendieron, lo que condujo a problemas de sobrecalentamiento. Pensé que era un problema de Yo, pero después de instalar el controlador anterior, todo volvió a funcionar bien. Además, las temperaturas no se muestran correctamente en TaskManager.

Aunque NVIDIA (como establece persistentemente en cada lanzamiento de Hotfijo) a menudo proporciona hotfijos para videojuegos o plataformas particulares, el riesgo de daño por calor a o alrededor de una GPU es mayor para los profesionales de la IA que para los videogamadores, ya que los procesos de aprendizaje automático intensivo, como la capacitación o la inferencia sostenida, colocan una GPU que consiste en una carga de larga data, un evento que puede ser lo que puede ser lo que puede ser un juego solo en un juego, como un juego, como un juego, lo que puede ser un gran juego, lo que puede ser un gran juego, lo que puede ser lo más alto en un juego, lo que puede ser lo más alto en un juego, lo cual puede ser un gran juego, lo que puede ser lo más alto en un juego, lo cual puede ser un gran juego, lo que puede ser lo más alto en un juego, lo cual puede ser un gran juego, lo que puede ser lo más alto en un juego, lo cual puede ser un gran juego en un juego. Beat Beath o una sección de mapa particularmente exigente, pero que de otro modo se diseña como un compromiso entre la explotación de GPU y la estabilidad del sistema.

* Archivo: https://archive.ph/ylvr1

Publicado por primera vez el martes 22 de abril de 2025

spot_img

LEAVE A REPLY

Please enter your comment!
Please enter your name here

spot_img

Recomendar noticias

Los más populares