Badanie potencjalnej awarii procesora


Na serwerze Ubuntu, którego używam do obliczeń, zauważyłem ostatnio, że niektóre zaawansowane programy CPU (GUROBI, CPLEX) często ulegają awarii.
W trakcie korespondencji z obsługą techniczną odpowiednich programów powiedziano mi, że może to być problem sprzętowy.
Administrator serwera przeprowadził szczegółowy test pamięci i okazało się, że z modułami RAM wszystko jest w porządku.
Dlatego użyłem narzędzia

mprime

do testowania procesora, a następujące dwa wiersze pojawiają się wielokrotnie podczas testów warunków skrajnych:

[Praca nr 4, 18 października, 18:47] BŁĄD FATYCZNY: Zaokrąglenie wyniosło 0,498046875, oczekiwano mniej niż 0,4 [Praca nr 4, 18 października, 18:47] Wykryto awarię sprzętu, patrz plik stress.txt.

Sam plik stress.txt nie zawiera szczegółowych informacji o tym, co może powodować ten błąd, więc chciałbym zapytać, czy ktoś tutaj wie, co może powodować ten problem? Czy jest jakiś inny test, który mógłbym zrobić, aby jeszcze bardziej rozwiązać problem?
Temperatura systemu (i wszystkich rdzeni) była normalna podczas całego testu obciążeniowego (+ 69,0 ° C (wysoka = + 80,0 ° C, krytyczna = + 98,0 ° C)), dany procesor nie jest łatwy.

Procesor Intel Core i7-2600K @ 3,40 GHz

i nie jest w żaden sposób przyspieszany ani modyfikowany.
Ciekawe jest również to, że jeśli uruchomię mprime tylko dla obciążenia procesora, wszystkie testy będą działać poprawnie. Błąd pojawia się tylko wtedy, gdy pozwolę mprime załadować procesor + pamięć RAM.
Zaproszony:
Anonimowy użytkownik

Anonimowy użytkownik

Potwierdzenie od:

mprime nie daje fałszywych alarmów, więc możesz założyć, że masz problem ze sprzętem. Chcesz w danym momencie wymienić komponenty na znane, dobre i uruchomić ten sam test. Zacząłbym od RAM-u (mimo przejścia memtestu), potem zasilacz, potem procesor, na końcu płyta główna.
Jeśli nie masz zapasowego systemu lub dostępu do kompatybilnych części, możesz spróbować kilku rzeczy, ale możesz nie znaleźć dokładnego powodu. Najpierw upewnij się, że wszystkie wentylatory obracają się swobodnie. Po drugie, sprawdź temperaturę zasilacza, a także VRM i PCH na płycie głównej. Jeśli Twój serwer nie ma dla nich czujników, uziem się i dotknij ich palcem. Mogą być gorące, ale nie tak gorące, żeby nie można było na nich zostawić palca. Po trzecie, usuń wszystkie moduły RAM z wyjątkiem pierwszego gniazda (jak wskazano na płycie głównej), a jeśli test nadal nie działa, zastąp go jednym z usuniętych. Jeśli dwa lub więcej zawiodą, możesz bezpiecznie założyć, że problem nie dotyczy pamięci RAM.

Aby odpowiedzieć na pytania, Zaloguj się lub Zarejestruj się