Badanie potencjalnej awarii procesora
Na serwerze Ubuntu, którego używam do obliczeń, zauważyłem ostatnio, że niektóre zaawansowane programy CPU (GUROBI, CPLEX) często ulegają awarii.
W trakcie korespondencji z obsługą techniczną odpowiednich programów powiedziano mi, że może to być problem sprzętowy.
Administrator serwera przeprowadził szczegółowy test pamięci i okazało się, że z modułami RAM wszystko jest w porządku.
Dlatego użyłem narzędzia
mprime
do testowania procesora, a następujące dwa wiersze pojawiają się wielokrotnie podczas testów warunków skrajnych:
[Praca nr 4, 18 października, 18:47] BŁĄD FATYCZNY: Zaokrąglenie wyniosło 0,498046875, oczekiwano mniej niż 0,4 [Praca nr 4, 18 października, 18:47] Wykryto awarię sprzętu, patrz plik stress.txt.
Sam plik stress.txt nie zawiera szczegółowych informacji o tym, co może powodować ten błąd, więc chciałbym zapytać, czy ktoś tutaj wie, co może powodować ten problem? Czy jest jakiś inny test, który mógłbym zrobić, aby jeszcze bardziej rozwiązać problem?
Temperatura systemu (i wszystkich rdzeni) była normalna podczas całego testu obciążeniowego (+ 69,0 ° C (wysoka = + 80,0 ° C, krytyczna = + 98,0 ° C)), dany procesor nie jest łatwy.
Procesor Intel Core i7-2600K @ 3,40 GHz
i nie jest w żaden sposób przyspieszany ani modyfikowany.
Ciekawe jest również to, że jeśli uruchomię mprime tylko dla obciążenia procesora, wszystkie testy będą działać poprawnie. Błąd pojawia się tylko wtedy, gdy pozwolę mprime załadować procesor + pamięć RAM.
Nie znaleziono powiązanych wyników
Zaproszony:
Aby odpowiedzieć na pytania, Zaloguj się lub Zarejestruj się
1 odpowiedzi
Anonimowy użytkownik
Potwierdzenie od:
Jeśli nie masz zapasowego systemu lub dostępu do kompatybilnych części, możesz spróbować kilku rzeczy, ale możesz nie znaleźć dokładnego powodu. Najpierw upewnij się, że wszystkie wentylatory obracają się swobodnie. Po drugie, sprawdź temperaturę zasilacza, a także VRM i PCH na płycie głównej. Jeśli Twój serwer nie ma dla nich czujników, uziem się i dotknij ich palcem. Mogą być gorące, ale nie tak gorące, żeby nie można było na nich zostawić palca. Po trzecie, usuń wszystkie moduły RAM z wyjątkiem pierwszego gniazda (jak wskazano na płycie głównej), a jeśli test nadal nie działa, zastąp go jednym z usuniętych. Jeśli dwa lub więcej zawiodą, możesz bezpiecznie założyć, że problem nie dotyczy pamięci RAM.