IOPS dysku eksplodują w HP Windows 2008 Server z SAN i Oracle 11g


Mam serwer HP Proliant BL68C G5 z systemem Windows Server 2008 R2 Standard, który jest używany jako serwer danych Oracle 11g.
Sama maszyna ma 20 GB pamięci RAM, dwa procesory Xeon 2,4 GHz, dysk SAS 146 GB (Raid 1 + 0) na Smart Array P400i jako dysk magazynujący oraz macierz san HP Eva FC dla plików Oracle.
Sprawdziłem dostępność aktualizacji oprogramowania układowego dla kontrolera FC HBA i SAN, upewnij się, że okna są aktualne i używam najnowszych sterowników HP.
Jednak z powodu słabej wydajności bazy danych Oracle konsultant Oracle przyjrzał się instalacji Oracle i zasugerował, że jest to problem z podsystemem dyskowym.
Po 15 minutach wykonywania ćwiczenia podczas typowej intensywnej sesji uzyskałem następujące liczby.

% Czasu na dysku: średnio: 61, maksymalnie: 15145
Średni Długość kolejki odczytu dysku: średnia: 1043, maksymalna: 8755
Średni Długość kolejki zapisu dysku: Średnia: 1,911 Maks .: 756,456
% Czasu procesora: średnio: 2,529, maks .: 23,655
Średni Dysk/odczyt: średnio: 0,013, maks .: 0,041
Średni Dysk Sek./ Zapis: Średnio: 0,008 Maks .: 0,153
Dostępna pamięć Byes: avg: 1.0780e + 010 Max: 1.0796e + 010

O ile rozumiem, średnie liczby są dobre, ale maksymalne są naprawdę wysokie. Rozumiem również, że czas dysku nie jest najlepszą miarą do wykorzystania podczas pracy z macierzami SAN, ale martwi mnie maksymalna długość kolejki, ponieważ Oracle twierdzi, że dostęp do dysku jest wolny.
Przyjrzałem się dostępowi do sieci i wydaje się, że w tym samym okresie przepuszczono maksymalnie 75 Mb/s ruchu, co nie wydaje się dużo, biorąc pod uwagę, że sieć korzysta z Gigabit Ethernet.
Czy ktoś spotkał się wcześniej z podobną sytuacją lub ma jakieś wskazówki, jak mogę to dalej zbadać.
Wydajność maszyny wydaje mi się bardzo dobra, ale walka z Oracle w celu udowodnienia, że ​​ich oprogramowanie powoduje problemy z dyskiem, a nie sama sieć SAN, jest dość rozczarowująca.
Starałem się przedstawić wyczerpujący opis, ale jeśli ktoś ma jakieś sugestie lub potrzebuje więcej informacji, nie wahaj się zapytać.
Zaproszony:
Anonimowy użytkownik

Anonimowy użytkownik

Potwierdzenie od:

Średni Dysk/odczyt: średnio: 0,013, maks .: 0,041
Średni Dysk Sek./ Zapis: Średnio: 0,008 Maks .: 0,153

Widzę TYLKO pasujące liczniki. W rzeczy samej. Wydaje się, że kolejka lantsh jest bardzo trudna do oceny.
W przypadku sań wysokiej klasy zarówno średnie, jak i wysokie liczby są DROGĄ do wysokich. Wygląda na wąskie gardło we/wy lub problem z konfiguracją.

Wydajność maszyny wydaje mi się bardzo dobra, ale walka z Oracle w celu udowodnienia, że ​​ich oprogramowanie powoduje problemy z dyskiem, a nie sama sieć SAN, jest dość rozczarowująca.

Głównie dlatego, że jest to sieć SAN. To jest WOLNE. Liczby byłyby zbyt wysokie dla DAS średniego zasięgu, takiego jak mój (Velociraptors, bez dysków SAS), dla prawdziwego SAN są naprawdę bardzo wysokie.

ale martwi mnie maksymalna długość kolejki, ma to coś wspólnego z tym, że Oracle mówi, że dostęp do dysku jest wolny.

To trudna sprawa. Interpretacja długości kolejki zależy od tak wielu czynników, że nie jest to nawet śmieszne. Długość kolejki dyskowej 756 KB oznacza, że ​​oracle wyładowuje DUŻO rzeczy do sieci SAN, a sieć SAN nie odpowiada. Wyraźnie wskazuje na wąskie gardło. Ale co oznaczają liczby?
Z drugiej strony wartość Sec/Write wzrosła z 0,008 do 0,153 sekundy. 0.153 jest NAPRAWDĘ powolna. 0.008 nie jest zbyt szybkie na początku (zakładając, że jest to prawdziwy SAN).
Zdecydowanie nie jest to problem z Oracle - Twój podsystem dyskowy jest wąskim gardłem.
Anonimowy użytkownik

Anonimowy użytkownik

Potwierdzenie od:

Ponieważ wygląda jak okno systemu Windows, dokładniejsze dane można uzyskać od firmy Perfmon. Zamiast samej średniej długości kolejki połącz tę wartość ze średnią szybkością przesyłania danych na dysk na sekundę. Te dwa elementy powinny zapewnić znacznie lepszy przegląd wąskich gardeł w pamięci masowej, które wydają się zauważać. Jeśli długość kolejki rośnie w tym samym czasie, co wolumen transferu dysku, jest to bardzo wyraźny znak, że Twoja sieć SAN nie nadąża za popytem.
Kolejną rzeczą, na którą należy zwrócić uwagę, jest dynamika wykonania. Jeśli ta średnia długość serii 756 utrzymywała się przez 4 sekundy, jest to pojedynczy skok i mniej znaczący niż osiąganie tych poziomów co około 15 sekund.
Tak czy inaczej, wygląda na to, że już przekroczyłeś limit miejsca.

Aby odpowiedzieć na pytania, Zaloguj się lub Zarejestruj się