Перегрев Сервер HP ProLiant или фантомный датчик температуры

У нас имеется сервер HP ProLiant ML350 Gen9,
2 контроллера HP Smart Array H240ar и контроллер HPE Smart Array P440ar (при покупке уже был установлен).

контроллер HPE Smart Array P440ar
HP ProLiant ML350 Gen9 вид внутри
HP ProLiant ML350 Gen9 вид спереди
контроллера HP Smart Array H240ar

Предисловие:

Изначально Сервер работал на Windows server 2012 r2, с стандартными виндовыми драйверами, 4 штуки SAS — дисков и его полностью хватало для любых нужд фирмы. Однажды нужды фирмы резко выросли и нам потребовалось больше жёстких дисков для хранения данных (бэкапы и т.д.), было решено купить 4 жёстких по 1 тб wd black и салазки с алиэкспресс.

Систему надо было ставить заново, так как Windows Server 2012 R2 дата-центр нас полностью устраивала решили её и оставить, но в этот раз воспользовались официальным образом с драйверами от HP запустив его в автоматическом режиме.

И началось:

Винда и дрова стали как надо, все было бы хорош, если бы не одно но, сервак пошёл на «взлёт». Все вентиляторы системы охлаждения при загрузки винды начинали работать на 100%, а мониторинг сервера показывал перегрев жёстких дисков.

По факту перегрева быть не могло, «жёсткие» были холодные, а на том месте куда сервак указывал на перегрев, никакого температурного датчика не было.

После недельных мучений, мы решили связаться с службой поддержки Hewlett-packard. Сотрудник службы поддержки по телефону нам заявил, что мы должны использовать только оригинальные жесткие диски SAS, оперативную память, салазки от Hewlett-packard.

Как вы наверное знаете, цена на оригинальную «комплектуху» HP превосходит все ожидания. По этому мы использовали неоригинальные салазки из Китая, жесткие диски WD black, оперативную память от Kingston и скажем так удачно использовали без всяких проблем, пока не обновили прошивку.

После услышанного ответа от службы поддержки HP, «шеф» не долго думая пригрозил натравить на них антимонопольный комитет за нарушение антимонопольного законодательства, потому, что мы не обязаны пользоваться исключительно оригинальными жесткими дисками или оперативной памятью от HP.

Решение:

Буквально через час сотрудник HP написал нам в письме, что есть обход, можно сделать «даунгрейд» прошивки контроллера до версии 3.56 и сервер продолжит работать
стабильно как и раньше .

Дополнительное решение:

После того случая прошло большое количество времени я не помню как именно мы тогда сделали «даунгрейд», но буквально вчера мне пришлось повторить эту процедуру потому что был установлен новый контроллер HPE H240 с прошивкой выше чем 3.56. При попытке «даунгрейда» до версии 3.56 постоянно выскакивала ошибка. Так как никакой информации по этому вопросу я не нашел, мы решили делать «даунгрейд» каждой версией прошивки для этого контроллера начиная с самой первой которая есть на сайте Hewlett packard.

И о чудо! самая первая прошивки 1.14 свободно сделала «даунгрейд» контроллера. После перезагрузки сервера был произведен «апгрейд» до версии прошивки 3.56, таким образом сервер наш успокоился и продолжил работать в нормальном режиме без фантомного срабатывание датчика перегрева.

Интересная мысль после публикации статьи на pikabu.ru

Мне в почту написал Kirill Shilov, с интересной мыслью:

на самом  деле проблема в том что прошивка контроллеров читает на диске S.M.A.R.T. атрибут с температурой которого нет либо он имеет другое содержимое в дисках от WD. и соответственно уводит в режим аварии весь сервер.

Если принять по внимание что диски HP это перемаркированные SEAGATE, то  нужно было просто не покупать WD, а купить SEAGATE и продолжать использовать последнюю прошивку.

Надеюсь эта информация вам помогла!
Если у вас есть какие-либо полезная информация, пишите: info@k-strana.ru

Поделиться:

Добавить комментарий

Ваш e-mail не будет опубликован.



Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.