Какой реальный срок службы у SSD-накопителей

Что такое MTTR, MTBF, MTTF и MTTA? Руководство по метрикам управления инцидентами

Для компаний стало критически важным измерять и отслеживать эффективность предоставления услуг в быстро меняющемся цифровом мире. Однако, когда программное обеспечение для управления инцидентами измеряет различные показатели и отслеживает время безотказной работы и время простоя, небольшой сбой в системе может нарушить бизнес-процессы, что обходится в миллионы долларов.

MTTR, MTBF, MTTF и MTTA — это сокращения некоторых наиболее важных показателей управления инцидентами. В области Управление ИТ-услугами, эти аббревиатуры помогают организациям планировать свои ресурсы, чтобы гарантировать, что они могут позаботиться о проблемах, вызванных сбоями аппаратного и программного обеспечения. Полные формы следующие:

  • Среднее время ремонта
  • Среднее время между сбоями
  • Среднее время до отказа
  • Среднее время подтверждения

Давайте углубимся в каждую метрику.

Почему так сложно узнать срок службы SSD?

SSD служит меньше, чем HDD — вы тоже так считаете? Это мнение так распространено, что обратному никто и не поверит.

Производители не спешат указывать какие-то конкретные цифры — ведь устоявшихся стандартов в этой области не появилось. А значит, если каждый будет указывать «отсебятину», то и конкурентная борьба выльется в совершенно бессмысленную гонку вооружений.

«Большинство людей согласны с тем, что твердотельные накопители достаточно надёжны для массового использования, но я иногда читал сообщения в блогах, что современные твердотельные накопители гораздо более долговечны , чем даже самые лучшие жёсткие диски», — говорит Брайан .

Разные классы накопителей отличаются и по характеристикам, и по надёжности. Например, диск SLC, как правило, обладает гораздо большей долговечностью, чем диск QLC. Эксплуатация тоже играет немаловажную роль при определении срока службы: приложения с интенсивной записью ухудшают работу SSD гораздо быстрее, чем приложения, которые выполняют только случайные записи (те же резервные копии).

Всё это практически невозможно предсказать производителю. И всё-таки зная свои цели и привычки, вы способны прикинуть перспективы перехода на твердотельные накопители вполне самостоятельно. Уделим этому моменту особое внимание.

Средняя наработка до отказа (MTTF)

Если речь идёт об измерении надёжности накопителя, можно вспомнить о таких двух показателях, как средняя наработка на отказ (MTBF — Mean Time Between Failures), под которой понимается среднее время между отказами, а также средняя наработка до отказа (MTTF — Mean Time To Failure), ключевым отличием которой является допущение, что после отказа система не может быть восстановлена.

Вот что пишет на этот счет Википедия:

В английском языке используется термин MTBF (Mean Time Between Failures) — среднее время между отказами или наработка на отказ, а также MTTF (Mean Time To Failure) — средняя наработка до отказа. Следует заметить, однако, что публикуемые величины MTBF/MTTF часто основываются на результатах ускоренных испытаний — в течение ограниченного времени, позволяющего выявить преимущественно долю производственного брака. В таком случае, заявленное значение MTBF говорит не столько собственно о надёжности, и тем более не о долговечности, сколько о проценте забракованных изделий. Например, MTBF порядка 1 млн/ч для жёсткого диска, очевидно, не означает 114 лет непрерывной безотказной работы — и не только потому, что эксперимент такой продолжительности не мог быть проведён, но и потому, что сам производитель назначает ресурс (срок службы) не более 5—10 лет и гарантийный срок 1—5 лет.

Рассмотрим в качестве примера накопитель Seagate Barracuda 7200.7, который имеет заявленный показатель наработки на отказ 600 000 часов.

В любой крупной выборке накопителей половина этих дисков выйдет из строя в первые 600 000 часов работы. Так как статистика отказов HDD в крупной выборке распределена относительно равномерно, следует ожидать, например, что каждый час будет выходить из строя один диск. При таком значении MTBF можно расчитать частоту отказов за год (Annualized Failure Rate, AFR), которая составит 1,44%.

Но исследования Google и доктора Бианки Шредер выявили совсем иные показатели. Дело в том, что число вышедших из строя накопителей не всегда соответствует количеству дисков, которые подлежали замене. Вот почему Шредер измеряла не рейтинг отказов (AFR), а интенсивность замены накопителей (Annualized Replacement Rate — ARR). Рейтинг ARR основывается на реальном количестве накопителей, заменённых согласно данным сервисных журналов:

В то время, как значение AFR по даташитам варьируются от 0,58% до 0,88%, наблюдаемые показатели замены дисков ARR составляют от 0,5% до 13,5%. Таким образом, наблюдаемый показатель ARR, в зависимости от конфигурации накопителей и их типа, может быть до 15 раз выше, чем значения AFR в соответствии с даташитами.

Производители жёстких дисков определяют число отказов иначе, чем это делаем мы, а потому не удивляет, что данные, которые они приводят, не соответствуют реальной надёжности накопителей. Обычно рейтинг MTBF определяется на основе ускоренного тестирования, информации о возврате винчестеров или с помощью тестирования отобранных дисков. Данные о возврате накопителей — весьма сомнительная информация. Как утверждает Google, «мы сталкивались. с ситуациями, когда тест накопителей давал «зелёный свет» дискам, которые неизбежно отказывали на практике».

Примеры расчетов [ править | править код ]

Для устройства с технической характеристикой MTTF, равной 1 000 000 часов [2] [ править | править код ]

Для одного устройства:

  • Техническая характеристика MTTF устройства 1 000 000 часов
  • Расчётная вероятность отказа устройства для времени 1 000 000 часов (

114 лет) равна: 50,000 %
Расчётная вероятность отказа устройства для времени 100 000 часов (

11 лет) равна: 6,697 %

Для двух устройств. Отказ хотя бы одного устройства:

  • Техническая характеристика MTTF устройства 1 000 000 часов
  • Расчётная вероятность отказа хотя бы одного из двух устройств для времени 1 000 000 часов (114 лет) равна: 75,000 %
  • Расчётная вероятность отказа хотя бы одного из двух устройств для времени 100 000 часов (

11 лет) равна: 12,945 %

Для двух устройств. Отказ всех устройств:

  • Техническая характеристика MTTF устройства 1 000 000 часов
  • Расчётная вероятность отказа сразу 2 устройств для времени 1 000 000 часов (114 лет) равна: 25,000 %
  • Расчётная вероятность отказа сразу 2 устройств для времени 100 000 часов равна: 0,448 %
  • Расчётная вероятность отказа сразу 2 устройств для времени 87660 часов (

11 лет) (10 лет) равна: 0,348 %

Для 10 устройств: Отказ хотя бы одного устройства:

  • Техническая характеристика MTTF устройства 1 000 000 часов
  • Расчётная вероятность отказа хотя бы одного из 10 устройств для времени 1 000 000 часов (114 лет) равна: 99,902 %
  • Расчётная вероятность отказа хотя бы одного из 10 устройств для времени 100 000 часов (

11 лет) равна: 50%

Для 100 устройств: Отказ хотя бы одного устройства:

  • Техническая характеристика MTTF устройства 1 000 000 часов
  • Расчётная вероятность отказа хотя бы одного из 100 устройств для времени 1 000 000 часов (114 лет) близка к 100 %
  • Расчётная вероятность отказа хотя бы одного из 100 устройств для времени 100 000 часов (

11 лет) равна: 99,902 %

Среднее время наработки на отказ ( MTBF ) является прогнозируемым временем , прошедшего между присущими неудачами механической или электронной системы, при нормальной работе системы. Среднее время безотказной работы может быть вычислено как среднее арифметическое времени (среднее) между отказов системы. Термин используется для восстанавливаемых систем, в то время как среднее время до отказа ( MTTF ) обозначает ожидаемое время до отказа для невосстанавливаемых системы.

Определение MTBF зависит от определения того , что считается отказом . Для сложных восстанавливаемых систем, отказы считаются те из условий проектирования , которые размещают систему из эксплуатации и в состояние для ремонта. Неудачи , которые происходят , которые могут быть оставлены или поддерживаться в неотремонтированноге состояния, и не устанавливайте систему из строя, не рассматриваются неудачи под этим определением. Кроме того, единицы, снесенные для обычного планового технического обслуживания или управления запасами, не рассматривается в определении неисправности. Чем выше MTBF, тем дольше система может работать при неудачной.

MTTR: среднее время восстановления

Что такое среднее время восстановления?

MTTR (среднее время восстановления или среднее время стабилизации) — это среднее время восстановления после сбоя работы продукта или системы. Оно включает в себя полное время простоя с момента выхода из строя системы или продукта до момента, когда они снова становятся полностью работоспособными.

Это основной показатель DevOps, который, по мнению программы DevOps Research and Assessment (DORA), можно использовать для оценки стабильности команды DevOps.

Как рассчитать среднее время восстановления

Среднее время восстановления рассчитывается путем суммирования всего времени простоя в работе за определенный период и деления его на количество инцидентов. Итак, предположим, что наши системы были отключены на 30 минут в течение двух отдельных инцидентов за 24-часовой период. 30 делим на два, получаем 15, так что наш MTTR составляет 15 минут.

Ограничения среднего времени восстановления

MTTR используется для измерения скорости полного процесса восстановления. Достаточно ли она высокая? А по сравнению с вашими конкурентами?

Эта общая метрика помогает определить, есть ли у вас проблемы. Однако если вы хотите диагностировать, в какой именно части вашего процесса есть проблема (проблема в вашей системе оповещений? команда слишком много времени работает над исправлением? кто-то слишком долго отвечает на запрос на исправление?), то вам понадобится больше данных. Потому что между сбоем и восстановлением может произойти много чего.

Проблема может быть связана с вашей системой оповещения. Существует ли задержка между сбоем и отправкой оповещения? Достаточно ли быстро оповещения доходят до нужного человека?

Проблема может быть в диагностике. Можете ли вы быстро выяснить, в чем проблема? Существуют ли процессы, которые можно было бы улучшить?

Или проблема может быть с самим процессом исправления. Достаточно ли эффективны ваши команды технического обслуживания? Если они тратят все свое время на исправление, то что именно их тормозит?

Вам нужно будет копнуть глубже, чем MTTR, чтобы ответить на эти вопросы, но среднее время восстановления может стать отправной точкой для диагностики того, существует ли проблема в процессе восстановления и требует ли она более глубокого анализа.

Как и когда использовать среднее время восстановления

MTTR является хорошей метрикой для оценки скорости общего процесса восстановления.

Оценка времени наработки на отказ (MTBF) для генераторов сигналов серии RFSGxx AnaPico

Компания AnaPico AG ведет подробную базу данных жизненного цикла производимого контрольно-измерительного оборудования – в том числе, фиксируются все даты отгрузки каждого подразделения, включая даты отгрузки новой продукции и возвратную отгрузку отремонтированных приборов.

Представленный ниже расчет времени наработки на отказ основан на реальных полевых данных и достоверен, но является упрощенным, так как основан только на тех данных, которые не является конфиденциальными.

В таблице 1 представлены данные, использованные при расчете MTBF и др.справочная информация о линейке генераторов RFSG2, RFSG4, RFSG6, RFSG12, RFSG20, RFSG26.

Дата начала поставки генераторов RFSGxx — июнь 2011. Количество продуктов в серии – 3 (RFSG12, RFSG20, RFSG26). Конструктивные отличия минимальные. Все три генератора доступны в различных форм-факторах, настольном исполнении и для монтажа в стойку 19 дюймов 1U. В упрощенном отчете для оценки MTBF не учитывается разница в дизайне и форм-факторы.

С 1 января 2012 года по 31 декабря 2015 года (4 года). Данные за 1-е полугодие не учитываются (низкий объем поставок в период наращивания сбыта), дабы не искажать статистический расчет время наработки на отказ.

Оборудование для ремонта

Скорость использования продукта (% времени в эксплуатации)

0,1. Таким образом, среднее время работы каждой единицы за рабочий день составляет около 2,4*365/220 = 4 часа.

Вычисляем MTBF для RFSGxx AnaPico

MTBF (время наработки на отказ) = Совокупные часы работы от общего количества поставленных единиц в выборочном периоде / Сбои в периоде выборки

Используя данные таблицы 1 и формулу нахождения времени наработки на отказ, вычисляем:

совокупные часы работы общего количества поставленных единиц в достаточном периоде: 375*0,5*0.1*4*365*24=657 000 часов

MTBF (время наработки на отказ): 657000 / 7 = 93 857 часов

В связи с тем, что данный расчет времени наработки на отказ является упрощенным, во внимание не были приняты некоторые аспекты, которые необходимо учитывать при вычислении более точного показателя MTBF. В конкретном примере вычисления MTBF эти упрощения допустимы, в виду того, что:

Фактически, некоторые дефектные единицы не возвращаются пользователями для ремонта. С другой стороны, согласно данным сервисной службы, почти половина дефектов была вызвана ненадлежащим использованием, и, следовательно, не связана с надежностью оборудования, предусмотренной производителем.

Время на логистику оборудования (в т.ч. международную) также не принимается во внимание, т.к. оно сравнительно короткое по отношению к периоду сбора учетных данных в 4 года.

Вывод

Жесткие диски достаточно надежные и долговечные. Если не допускать перегрузок, обеспечить подвод качественного питания, оптимального охлаждения, исключить вибрацию и внезапные обрывы электропитания, жесткий диск запросто прослужит 5-10 или больше лет. При этом никто не застрахован от внезапной поломки, что приведет к отказу работы накопителя с приличным «запасом прочности». Так же встречается брак и скрытые дефекты, что обычно проявляются впервые месяцы или год эксплуатации. Поэтому желательно хранить ценную информацию на нескольких накопителях или Raid-массивах. Так же стоит периодически просматривать S.M.A.R.T дисков, что бы заранее предупредить выход из строя отработанного накопителя.

А как долго прослужил ваш жесткий диск? Делитесь наработкой вашего накопителя, а так же задавайте вопросы в комментариях под статьей.

Заключение

Сложность определения надежности связана с необходимостью учета большого количества факторов, а также с невозможностью получить экспериментальные результаты. Время наработки на отказ не учитывает условий эксплуатации, поэтому к полученному значению следует относиться с осторожностью.

На основе анализа случаев возврата изделий производитель может определить доминирующие механизмы отказа, идентифицировать соответствующие модели и использовать их для оценки срока службы компонентов, которые будут применяться в конкретном приложении при известных условиях. С практической точки зрения целесообразно исследовать лишь один, наиболее уязвимый компонент системы, поскольку его выход из строя быстрее всего приведет к отказу.

Слабые места системы определяются при анализе дерева отказов или аналогичного исследования. Элементы дерева ошибок оцениваются по известным критериям, а потом выясняется, требуется ли дополнительное тестирование или доработка.

Adblock
detector