Ресурс современных жестких дисков. Longread о внезапном

И чё, и чё?

В целом три исследования практически промышленной эксплуатации жестких дисков показывают, что при постоянной нагрузке срок полезного их использования составляет примерно до 5 лет или 43800 часов. Не каждый диск в SOHO доживет до столь почтенного пробега. С другой стороны, эта статистика совершенно не значит, что не будет экземпляров, которые бы не прожили значительно дольше, например, тысяч 100. Но таковыми будут явно не все и в домашних условиях по первому чиху накопитель мало кто, в отличие от дата-центра, меняет. Поэтому отдельные «винты» даже с бэдами будут уверенно крутиться до победного, т.е. полного конца. В ряде случаев пользователи даже не будут подозревать о фактическом состоянии накопителя. Про «тихие ошибки» написано выше.

При этом важно, что производственные дефекты проявятся, скорее всего, на ранних сроках, покрываемых гарантией, после чего кондиционный диск открутит положенное.

Занимательно, но гарантия на некоторые твердотельные накопители, например, от Intel, тоже составляет 5 лет, Crucial также предлагает 5 летнюю гарантию и WD тоже. В случае с твердотельными накопителями понятие гарантии еще оперирует циклами перезаписи, но в общем случае условный пользователь имеет все шансы за 5 лет их не выработать.

В случае же обычных жестких дисков количество циклов записи-стирания условно считается неограниченным и механика деградирует заведомо раньше магнетизма (правда детально причины почему-то никто не поясняет, но пользователем достаточно этой расплывчатой формулировки — они, типа, поняли), т.е. внимание на это обращать смысла никакого нет, а вот на SMART — есть.

Что касается жестких дисков, то ожидать увеличения срока их полезного использования можно было бы, но не стоит.

Можно было бы потому, что совершенствуются технологии изготовления компонентов, разрабатываются новые материалы и технологические процессы их обработки, сборки изделий. Задавшись целью произвести надежный во времени жесткий диск реализовать такую цель технической проблемы сегодня не составляет, особенно если не гнаться за скоростями.

А не стоит, поскольку это никому среди производителей особо-то и не нужно. Ввиду взрывного роста генерации объемов данных человечеством (причем в основном бизнесом в части big data) актуальным выглядит вопрос скорее расширения объемов хранения, в т.ч. на единицу площади, а надежность можно перекрыть избыточностью и заменой накопителей в массивах — это быстрее, дешевле и проще, нежели создавать абсолютно надежный накопитель, который устареет морально быстрее, чем физически. Действительно, какой практический и массовый толк от работающего древнего накопителя на 2 ГБ сегодня? Еще и производители главного «железа» задают SOHO тон ежегодными сменами платформ, где новыми системными накопителями будут твердотельные, а бэкапы сольются в корпоративные облака, где проблемы технологий хранения клиентов на местах вообще не интересуют (по крайней мере, пока не прилетят черные лебеди в виде пары падений крупных облачных операторов)? Привет сюжету именно фильма, а не книги «Бойцовский клуб» — там есть релевантное.

Локальные же холодные данные можно хранить и на собственном жестком диске(ах) — они стоят сегодня беспрецедентно недорого и в случае RAID все вполне надежно, да и устареет по объему все скорее всего быстрее, чем износится, особенно в случае креативно-архивного использования.

В общем, производители 3–5 летнюю (WD Black для НЖМД) гарантию берут не с потолка и танцуют вокруг именно этой цифры, хотя на практике большинство накопителей в домашних и околопрофессиональных условиях ее перешагнет. Почему положение дел именно такое — пояснено выше: на подходе новые технологии и повышать выносливость старых никто не будет, а вот что покажут инновации — увидим уже совсем скоро.

В любом случае списывать со счетов даже текущие технологически диски еще рано и об этом наш следующий материал.

Но, one more thing, как говорят любители фруктов

Внимательный читатель уже задается вопросом — где же технические первопричины описанного, Билли? Не втирают ли нам какую-то дичь? Так много слов о ресурсе, износе и прочем, а по факту никакого технического матана! Что же изнашивается? Как это происходит?

Ресурс современных жестких дисков

Их есть (с), но придется несколько расширить рамки публикации. Данные опять же из открытых источников — у нас же OSINT! И в этот раз мы смотрим на точку зрения одного из трех оставшихся китов, на которых стоит рынок HDD — WD.

Коротко вспомним, что такое жесткий диск — это устройство хранения данных, основанное на магнетизме. В литой и фрезерованный корпус (шасси) помещается сборка рабочих твердых магнитных дисков, которые крутит электромотор. Над и между пластинами бегают пишущие и читающие головки на длинных коромыслах, чтобы охватить весь радиус блина. Рабочее пространство закрывается крышкой — там «чистое» в плане пыли пространство. Есть еще плата управления, шлейфы и разъем интерфейса снаружи. На плате будет электроника в виде контроллера, DRAM-буфера и т.п.

Ресурс современных жестких дисков

На картинке негерметичный пример. Для герметичного в случае, например, гелия принципиальнее отличия конструкции только в газообмене ну и тонкости элементов.

Итак — самый жир

WD нам сообщает, что около 70% всех проблем жестких дисков — это проблемы зазора головок и блинов. При его нарушении происходит контакт с неблагоприятными последствиями.

Ресурс современных жестких дисков

Сегодняшние зазоры — менее 2 нанометров! И секретный инсайд из WD постулирует, что, экстраполируя это на реальным мир, мы получим полет на самолете через все США на высоте 1 м с неравномерностью территории +/– 4 см. Не впилиться бы в секвойю, но их в нашем макроаналоге не предусмотрено. Именно поэтому жесткие диски боятся ударов.

Ботающие на английском увидели слово lubricant. Оказывается (и я гарантирую, что многие не знали), на блине жесткого диска есть монослой смазки для снижения адгезии и трения между головками и диском. Поднятие лубриканта слайдером — явление целиком нормальное в своих масштабах, но «глубоко» копать категорически нельзя, ибо будут в прямом смысле запилы рабочей поверхности.

Ресурс современных жестких дисков

Дело в том, что физические характеристики мономолекулярных пленок зависят от фактического количества материала и последствия копки могут быть отложенными.

Ресурс современных жестких дисков

Помните про магию и самоуспокоение — теперь по ходу материала вы начинаете знать еще немного больше.

Ресурс современных жестких дисков

Но мы продолжим. На головках и блинах используется покрытие из алмазоподобного углерода (химики намекают, что алмаз и есть углерод, но алмаз — форма, обуславливающая эксплуатационные характеристики). Сегодняшние толщины покрытий — чуть ли не менее нанометров. В случае утончения начинается рост рисков запилов, износа и даже миграции (!) магнитного материала. Если копать дальше, то мы уйдем в трибологию, что, в общем-то, очевидно. О трибологических аспектах в контексте головок и блинов жестких дисков почитать можно по ссылке.

В общем, тема поддержания достаточного просвета пары пластина-головки является чуть ли не главной в вопросах надежности современных жестких дисков. Множество факторов, на нее влияющих приведено на иллюстрации ниже:

Ресурс современных жестких дисков

HDI расшифровывается как HEAD-DISK INTERACTION.

Правда красиво? Все это иллюстрирует тезис о том, что новые поколения жестких дисков, ввиду усложнения, будут подвержены новым, возможно неизвестным сегодня, рискам. Инженерам действительно непросто — рынок требует бОльших объемов дата-центров. И объемы по вменяемым ценам сегодня могут дать только старые (старые ли уже?) добрые (точно не злые) жесткие (об этом в первой части) диски (внешне, правда, прямоугольные). Важно понимать, что вопросы надежности являются объектом процесса моделирования на стадии разработки и модели эти эволюционируют вместе с индустрией — иного выхода нет, иначе рынок покажет производителю филейную часть. Поэтому же в ванноподобной кривой из начала материала всегда будет первый сегмент, ответственный за т.н. «детские болезни».

Ресурс современных жестких дисков

О ванной за пределами IT

Первый сегмент формируется косяками в вопросах качества, материалов, ошибками инжиниринга (привет некоторым моторам группы VAG и BMW, например), а также проблемами самого производства как процесса.

Немного окинем взором мировые мемы по теме. Вначале 2000-х потребители продукции АвтоВАЗа столкнулись с проблемой вибрации руля на скорости 110 км/ч. Проблема не решалась — лучшие балансировочные станки выводили колеса в идеальный баланс, но в руль все равно било. В итоге население экспериментально установило, что если, внимание, отбалансировать колесо прямо на ступице, то проблема исчезала. Называлось это финишной балансировокой и стоило дорого, при смене колеса делать приходилось заново. Письма производителю ожидаемо не дали никакого результата, и народ вошел в исследовательскую фазу. А ларчик открывался просто — на конвейер закупили колесные диски, где диаметр центрального отверстия на 1,5 мм был больше посадочного места на ступице. На шиномонтажах колесо прикручивали со смещением, что и вызывало биение в руль идеально отбалансированного колеса. По этой же причине балансировка на ступице проблему решала, но прошли месяцы и чуть ли не годы, пока производитель прокрастинировал, а народ ломал головы. Проблему, кстати, решили сами пользователи, а не завод. Мучения c ранним двухдисковым сцеплением от VAG и радости владельцев 5-литровых V8 от BMW, употребляющих масло ведрами, вначале 2000-х — тема отдельная. Так что не только Аpple умеет накосячить с антенной, кнопками, экранами и держать покерфейс, а тут — какие-то копеечные диски.

По этим же причинам у кривой есть замыкающая часть (хотел написать — последняя, но вдруг нас читают парашютисты, КВСы, штурманы дальнего хождения и иже с ними) и, как мы слегка подсмотрели, там есть чему изнашиваться кроме мотора. Поэтому наступление периода критического роста вероятностей выхода носителя из строя называется так не случайно — в этом периоде важные накопители лучше таки менять на исправные.

Матан производителей, в отличие от приведенных выше данных, говорит о том, что время — самый плохой доктор для жестких дисков. Картинка чуть ли не из второго закона термодинамики — энтропия, т.е. процент отказов возрастает.

Ресурс современных жестких дисков

А вот следующим фактором вылета «винтов» производители считают… температуру.

BSOD WTFаками и его разрешение

Самое время читателям предъявить мне:

Ресурс современных жестких дисков

Да как так-то ? (с) Вверху же совсем обратное!

Амбивалентность ситуации разрешить было непросто, но я смог.

Ресурс современных жестких дисков

Графики надо читать и анализировать!

Смотрим внимательно слайды. Раз.

Ресурс современных жестких дисков

И два.

Ресурс современных жестких дисков

Если коротко, то вышеподписавшиеся охватывали вниманием иные температурные диапазоны, где влияние температуры особо-то и не проявляется. Дата-центры — не сауны с блекджеком и там с кондиционированием все в порядке.

Зато вывод WD сотоварищи постулирует о том, что вероятность отказов возрастает вдове на каждые 15 градусов Цельсия роста температуры. Заметим — это не исключает мнение предыдущих ораторов. Градусов с 50-ти начинается серьезный рост перспективы вылета накопителя. Именно перспективы, а не самих вылетов. Но почему?

В соединении с изложенным возникает и требует изучения уже вопрос влияния рабочих нагрузок на ресурс жестких дисков и это привело производителей к пониманию того, что количество переданных терабайт является параметром, напрямую связанным с надежностью. Сюрприз! Жесткие диски уже тоже имеют по этой части рамки — почти как твердотельные, почти. Пока почти.

Ресурс современных жестких дисков

Удивленная публика видит новый показатель живучести НЖМД — Mean Petabytes to Failure (MPbF) и производные.

Mean Petabytes to Failure (MPbF) и производные

WD предлагает график, который получился в результате тестового забега 1200 накопителей в течении 1000 часов при сильной рабочей нагрузке с коррекцией по температуре. В итоге статистически значимые данные подтверждают, что с ростом нагрузки процент отказов растет при прочих равных. И наоборот. Причем растет кратно. Из рисунка явно видно, что в абсолютном выражении эти показатели не пугают, но, тем не менее, они существуют в реальности и ее определяют для владельцев этих накопителей.

Ресурс современных жестких дисков

Возвращаясь к головкам, пластинам, смазке и трибологии производители осознали, что надо дорабатывать напильником и срочно. Нанометры уменьшаются и вот уже нагрев реально вызывает расширения, способные привести к нехорошим физическим последствиям. Родились идеи типа динамической высоты головок. Много матана по ссылке, а мы посмотрим наглядную агитацию про Dynamic Fly Height (DFH).

Ресурс современных жестких дисков

Показатели перспектив отказов изображены на иллюстрации: тут и миграция, и износ, и рост вероятности отказов в разы.

Ресурс современных жестких дисков

Критичным считается время близкого нахождения головок к блинам (дальше — копка и запилы!), что находится в прямейшей связи с переданными объемами информации, т.е. суммой запись+чтение.

И это только «дорожный» просвет, а еще мы помним про температуру, как причину, и переданные терабайты, как ориентир. В общем, парадигма надежности жестких дисков в последнее время меняется, и НТП этому прямо способствует. Соответственно разрабатываются новые модели определения надежности, измеряемые точки опоры этих моделей и инструментальные возможности это квантифицировать. WD, в частности, обращает внимание на деградацию головок по магнитным и электрическим измерениям, расстояния между рабочими (в т.ч. магнитными) элементами и уровень ошибок. Без нагрузки головки могут быть «поднятыми» над пластинами или запаркованными в специальном месте за пределами магнитной поверхности блинов.

Да, жестким дискам тоже отведут срок эксплуатации

Выливается все это в один важный момент — некоторое время назад (почти 10 лет, но мало кто заметил) производители жестких дисков как минимум начали оценивать теоретические рамки нагрузки для своих продуктов и сегодня имеют вполне сформированное видение по этому вопросу.

Так Seagate, например, ведет в своих дисках статистику показателя Workload Rate Limit (WRL). Это что-то вроде расчета годового пробега в терабайтах. Seagate условно отводит механическому диску некорпоративного класса 180 терабайт в год или примерно 340 мегабайт на минуту работы шпинделя в режиме чтения или записи (нагрузка в этих режимах суммируется для расчета). Компания при этом замечает, что на гарантийные обязательства этот показатель в общем случае не влияет, а рассчитывается для того, чтобы зафиксировать порог нагрузки, при котором вероятность поломок накопителя возрастает. Бытовому пользователю столкнуться с такими нагрузками вряд ли придется. Диску корпоративного сегмента по логике Seagate при этом полагается 550 терабайт на год нахождения включенным. WD ориентируется на 55 ТБ в год для настольно-мобильного сегмента, 180 — облачного, 550 — корпоративного и «топчику» для дата-центров отводит 800 терабайт в год. Как бы эти 800 освоить еще. Toshiba такие показатели именует Annual Workload Rating и, например, «Выживальщику» S300 на 4 ТБ отводит 110 терабайт годовых. Детальнее по ссылке, сноска №5. Там тоже прямо указано, что с гарантией это связи не имеет, но она у всех-то limited.

Вполне вероятно, что с прогрессом в сфере технологий, которые используются в жестких дисках, эти цифры трансформируются в нечто более близкое к количеству перезаписей ячеек твердотельных накопителей и вместо информационного триггера станут гарантийным лимитом, при выходе за который производитель откажется нести гарантию. Но все это потом, а пока считается, что целенаправленно уложить накопитель потребители за 3–5 лет не должны и многие продолжают думать, что жесткие диски остаются быть «вечными». На самом деле идею нужно разбавить еще и тем, что маркетинговый отдел любого производителя под крышку бы и механизм самоликвидации запихнул для роста продаж, а главное — возможности планирования их регулярности. Но можно оскандалиться.

Время смелых

Но можно и запихнуть! Здесь следует отметить достижение по протиранию до дыр Optane и странную позицию протирателей по этому поводу. Известные адепты протирания установили, что выходу из строя SSD предшествует начало использования запасных блоков контроллером твердотельного накопителя, что, в общем-то, очевидно, перед тем, как крякнуть, с солью можно и нужно даже запасные блоки доесть. Нюанс «Оптана» был в том, что его SMART по вылету сообщал, что запасные колеса никто не ставил и они лежат в багажнике чистенькие и пупырчатые. В соединении с тем, что Optane чуть ли не единственный накопитель, который в итоге не отвалился с концами, а перешел в режим Read-Only с сохранением доступа, указанное тревожно намекает противосамолетным прожектором в ночи, что вывод его из эксплуатации произошел не по факту износа либо поломок разного рода, а запланированно в прошивке производителем. Но поскольку пробежал он явно больше, чем было заявлено Intel в спецификации, то и предъявлять вроде как нечего.

Настораживают лишь два момента:

  • «Офигеть конфетки «Тузик»!», т.е. сам факт такого не просто запланированного рассчетно, а конкретно, похоже, изначально отведенного пользователю ресурса! Optane быть может и больше выбегал, но кто ж новый купит? — песня известная.
  • Где были очки протирателей, когда они смотрели на результат? И почему они так упорно игнорируют очевидное и избегают комментариев по существу? Кто бы им бинокль вручил, хотя, как в Карлсоне, папа, т.е. Intel, мог строго настрого запретить есть варенье, а именно публиковать эти наблюдения, т.к. дорогую реально железку не для этого вручали. Ну Вы понели… (с)

Я практически уверен, что если бы нашелся Skynet, способный дизассемблировать прошивку «Оптана», то мы бы получили фактические вещдоки обозначенного, но, видимо, не сегодня.

Ресурс современных жестких дисков

А пока и безсвинцовой (или как троллили в комментариях — безплюмбумной) пайки местами хватает.

Аннушка уже разлила масло

Пока же читатели не так много, как следовало бы, уделяют внимания продвигаемому показателю DRWPD — Disk Read or Write Per Day — т.е. допустимой суточной нагрузке, а ведь именно она в последнее время становится все более ключевой в пресс-релизах и прямо проистекает из изложенного. Именно этим показателем пытаются гримировать ситуацию с ресурсом QLC, например, в Micron.

И делают это, подводя статистику, что, мол, этот показатель падает и это если не нормально, то хотя бы в ожидаемом числится. Окно Овертона в действии.

Ресурс современных жестких дисков

А вот тут мы вообще в разделе Wow! That’s Cool! (надо больше восклицательных знаков) узнаем, что, оказывается, есть тренд того, что ПО больше читает, чем пишет! Там еще заливают, что read-centic!!! софт, о котором вчера еще никто в такой формулировке не слышал (а браузерный кэш так вообще смотрит на таковой как на оленя), это то, чему твердотельные накопители страх как подходят. Особенно на QLC, на фоне того, что жесткие диски-то имеют показатель рекомендуемой нагрузки, который исполняется как в ходе чтения, так и в ходе записи. А QLC-то ведь на чтение не изнашивается!

Я не знаю, что они там в маркетинговом департаменте Micron употребляют (а если верить Пелевину, то что-то таки должны), но это очень напоминает заявление Intel о лидирующей в отрасли плотности битов на ячейку! Может вторые как-то покусали первых? В любом случае у нас очередной маркетинговый WIN! Оказывается, нам всем очень не хватало QLC. А ведь их могут читать дети!

8-bit MLC в 2019

Страшно подумать, что они наколдуют под OLC — да, восьмиячеечные решения Micron выкатит уже летом, а к зиме и накопители подвезут. Вот где маркетингу придется выворачиваться наизнанку, но, как видим, фундамент залит уже сегодня — читающее ПО и изнашиваемые жесткие диски — герои будущей драмы. Ах ну да, я забыл — это же будет 8-bit MLС, в 2,(6) раза больше битов чем у лучших образцов TLC! Обережно, покращано!

Ресурс современных жестких дисков