一眼看透机械硬盘可靠性

在企业级存储市场中,结构化数据的存储很快就会是SSD的天下,机械硬盘(HDD)会逐步退出;非结构化数据因为其巨大的容量,从成本的角度来看,会长时间存在。但不论怎么说,SSD代替HDD是趋势。
生产HDD的厂家很少,就WD、希捷、HGST等,其中,HGST也是WD的子公司。看似他们垄断了市场,但他们的日子却不好过。因为HDD大势已去,在SSD领域,领先的却是Intel、三星等玩家。HDD越做越大,价格也越来越低。
但IPFS等存储挖矿项目却让HDD市场又看到了一点希望。今年,10TB以及以上的硬盘大幅度缺货,价格比去年的最低点已经上涨了30%。疯狂的玩家囤矿机(存储服务器)、囤硬盘。我从好几个地方,都听到了有人批量买几万块硬盘的事情。
【注:只是听说,不一定代表事实】也冒出来了各种各样的IPFS矿机,大多数都像最低端的群晖NAS一样,插了一块硬盘,扩展性不是特别好,放在家里,等待文件币发布就挖矿。
如果这个矿机能做一个家用NAS,也挺好的。许多人也在对比各种矿机。但大家容易忽视的是,同是机械硬盘,其可靠性也千差万别。我们不能光看硬盘容量,而要看洞察更多的硬盘参数。好在这些参数不多,非常容易理解。
我们就以希捷的硬盘为例来进行讲解。型号太多,就说说几种典型的。
1. 桌面级硬盘。这是消费级电脑中最常用的硬盘,基本都是采用SATA接口。比如希捷BarraCuda系列的8TB硬盘ST8000DM004。官方的参数请见:https://www.seagate.com/www-content/datasheets/pdfs/3-5-barracudaDS1900-10-1802CN-zh_CN.pdf。
其中里面有几点大家比较感兴趣。

2. 监控级硬盘。这是在安防系统中最常用的硬盘。基本都是采用SATA接口。SkyHawk监控盘系列其官方参数请见:https://www.seagate.com/www-content/datasheets/pdfs/skyhawk-3-5-hdd-DS1902-8-1803CN-zh_CN.pdf

3. 企业级硬盘。这是企业级存储系统和数据中心最常用的硬盘。可靠性自然比前面两种硬盘要高很多。接口有SATA和SATA,其中SAS又分NL-SAS(近线SAS)和高转速SAS(1万转或1.5万转)。
NL-SAS盘和企业级SATA盘的主要差别在于接口采用SAS,可以支持双端口(用于双控存储系统,可以两个主机同时连接),其他参数基本一致。高转速SAS盘的转速高于我们常用7200转,性能更好,可靠性也更高,但容量相对较小,价格也比较昂贵。
大容量企业级SATA硬盘(8TB及以上)一般在内部充氦气,利用氦气的惰性,可以全面提升硬盘容量,从数据中心的坏盘率统计来看,其可靠性也更高。这里我们讨论希捷的企业级SATA硬盘,以常用的10TB充氦气硬盘ST10000NM0016为例。,其官方参数见: https://www.seagate.com/files/www-content/datasheets/pdfs/exos-x-10DS1948-1-1709CN-zh_CN.pdf

回过头再来看看“不可恢复错误/被读数据(位)”这个参数。企业级SATA盘和较新的监控级硬盘,比较老的监控级硬盘和桌面级硬盘要高一个数量级,自然要稳定许多。
桌面级硬盘和监控级硬盘的对应参数名字前加了一个“最大”,企业级硬盘没有写“最大”,不知道是否希捷有意为之。
如果是,证明企业级硬盘的读写错误更低。以前问过硬盘厂商的工程师,他们回复说,桌面级硬盘和监控级硬盘没有防震芯片,所以错误率高;企业级硬盘,和较新的监控级硬盘,都加了这个芯片,通过避震的方式来提高可靠性。
我们也接触过大量的存储项目,有上万片硬盘实际运行的稳定性统计数据。某项目用了80%的监控级硬盘(不可恢复错误/被读数据(位)这个值为1/10E14)和20%的企业级SATA硬盘,运行了三年,监控级硬盘的坏盘率超过10%,但企业级硬盘的坏盘率低于1%
桌面级硬盘因为都不能全天候运行,所以完全不适合这种大型的项目。另外,如果大容量硬盘做RAID5或者RAID6,坏了一块盘,会导致硬盘重建。
如果该参数为1/10E14,基本上硬盘从头到尾读一遍,就有很大的概率产生新的不可恢复错误,直接导致第二块坏盘的产生。这个也是为什么RAID5/6在重建的时候,很容易产生第二块盘,导致RAID出现更严重问题的原因。
实际上,重建的时候,所有硬盘都在高速读写,其震动本身就会导致更多的问题。不用RAID容易坏盘导致数据丢失,使用RAID也容易坏盘,那怎么办?选择更高可靠性的硬盘,才是正确的办法。
如果是高转速的SAS硬盘和企业级SSD,不可恢复错误/被读数据(位)往往都是1/10E16甚至更高,其出错的概率就会更低了。
除了上面的HDD,希捷还有NAS系列的硬盘,可以满足全天候的运行需求,价格比企业级硬盘低。但因为我没有用过,所以暂时不评述。
再好的硬盘,也可能会很快坏掉。以上所有的参数,都是针对大批量硬盘而言的平均值。
所以,通过软件进行合理的硬盘管理(RAID、CACHE、硬盘全程监控),是必要的手段,且需要一个易用的存储管理系统,在硬盘真的出现问题时,能够及时发现,及时排除故障,保证系统的稳定运行。算了,说再多了就是广告了。
想了解更多存储方案(包括HPC/AI存储和存储挖矿)请访问 http://www.storswift.com
本文来源于互联网:一眼看透机械硬盘可靠性

本文由 Ipfs币 作者:ipfs币 发表,其版权均为 Ipfs币 所有,文章内容系作者个人观点,不代表 Ipfs币 对观点赞同或支持。如需转载,请注明文章来源。
36

发表评论