[交流] 磁碟阵列(RAID)常见故障与技巧

my358451 该用户已被删除

1楼大中小发表于 2007-3-15 23:43 只看该作者

磁碟阵列(RAID)常见故障与技巧

RAID容错式独立磁盘阵列技术概述

RAID容错式独立磁盘阵列是冗余独立/廉价磁碟数组（ Redundant Array of Independent/ Inexpensive Disks）的简称。它最早是由三个定居在加利福尼亚州伯克利（Berkeley：美国加利福尼亚州西部城市）的工程师共同在1988年提出的。 RAID容错式独立磁盘阵列技术主要的目的就是提供更高的冗余量、更大的存储容量和更强的效能－－这都是相对于一个硬盘的操作系统而言的。现在的很多流行的主机板，比如 Abit KR7A-RAID容错式独立磁盘阵列现在就支持至少3种方式的的RAID容错式独立磁盘阵列（ RAID容错式独立磁盘阵列 0、RADI 1和RAID容错式独立磁盘阵列 0+1）,下面我们就简单的介绍一下RAID容错式独立磁盘阵列中一些常用术语的意思：

数组（array）:指的是一组驱动器，数目可以是从2个到几百个
磁碟（disk）:在RAID容错式独立磁盘阵列中指的就是硬盘
磁碟组（ disk set）:采用一定RAID容错式独立磁盘阵列方式组合在一起的硬盘组
ECC: 错误校验码，在RAID容错式独立磁盘阵列技术中 XOR和 Hamming code是两种最一般的ECC系统。
汉明码（ Hamming Code）:一般用于RAID容错式独立磁盘阵列 2中，是一种较老的ECC系统，现在基本上被XOR校验系统所取代了
SCSI:就是小型计算机系统接头（Small Computer System Interface）的意思。
striping:这个词比较难以翻译，它指的就是把资料分成若干个数据块然后依次存储在多个硬盘中的程序。
XOR: Exclusive OR的简称，一般用于Raid 3、Raid 4和Raid 5中，利用这种技术可以修复磁碟中的资料
其实在一般套用中所使用的或者在一些资料中所提到的RAID容错式独立磁盘阵列模式一般有这么几种： RAID容错式独立磁盘阵列 0、 RAID容错式独立磁盘阵列 0+1、 RAID容错式独立磁盘阵列 1、 RAID容错式独立磁盘阵列 2、 RAID容错式独立磁盘阵列 3、 RAID容错式独立磁盘阵列 4、 RAID容错式独立磁盘阵列 5和 RAID容错式独立磁盘阵列 6。在这些套用中 RAID容错式独立磁盘阵列 2、 RAID容错式独立磁盘阵列 3和 RAID容错式独立磁盘阵列 4相对而言用的到机会会更小一些，所以我们只是简单的进行一下介绍；RAID容错式独立磁盘阵列 0从严格意义上来说还不能算是真正的RAID容错式独立磁盘阵列模式；另外我们还会对于 RAID容错式独立磁盘阵列 6进行一下简单的介绍。

RAID容错式独立磁盘阵列 0

在 RAID容错式独立磁盘阵列 0模式中,资料被分割为一定数量的数据块（chunk）交叉写在多个硬盘上，一般的来说在RAID容错式独立磁盘阵列 0系统中资料被分割的数量同RAID容错式独立磁盘阵列数组所使用的硬盘的数量是有关的，比如RAID容错式独立磁盘阵列 0中采用了3块硬盘，那么资料将会被分为三分依次的写入三个硬盘－－通俗的说这种模式其实就是利用RAID容错式独立磁盘阵列技术让系统认为三块硬盘组成一个容量更大的硬盘，因为这个程序中没有资料校验所以这种RAID容错式独立磁盘阵列模式是读写速度最快的一种。但是由于它的这种结构也就使得这种RAID容错式独立磁盘阵列模式并没有冗余性，如果一块硬盘出现了故障，其它硬盘上的资料也都不能使用了，所以严格意义上来说它不是「冗余独立磁碟数组」的范畴。RAID容错式独立磁盘阵列 0模式一般用于需要快速处理资料但是对于资料的安全性要求不高的场合。

这种RAID容错式独立磁盘阵列模式的特点是简单，而且并不需要复杂和昂贵的控制器。组成中RAID容错式独立磁盘阵列 0模式至少需要2块硬盘，最终得到的存储容量也是这两块硬盘的和。

随机读取效能：很好
随机写入效能：很好
持续读取效能：很好
持续写入效能：很好

优点：最快的读写效能，如果每块硬盘拥有独立的控制器效能将会更好
缺点：任何一块硬盘故障所有的资料都会丢失，大部分的控制器都是通过软件实现的，所以效能并不好

RAID容错式独立磁盘阵列 1

RAID容错式独立磁盘阵列 1模式是让组成RAID容错式独立磁盘阵列 1模式的硬盘互为镜像，这样当你向硬盘中写入资料的时候，它会在两个硬盘上存储相同的资料，这样即使其中一个硬盘出现了故障，系统利用另外一个硬盘一样可以正常执行。RAID容错式独立磁盘阵列 1相对于单颗硬盘来说它的资料读取效能会更好一些，因为当一块硬盘处于忙的状态时，RAID容错式独立磁盘阵列控制器可以去读取另一块硬盘中同样的资料，但是写入资料效能不但没有增长而且可能会有轻微的下降。当其中一块硬盘出现故障之后，新的资料可以写入仍然能够正常工作的硬盘，当使用新的硬盘替换掉原来的硬盘之后，RAID容错式独立磁盘阵列控制器会自动的把资料拷贝了新的硬盘至少。 RAID容错式独立磁盘阵列 1模式的最大特点就是冗余性高，但是由于大部分的功能是利用软件来实现的，所以它会增加处理器的负担。这种RAID容错式独立磁盘阵列模式非常适合对于资料的安全性有极高要求的人。

随机读取效能：好
随机写入效能：好
持续读取效能：一般
持续写入效能：好

优点:资料高可靠性，易于实现，设计简单
缺点：比 RAID容错式独立磁盘阵列 0相比速度较慢,特别是写入速度，另外就是我们仅仅能使用一半的硬盘容量。

RAID容错式独立磁盘阵列 0+1

这种RAID容错式独立磁盘阵列模式其实是RAID容错式独立磁盘阵列 0和RAID容错式独立磁盘阵列 1模式的组合，这种模式至少需要4块硬盘。其中任何两块组成一个RAID容错式独立磁盘阵列 0磁碟数组，然后两个RAID容错式独立磁盘阵列 0磁碟数组可以看成两个容量更大、速度更快的硬盘，它们在组成一个RAID容错式独立磁盘阵列 1磁碟数组。这样的系统在保证了较高的磁碟效能和较高的资料安全性。当然缺点也是显然易见的就是成本较高，构造比较复杂。RAID容错式独立磁盘阵列 0＋1在容错效能方面仅次于RAID容错式独立磁盘阵列 5，一般的用于文件服务器等方面。

随机读取效能：很好
随机写入效能：好
持续读取效能：很好
持续写入效能：好

优点：相对于单块硬盘具有更高的读写效能，而且大大提高了资料的安全性
缺点：成本较高，至少需要4块硬盘

RAID容错式独立磁盘阵列 2

RAID容错式独立磁盘阵列 2模式也相当的复杂，它的用于存储资料的硬盘之间以RAID容错式独立磁盘阵列 0的模式来组合，另外还有专门存放汉明ECC校验码的硬盘，当然为了提高校验码资料的安全，校验码硬盘至少是两个组成RAID容错式独立磁盘阵列 1模式。这样即使存储资料的其中一个硬盘损坏，RAID容错式独立磁盘阵列控制器可以通过汉明码来回复数据到新的硬盘上。 RAID容错式独立磁盘阵列 2一般针对于大资料量操作和超级计算机套用等方面，但是并不适于普通用户。因为要在数据存储的程序中产生就校验码，所以这种磁碟数组的效能并不高。由于各种原因这种磁碟数组模式并没有套用到实际的商业套用中去。因为价格不菲，当然也不会为普通用户所接受了。

随机读取效能：一般

随机写入效能：差，主要因为所有的操作都要经过ECC运算

持续读取效能：很好

持续写入效能：一般

优点：资料安全性高，只要存放校验码的硬盘没有故障就能恢复数据
缺点：昂贵、需要专门的硬盘存放校验码、效率不高、没有商业套用的支持

RAID容错式独立磁盘阵列 3

同 RAID容错式独立磁盘阵列 2模式一样，RAID容错式独立磁盘阵列 3的数据也是被分成数据块依次存储到多个硬盘上的。只是 RAID容错式独立磁盘阵列 3把资料以bit为服务机构来分割并且存储到各个硬盘上。它的优点就是具有高速的读写能力，当然写入效能因为在写入的程序中需要产生奇偶校验码所以速度会受到一定的影响－－它也需要一个专用的硬盘来存储奇偶校验码。当其中一个存储资料的硬盘故障之后，系统依然能够正常执行，但是效能会收到影响，如果在更换坏硬盘之前又有一块硬盘故障，那么这个磁碟数组的资料将会全部丢失，无法恢复。在这种磁碟数组模式下，要求所有的硬盘的转速要同步，这个要求在实际套用中难度不小。RAID容错式独立磁盘阵列 3至少需要3块硬盘，其中一块用于存放奇偶校验码－－奇偶校验码是通过异或运算得到的。

这种RAID容错式独立磁盘阵列模式如果使用软件控制器来实现将会明显的影响效能，因为这中组合比较复杂，不过同RAID容错式独立磁盘阵列 0＋1模式相比它的最少只要3个硬盘就可以实现－－所以成本有所下降，总的来说这种磁碟数组比较适合视濒处理和编辑等方面的套用。

随机读取效能：好

随机写入效能：很差

持续读取效能：很好

持续写入效能：一般

优点：比较适合视濒编辑等需要大资料量使用的场合
缺点：实现各个驱动器的转速的同步非常的困难（目前大部分的硬盘都不支持这个功能），需要复杂的控制器

RAID容错式独立磁盘阵列 4

RAID容错式独立磁盘阵列 4模式同 RAID容错式独立磁盘阵列 3几乎是一样的，数据都是分成小的数据块依次存储在多个硬盘之上，奇偶校验码存放在独立的奇偶校验碟上。唯一不同的是，在数据分割上RAID容错式独立磁盘阵列 3是以bit为服务机构而RAID容错式独立磁盘阵列 4是以Byte为服务机构。这样的可以使得RAID容错式独立磁盘阵列 4同RAID容错式独立磁盘阵列 3具有一样的读取速度，当然写入效能因为需要在写入程序中产生校验码并且存储到校验盘而受到了影响。

这种模式的最大的好处就是不需要各个硬盘之间在转速上保持同步，这就使得控制器不需要那么复杂。它的写入效能是所有RAID容错式独立磁盘阵列模式中最差的。同RAID容错式独立磁盘阵列 3模式一样，当其中一块硬盘损坏，资料并不会丢失，如果在故障的硬盘被替换之前，第二块硬盘也发生故障将会导致所有的资料都丢失。相对于其它的RAID容错式独立磁盘阵列模式，恢复故障硬盘中的资料的效率相当的低下。

这种磁碟数组模式也是至少需要3块硬盘才能搭建而成。奇偶校验码是通过异或运算来得到的。它适于一般的应用程序，包括视濒处理等套用。它的造价也不算高，因为只要一块硬盘作为校验码磁碟就可以了。

随机读取效能: 很好

随机写入效能: 一般，主要因为要像奇偶校验磁碟写入校验码

持续读取效能: 好

持续写入效能: 一般

优点：除了 RAID容错式独立磁盘阵列 3的优点之外，它并不需要同步驱动器转速
缺点：写入效能很差，控制器的要求较高

RAID 4

RAID 4也使用一个校验磁碟,但和RAID 3不一样

RAID 4是以扇区作数据分段,各磁碟相同位置的分段形成一个校验磁碟分段(parity block),放在校验磁碟。这种方式可在不同的磁碟平行执行不同的读取命今,大幅提高磁碟数组的读取性能;但写入资料时,因受限于校验磁碟,同一时间只能作一次,激活所有磁碟读取资料形成同一校验分段的所有资料分段,与要写入的资料做好校验计算再写入。即使如此,小型档案的写入仍然比RAID 3要快,因其校验计算较简单而非作位(bit level)的计算;但校验磁碟形成RAID 4的瓶颈,降低了性能,因有RAID 5而使得RAID 4较少使用。

RAID 5
RAID5避免了RAID 4的瓶颈,方法是不用校验磁碟而将校验资料以循环的方式放在每一个磁碟中,磁碟数组的第一个磁碟分段是校验值,第二个磁碟至后一个磁碟再折回第一个磁碟的分段是资料,然后第二个磁碟的分段是校验值,从第三个磁碟再折回第二个磁碟的分段是资料,以此类推,直到放完为止。图中的第一个parity block是由A0,A1...,B1,B2计算出来,第二个parity block是由B3,B4,...,C4,D0计算出来,也就是校验值是由各磁碟同一位置的分段的数据所计算出来。这种方式能大幅增加小档案的存取性能,不但可同时读取,甚至有可能同时执行多个写入的动作,如可写入资料到磁碟1而其parity block在磁碟2,同时写入资料到磁碟4而其parity block在磁碟1,这对联机交易处理 (OLTP,On-Line Transaction Processing)如银行系统、金融、股市等或大型数据库的处理提供了最佳的解决方案(solution),因为这些应用的每一笔资料量小,磁碟输出入频繁而且必须容错。

事实上RAID 5的性能并无如此理想,因为任何资料的修改,都要把同一parityblock的所有资料读出来修改后,做完校验计算再写回去,也就是RMW cycle(Read-Modify-Write cycle,这个cycle没有包括校验计算);正因为牵一而动全身,所以:
R:N(可同时读取所有磁碟)
W:1(可同时写入磁碟数)
S:N-1(利用率)

RAID 5的控制比较复杂,尤其是利用硬件对磁碟数组的控制,因为这种方式的应用比其它的RAID level要掌握更多的事情,有更多的输出入需求,既要速度快,又要处理资料,计算校验值,做错误校正等,所以价格较高;其应用最好是OLTP,至于用于图像处理等, 不见得有最佳的性能。

2.磁碟数组的额外容错功能：Spare or Standby driver

事实上容错功能已成为磁碟数组最受青睐的特性,为了加强容错的功能以及使系统在磁碟故障的情况下能迅速的重建资料,以维持系统的性能,一般的磁碟数组系统都可使用热备份(hot spare or hot standby driver)的功能,所谓热备份是在建立(configure) 磁碟数组系统的时候,将其中一磁碟指定为后备磁碟,此一磁碟在平常并不操作,但若数组中某一磁碟发生故障时,磁碟数组即以后备磁碟取代故障磁碟,并自动将故障磁碟的数据重构(rebuild)在后备磁碟之上,因为反应快速,加上高速缓存减少了磁碟的存取, 所以数据重构很快即可完成,对系统的性能影响很小。对于要求不停机的大型数据处理中心或控制中心而言,热备份更是一项重要的功能,因为可避免晚间或无人值守时发生磁碟故障所引起的种种不便。

另一个额外的容错功能是坏扇区转移(bad sector reassignment)。坏扇区是磁碟故障的主要原因,通常磁碟在读写时发生坏扇区的情况即表示此磁碟故障,不能再作读写,甚至有很多系统会因为不能完成读写的动作而当机,但若因为某一扇区的损坏而使工作不能完成或要更换磁碟,则使得系统性能大打折扣,而系统的维护成本也未免太高了。坏扇区转移是当磁碟数组系统发现磁碟有坏扇区时,以另一空白且无故障的扇区取代该扇区, 以延长磁碟的使用寿命,减少坏磁碟的发生率以及系统的维护成本。所以坏扇区转移功能使磁碟数组具有更好的容错性,同时使整个系统有最好的成本效益比。其它如可外接电池备援磁碟数组的高速缓存,以避免突然断电时资料尚未写回磁碟而损失;或在RAID 1时作写入一致性的检查等,虽是小技术,但亦不可忽视。

3.硬件磁碟数组还是软件磁碟数组

市面上有所谓硬件磁碟数组与软件磁碟数组之分,因为软件磁碟数组是使用一块SCSI卡与磁碟连接,一般用户误以为是硬件磁碟数组。以上所述主要是针对硬件磁碟数组,其与软件磁碟数组有几个最大的区别:

①一个完整的磁碟数组硬件与系统相接。

②内装CPU,与主机并行运作,所有的I/O都在磁碟数组中完成,减轻主机的工作负载, 增加系统整体性能。

③有卓越的总线主控(bus mastering)及DMA(Direct Memory Access)能力,加速资料的存取及传输性能。

④与高速缓存结合在一起,不但增加资料的存取及传输性能,更因减少对磁碟的存取而增加磁碟的寿命。

⑤能充份利用硬件的特性,反应快速。

软件磁碟数组是一个程序,在主机执行,透过一块SCSI卡与磁碟相接形成数组,它最大的优点是便宜,因为没有硬件成本(包括研发、生产、维护等),而SCSI卡很便宜(亦有的软件磁碟数组使用指定的很贵的SCSI卡);它最大的缺点是使主机多了很多工作(process),增加了主机的负担,尤其是输出入需求量大的系统。目前市面上的磁碟数组系统大部份是硬件磁碟数组,软件磁碟数组较少。

4.磁碟数组卡还是磁碟数组控制器

磁碟数组控制卡一般用于小系统，供单机使用。与主机共享电源，在关闭主机电源时存在丢失快取中的资料的的危险。磁碟数组控制卡只有常用总线方式的接头，其驱动程序与主机、主机所用的操作系统都有关系，有软、硬件兼容性问题并潜在地增加了系统的不安定因素。在更换磁碟数组卡时要冒磁碟损坏，资料失落，随时停机的风险。

独立式磁碟数组控制一般用于较大型系统,可分为两种：
单信道磁碟数组和多信道式磁碟数组，单信道磁碟数组只能接一台主机，有很大的扩充限制。多信道磁碟数组可接多个系统同时使用,以群集(cluster)的方式共享磁碟数组,这使内接式数组控制及单接式磁碟数组无用武之地。目前多数独立形式的磁碟数组子系统，其本身与主机系统的硬件及操作环境?
--

首先，IDE的性能不会比SCSI更高的。特别是在多任务的情况下。一般广告给出的是最大传送速度，并不是工作速度。同一时期的IDE与SCSI盘相比，主要是产量比较大，
路比较简单，所以价格比SCSI低很多，但要比性能，则差远了。

RAID并没有限制使用多少个盘，应时盘越多越好。
对于SCSI结构的RAID来说，盘的最大数量与SCSI信道（SCSI总线）的数量有关一般是每个信道最多装15个盘（SCSI/3）对于FC-AL（光纤)则是每个信道200个盘当然，要有这样大的磁碟箱才行!

现在选择IDE磁碟数组卡(IDE RAID卡)来确保数据安全的人越来越多，如何正确使用IDE RAID卡也是个学问。下面我们就以采用HPT370A/372控制芯片的Rocket100 RAID卡为例来给大家做些讲解常见故障与技巧。

　　安装需知

　　先找一个空闲的PCI插槽将该卡插进去并将硬盘用硬盘线和该卡安装连接好，安装完适配卡后，在激活计算机的过程中，你会看到该适配卡已成功安装并被系统识别。而在系统开机时，其控制器的BIOS会显示硬盘状态的信息，按CTRL+H即可进入结构非常清楚的设置菜单，在这里你可以设定磁碟数组：两个硬盘可以选择条带模式(RAID 0)和镜像模式(RAID 1)，有三块硬盘的话只能选跨越扩充或条带模式，而四块就可以选跨越模式、条带模式或条带结合镜像模式(RAID 0+1)，而选用RAID 1的话硬盘必须进行同步化。

　　常见安装故障排除

　　当Rocket100 RAID卡被识别后，板上BIOS开始检测连接设备。请注意屏幕上出现的设备，如果所连接设备全部被正确扫瞄出，则说明设备已正确连接并被系统识别，再安装好驱动之后你即可使用RAID功能了。而如果其中有的设备没有被识别出，你可开启机箱，将所连接设备的电源线是否插牢，必要时换一个电源插头试一试；所连接设备的资料线是否正确连接并已插牢，必要时换一根资料线试一试；如果一根资料线上接有两个设备，请确认这两个设备的主从跳线是否设置冲突(一根资料线上的两个设备必须为一主一从)。

　　硬盘容量的选择

　　考虑到系统的操作性能及磁碟的利用率，我们建议你最好使同样容量的硬盘。但你如果一定要用不同容量的磁碟，需要注意的是整个数组的容量要由该数组中最小容量的硬盘决定，例如在由3个磁碟组成的RAID 0数组中，总容量等于最小磁碟的容量的3倍。在RAID 1数组中，目标盘的容量不能小于源盘的容量。该数组的总容量就等于最小磁碟的容量。但是JBOD是个例外，两个或更多的不同容量的硬盘可以组合起来，形成一个逻辑单盘。

　　BIOS设置须知

　　IDE RAID卡是即插即用设备，所以，你不必改变系统CMOS。系统会自动指出中断及端口的地址。而在CMOS设置中将所有设备处于none或unstalled状态时，即可将IDE RAID卡设为激活卡；或将SCSI设备调为激活序列的第1位，也可将RAID卡设为激活卡。

　　RAID损坏了怎么办

　　如果一个RAID级别被破坏了，可以按以下操作进行检查：先计算机关机的电源，检查硬盘电源的连接，以及资料线是否与硬盘和RAID控制卡连接正常再重新开机；如果以上操作仍不能解决问题，可能是硬盘的问题，对于RAID 1和RAID 0+1，可以用一个新的硬盘将已经被破坏的硬盘上的资料进行备份，所有的资料都不会丢失的。对于RAID 0和JBOD，必须先删除原有的RAID级别，再进去行RAID新增，但要注意，此动作会使硬盘的所有资料丢失，所以，对RAID 0和JBOD，请务必经常对资料进行备份。

TOP

作者的其他主题:
我想买个9位QQ,不带4的磁碟阵列(RAID)常见故障与技巧

‹‹ 上一主题 | 下一主题 ››