1. Đưa các ổ cứng vào một phòng thử nghiệm riêng trước khi sử dụng cho sản xuất
Các ổ đĩa cứng phải chịu một tỷ lệ lỗi rất cao và tỷ lệ đó được ví như “Tỷ lệ tử vong ở trẻ sơ sinh”. Về bản chất, điều này có nghĩa rằng các ổ cứng mới thường bị lỗi trong những tháng sử dụng đầu tiên. Nguyên nhân có thể là vì những nhược điểm trong quá trình sản xuất không được phát hiện ngay mà lỗi chỉ xảy ra khi ổ cứng được đưa vào sử dụng thực tế.
Bất cứ lý do nào, các ổ cứng sống sót qua những tháng đầu tiên sử dụng không bị lỗi sẽ hoàn toàn có khả năng tồn tại trong nhiều năm.
Điều này có ngụ ý nhắc nhở các bạn rằng, không nên sử dụng các ổ cứng mới toanh trên các máy chủ nhằm tránh xác suất lỗi cao ở giai đoạn này. Một phương pháp khác để nhận biết là cho chúng chạy trong các máy tính thử nghiệm trong khoảng thời gian chừng ba tháng. Quá trình thử nghiệm này sẽ loại ra được các ổ cứng “ốm yếu”, và những máy tính “khỏe mạnh” còn lại sẽ được đưa vào sử dụng trong các máy chủ sản xuất.
2. Phát hiện ra những khuyết điểm bề mặt trước khi sử dụng
Hầu như tất cả các ổ cứng đều có những khuyết điểm bề mặt trên phương tiện từ tính dùng để lưu trữ dữ liệu bên trong. Dữ liệu được lưu trên một cung từ (sector), nếu có một lỗi bề mặt nào đó thì lỗi này có thể gây hiện tượng khó đọc, trong một số trường hợp, có thể hoàn toàn không thể đọc dữ liệu. Khi ổ cứng phát hiện một cung từ nào đó bị lỗi vì khó đọc, nó sẽ chuyển dữ liệu đi nếu có thể và dừng việc sử dụng cung từ đó để ngăn chặn việc mất mát dữ liệu sau này.
Tuy nhiên vấn đề phát sinh với phương pháp này là nó chỉ có khả năng phát hiện các cung từ (sector) tồi sau khi được sử dụng, và với biểu hiện là hiện tượng khó đọc các dữ liệu đã được lưu. Phương pháp ở đây là tìm và đánh dấu tất cả các sector có bề mặt tồi trước khi bắt đầu việc lưu trữ dữ liệu.
Có lẽ tiện ích hiệu quả nhất để thực hiện ý tưởng này là chương trình mang tênSpinRite. Chương trình này sẽ ghi các mẫu từ tính rất yếu vào bề mặt đĩa và test xem nói có thể đọc các dữ liệu đó không. Nếu không thể đọc các mẫu thử này từ một vùng nào đó trên đĩa, SprinRite sẽ cho rằng đó là một sector tồi và sẽ thông báo cho ổ cứng biết để đánh dấu sector tồi này.
Chạy SpinRite trên mọi đĩa cứng trước khi sử dụng – một quá trình có thể mất đến vài giờ đồng hồ - sẽ tránh được tình trạng sử dụng các sector tồi để lưu dữ liệu, làm giảm hiện tượng mất dữ liệu không đáng có do lỗi không thể đọc những sector nào đó trong tương lai.
3. Chọn ổ cứng một cách cẩn thận
Nhiều nghiên cứu cho rằng, sự tin cậy của ổ cứng hoàn toàn khác nhau và sự khác nhau này phụ thuộc vào model và quá trình sản xuất của chúng. Mặc dù vậy một model ổ cứng của một nhà sản xuất nào đó có thể được chứng tỏ là rất tin cậy nhưng điều đó vẫn không có gì bảo đảm cho một model khác của một nhà sản xuất khác – hoặc thậm chí cùng nhà sản xuất đó.
Điều này có nghĩa các bạn cần phải để ý tất kỹ cả các ổ cứng để biết được các model nào không tin cậy. Cách tốt nhất là bạn nên remove từ dịch vụ tất cả các ổ cứng của một model nào đó mà bạn đang sử dụng nhưng thiết lập chúng là các ổ cứng không tin cậy – mặc dù vậy không có sự bảo đảm rằng các ổ cứng mà bạn thay thế chúng sẽ là đáng tin cậy.
Một chiến lược ở đây – đặc biệt cho các hệ thống RAID – là sử dụng một loạt các model ổ cứng của nhiều nhà sản xuất khác nhau. Với cách thức đó, nếu một model nào đó không tin cậy, thì điều này sẽ không ảnh hưởng nhiều so với một ổ cứng trong một mảng có một chủng loại.
4. Quá nóng tốt hơn so với quá mát
Những nghiên cứu đã chỉ ra rằng, nhiệt độ không ảnh hưởng nhiều đến khả năng tin cậy của ổ cứng (quan điểm mà mọi người vẫn cho là như vậy). Trong hai năm đầu tiên sử dụng ổ cứng, các ổ cứng sẽ dễ bị lỗi hơn nếu được chạy ở nhiệt độ trung bình 350C hoặc thấp hơn so với trường hợp chạy với nhiệt độ trung bình 450C. Đây là một sự ngạc nhiên và nó cho thấy rằng việc dùng hệ thống điều hòa không khí có thể là phản tác dụng – một môi trường ấm hơn sẽ phù hợp với các ổ cứng hơn.
Từ năm thứ ba trở đi, các ổ cứng chạy trên nhiệt độ 400 C sẽ có tỉ lệ lỗi cao hơn các ổ cứng chạy ở nhiệt độ mát hơn. Điều này đặt ra câu hỏi rằng liệu có phải hậu của của việc chạy ở nhiệt độ cao trước đó là nguyên nhân gây ra lỗi cho những năm sau này? Tuy nhiên các nghiên cứu gần đây của Google vẫn kết luận rằng, “dải nhiệt độ trung bình có ảnh hưởng xấu hơn đến các ổ cứng so với dải nhiệt độ cao hơn”.
5. Không sử dụng các ổ cứng quá lâu
Hoàn toàn không thể dự đoán chính xác khi nào một ổ cứng sẽ bị hỏng, tuy nhiên một ổ cứng có tuổi đời hai hoặc ban năm thì nguy cơ bị hỏng sẽ lớn hơn các ổ cứng mới sử dụng được một năm. Nếu đây là một kiểu ổ cứng mà bạn đã đánh giá không tin cậy thì rủi ro xảy ra có thể sẽ tồi tệ hơn. Để giảm nguy cơ dẫn đến lỗi ổ cứng nói chung (tránh hiện tượng lỗi dẫn đến mất mát dữ liệu quan trọng), bạn cần bảo đảm cho tuổi đời trung bình các ổ cứng của mình luôn trẻ.
Thêm vào đó bạn cũng cần kiểm tra dữ liệu SMART hoặc các hệ thống khác để kiểm tra khả năng làm việc bên trong của đĩa để chỉ ra những ổ đĩa nào có nguy cơ bị hỏng cao. Khi một đĩa nào đó bắt đầu có những hành vi đáng nghi – cho ví dụ, báo cáo các lỗi quét hay định vị lại một hoặc nhiều sector và đánh dấu các sector cũ là các sector tồi – thì rất có thể nó sẽ bị hỏng trong một thời gian không xa.
Việc giảm phạm vi ảnh hưởng đối với lỗi ổ cứng phải là một hành động cân bằng kinh tế. Cần phải cân nhắc tới việc thay thế các ổ cứng trước khi chúng lỗi (việc thay thế sẽ tốn kém một lượng chi phí nhất định), tuy nhiên nếu để xảy ra hiện tượng hỏng hóc trong những thời điểm quan trọng thì sự ảnh hưởng đến năng xuất mà tổ chức phải gánh chịu sẽ rất lớn.