SSD(solid state DISK)

SSD서버 NCSoft(엔씨소프트)에 납품 하면서,,,,

SSD 광장 2010. 1. 12. 14:50

1월 8일 SSD서버 (H4500, 대당 768GB SSD) 7대를 납품 하였다.

2009년 12월 말 납품을 해야 하는데,,,, 일정이 너무도 촉박하여 2010년 1월 8일 납품을 하였다.

기 2009년 9월에 testing용도로 납품 하였던 SSD서버는 리얼 써비스 중에 있었다.

KT영동 IDC센타,, 생각보다 깨끗한 환경인것 같다. 리모델링을 잘 한것 같다.

검수 담당자 시스템운영팀 모과장 이였다. MS사 DB엔지니어 출신인 담당자는 생각보다 매우 까다로운 친구 였다.

 

첫마디,  이사님 저 SSD서버 많은 testing을 하였으니, 구지 이것 저것 설명을 하지 않아도 알고 있습니다.

사전 충분히 검토를 하였으니, 이번에는 좀더 다양한 testing을 하고 검수 하겠습니다. 하였다.. ㅋㅋ

뭔 또 testing,,,, NCSoft,, 참! 까다로운 회사다 라는 것은 제차 느껴진다.

제품 SPEC검사 후 기능 testing을 함께 하였다.

Channel Transaction의 개념을 정확히 알고 있는 몇 않되는 친구 인것 같다. 또한 SSD서버에 대한 많은 testing 경험을 갖고 있는것 같았다.

 

1. Fail Over testing부터 하였다. 디스크 이중화 중 50% 즉 OS를 영역을 제외한 10개 SSD중 5개를 Fail Over 하는 testing 이였다.

   그동안 말로만 DISK Fail이 되어도 성능 이슈가 없다. 라고 표현한 실리적인 testing이였다.

   담당자는 스스로 SSD DISK를 한개씩 Fail을 시켰다, 1,2,3,4,5개,,,, 서버에서는 난리였다.

   Fail이후 모니터를 보았다. 8KB data size를 random으로 100% READ 상황 이였다,

   61000IOPS 였던 수치가 순간 40,000IOPS까지 떨어진다. 어!! 어!~ 2초후 다시 58,000IOPS를 유지 하였다

   20초 이후 정상적으로 60,000~61,000IOPS를 유지 하였다,,,,

   담당자 왈,, 이사님 말씀대로 성능 이슈는 없네요,,, 웃음면서,, 질문이 쏟아지기 시작 했다....

   너무도 기술적인 질문이라 생략을 하고, 5개 Fail된 DISK를 다시 삽입 하기 시작 했다.

   서버에서는 AUTO Rebuild가 시작이 되었다, 1,2,3,4,5개 삽입 완료후 다시 모니터를 보기 시작 했다.

   어! 성능이 62,000~63,000IOPS였다. 어! 이사님 rebuild 하는데, 왜! 성능이 더 올라가냐? 였다.

  또 질문이 쏟아지기 시작 했다. 기술적인 사항이라 생략하고, 단, Cache를 어떠케 활용하느냐에 따라

  또한 rebuild 하는 방법에 따라,,,, 설명을 하였다.

  rebuild가 진행이 되면서 성능은 60,000~61,000IOPS를 유지 하였다.

 

2. Fail Back testing을 하였다.

   Fail Back Testing은 좀더 타이트하게 하였다.

   50% DISK가 fail이 된 상태에서 즉 1항의 상태, rebild가 현재 진행 중인 상태에서 rebuild를 해 주는 정상적

   인 DISK가 Fail이 되어 레이드 구성범위를 넘는 Fail Testing이다.

   정상적인 DISK 5개를 전부 Fail을 시켰다. 모니터에는 볼륨 Fail MSG가 뜨고 error MSG가 엄청 뜨는 상황

   이였다.

   담당자는 이 상태는 절대로 복구 할수 없는 상황이다. 이 상태를 Fail Back  할수 없다고 단언 하였다.

   나는 복구 할수 있다고 하였고, 어디까지 복구 할수 있는지를 명확하게 설명을 하였다.

   시스템을 리부팅 하고 BIOS 상황에서 Import를 하였다.

   2분 후 정상적으로 OS가 부팅 되었으며, Data에 문제가 없는지를 확인을 하였다.

   Data도 전부 정상적이였으며, IO Testing을 추가로 진행 하였고, 성능도 정상적 이였다.

   검수 당장자는 박수를 쳤다...

   똑같은 서버, 유사한 서버 즉 SSD서버라고 해서 다 똑같은 서버가 아니다 라고 표현한 내 얘기를 최초 인정

   한 당장자가 되는 순간 이였다.

   이러한 기능을 탑재 했는지 몰랐다는 얘기와 분명한 차별화 요소다 라는 표현을 하였다.

   사실 나는 내 기술이 인정되는 첫 상황이라 뭉쳐서 있던 그 무언가가 풀어지는 느낌이 왔었다.

   재대로 testing을 하였으며, 무정지 운영이 필수인 NCSoft에서 내 장비가 꼭 필요 했던 이유를 조금씩

   이해를 할 수 있었다.

 

   위 1,2 항에 대한 Random Write Testing도 동일 하게 하였다.

   Write의 경우는 약간에 성능 저하 현상이 있어서 고생을 많이 했는데,,, 조금은 걱정이 되었다.

   DISK 공간 300GB전부를 채워서 testing 하는것은 조금 무리 일것 같아 Random write 90%만 채워서 하자

   했으나, 담당자는 최악의 상황에서 해보자 하여 data를 100% 채운상태에서 RW testing을 하였다.

   모니터에서는 "Data 공간이 부족하다는 MSG"가 계속해서 뜨고 있었다.

   8KB data size를 Random write를 시작 하였다. 20,000IOPS~17,000IOPS sustained가 조금은 흔들리고 있

   었다. data를 100%채우고 sustained를 유지 하기란 정말로 어렵다.. 어렵다는 이유를 설명 하려면,,,, 너무

   길다. 이사님 random write는 sustained가 흔들리네요^^, 예! data공간에 여유가 없어서 그렇습니다. 라고

   일단 답변을 하였다... 자, DISK Fail 하시죠... 1,2,3,4,5개 를 Fail 하였다.

   서버에서는 난리였다. DISK Fail MSG가 뜨고 소리가 유난히 크게 들렸다.

   모니터를 보니 DISK IO가 5000까지 떨어져 있었다.  이사님 이건 너무 떨어지는데요,,, 라고 검수 담당자가

   말을 하였다.  예! 잠깐만 기다리시죠? DISK Fail직후 시스템은 Fail 정보와 Rebuild를 위한 내부 준비로

    DISK IO가 순간 떨질수는 있다. 대략 10초 이후 부터 DISK IO가 정상적인 수치로 올라오고 있었다.^^

    담당자는 예측이나 한듯 아!! 올라오네요,,, 대단하네요,,, 라고 웃으면서 말을 하였다.

    자. Rebuild 하겠습니다. 1,2,3,4,5개 전부 삽입후 모니터를 보았다, 성능이 3000IOPS까지 떨어져 있었다.

    잠시 15초 이후 서서히 성능이 올라가고 있었다. 그러나 이사님 sustained가 심합니다.

    8000IOPS~15,000IOPS까지 성능이 고루지 못했다.

 

    NAND SSD의 기능을 안다면, 이 정도의 기술 수준도 대단하다는 평가를 해야 하지 않나? 라고 얘길 하려

    했더니 담당자는 웃음면서 이사님 불가능한 상황을 구현 하셨네요,, 라는 답변을 하였다.

    정말로 이 정도의 기술력은 그 어떤 글로벌 회사도 구현 할수 없는 기능인데,,,,,  담당자는 인정을 하였으

    며, 또 한차례 박수를 쳤다... 기술력에 대한 인정이란 기술자의 큰 힘이다. 이러한 기능을 구현 하기 위하

    여 얼마나 내심 고생을 했던 생각들이 스쳐 지나갔다.

    5개 SSD random write rebuild time이 대략 DISK당 28분 정도 였다. 만족할 만한 시간이였다.

 

    BMT를 받은 기분이였다. 리얼에서 검증이 되어 실제 활용 하고 있으며, 추가로 납품을 하는 상황인데도,,,

    나는 BMT를 통과한 기분이였다. 처음으로 Fail OVER, Fail BACK Testing을 한 NCSoft에 감사 한 마음이

    다.

 

   그외 OS 영역 DISK가 Fail되었을때 다른 장비에서 현재 활용하는 DISK를 삽입하고 리부팅 하였을때 정상적

   으로 OS가 올라오는지 부터, Chnaenl간 DISK를 전부 석었을때도 정상적으로 부팅이 되는지 data가 정상적

   인지 다양한 testing을 하였다.

   바로 위 내용은 타 SSD서버에서는 않되는 기능이라고 하였다.

   무정지 운영을 위한 숨어 있는 많은 기능들을 NCSoft에서 전부 확인이 되어 내심 감사 하는 마음 이였다.

 

   Fail BACK기능은 아예 상상도 못하는 기능이라 타 장비 에서는 testing을 않하였다고 하였다.

 

   고용량 SSD로  순수 DBMS용도로 활용 되어지는 이 SSD서버는 최초 그린 IT, 녹색성장 차원에서도

   검토 되어진 환경이다. 저 탄소, 저 전력, 저 공간, 비용 절감 차원도 매우 만족하는 상황이다.

  

    이제 납품된 장비가 용도에 맞게 잘 활용 되어지기를 기대 한다.^^ 

 

줜장  이기택