• 북마크
  • 접속자 1
해밀

홍인의세상사는이야기

의협 감사님께 올립니다.

2006.08.03 17:48 1,176 0 0 0

본문

지난 7월 14일 오후 5시30분경 의협포탈사이트가 갑자기 서비스를 중단한 사태가 발생했습니다.

의협관계자의 발표에 의하면 웹서버의 3,4번 하드디스크에 베드섹터(bad sector)가 생겨 일어난 일이라고 합니다.

서비스 장애 6일이 지난 7월 20일에야 복구가 완료되어 문열 다시 열었지만 이번 포탈사이트의 문제는 여러가지 짚고 넘어가야할 점들이 많아 회원들의 의혹을 사고 있는 만큼 철저한 조사가 필요하리라고 생각됩니다.

포탈사이트의 사고에 대한 조사에 도움이 되고자 올리는 글이오니 참고하셨으면 합니다.

<의협 소유의 서버와 목동 KIDC>

현재 목동KIDC 에는 의협 소유의 서버 3대가 비치되어 잇는 것으로 압니다.
회원의 정보를 담고있는 DB서버, 메일서버, 그리고 웹서버입니다.
2000년 (주)데이콤으로부터 기술지원은 (주)삼정데이터로 부터 받기로 하고 시작한 서버호스텡으로 시작했으며 계약서류 등 관련 서류는 의협에 보관 중일겁니다.

이번 사고처럼 문제가 생겼을 때 책임소재나 보상 등을 위한 계약서 검토가 필요할 지도 모르겠습니다.


<RAID에 대한 간단한 개념 소개>

의협의 발표에 의하면 웹서버에 부착되어 있는 하드디시크 4개 중 3,4번 디스크의 물리적인 손상이 원인이라고 합니다. 이를 위해 RAID란 개념을 간락히 소개합니다.

RAID란 컴퓨터의 성능을 향상시키고 데이터의 안정성을 유지하기 위한 것으로 레별별로 RAID-0, RAID-1, RAID-2, RAID-3, RAID-4, RAID-5, RAID-6, RAID-7, RAID-10, RAID-50 으로 구분합니다.

RAID-0 레벨은 스트라이핑이라고도 하며 여러개의 디스크를 한개로 인식시키는 기술을 말합니다.
예를 들어 하드디시크의 크기가 각각 10,10,10기가 짜리가 잇다면 이를 30기가로 인식시키는 방법입니다. 이 방법은 데이터를 저장하고 읽을 때 3군데에 분산하여 작업을 하기 때문에 고속작업이 가능하지만 한 개의 하드디시크에 에러가 생기면 모든 자료를 잃어버릴 수도 있습니다.

현재 ㅡ이협에서 사용하는 방법이라고 알고 있습니다.

RAID-1은 일명 미러링이라고도 하며 동일한 데이터를 2개의 하드디스크에 기록하는 방법이며 하나의 하드디시크에 문제가 생겨도 다른 하드디시크로 대체가 가능하기 때문에 데이터의 안정성은 확보가 되지만 비용이 두배로 들고 속도저하가 있습니다.

RAID-5는 가장 기능이 뛰어난 방법이며 현재 많은 기업에서 사용하는 방법이긴 하지만 비용이 많이 드는 단점이 있습니다.


<웹서버의 사고 원인 규명>

의협측 발표에 의하면 서버에 부착되어 있는 3,4번째 하드디시크에 손상이 생겼다고 합니다. 하드디스크이 손상에는 물리적인 손상과 소프트웨어에 의한 손상이 있습니다. 이번 사고는 물리적인 손상이라고 발표된 것 같습니다. 그렇다면 왜 생겼는지 원인규명이 필요할 것 같습니다.

현재 의협에서 사용 중인 컴팩사의 서버의 제조년월일과 이번 사고의 주범인 하드디스크의 보증기간이 어떻게 되는지 알 필요가 있습니다. 만약 보증기간 내의 문제라면 무상교환이 가능합니다.
또한 전문기술진의 도움을 받아 하드디스크에 생긴 베드섹터의 발생원인을 규명할 필요가 있습니다.
베드섹터가 난 하드디스크가 폐기처분할 정도의 영구손상을 입었었나 하는 것도 궁금합니다.

손상의 원인이 인위적인 것은 상상도 할 수가 없지만 다른 이유인 경우 제품하자인지 아니면 조작실수인지를 알아야 하며 그 책임소재을 밝혀 배상을 받을 수가 있으면 해야 합니다.

들리는 말에 의하면 손상된 하드디스크를 폐기처분했다는데 이번처럼 문제제기가 되어 있을 때 그렇게 했다는 것이 이해가 안 됩니다.


<사고 처리를 위한 과정>

14일 웹서버가 다운된 약 5분 후 대표운영장에게 전화를 했더니 의협에서 보고를 받지 않은 상태였습니다. 정보회팀에서 대표운영장에게는 보고를 하지 않았지만 정보이사에게는 보고를 했는지 궁금합니다. 서버관리자가 어떻게 웹서버가 다운된 사실을 알게 되었는지 그리고 원격관리로 할 수 없다는 사실을 알고 누구의 지시로 몇시에 목동에 갔는지도 궁금합니다.

웹서버의 다운의 원인이 하드디스크의 손상이라는 사실을 알게 된 과정도 궁금합니다.
처음 에상한 복구가능 시점을 어떻게 생각했는지, 그리고 그런 사실을 누구에게 언제 보고했는지도 궁금합니다.

사고 다음 날이 토요일이고 월요일이 공휴일인 관계로 3일 연휴라서 그런지 하드디시크를 구하러 간 것이 사고 5일째인 7월18일이라고 들었습니다. 왜 그렇게 지연이 되었는지 정확한 이유가 궁금합니다.

하드디스크의 복구작업에 동원된 기술진이 누구인지도 궁금합니다. 내부직원만으로 했는지 외부기술잔도 동참했는지, 외부직원이 동참했다면 어느 시점이었는지도 궁금합니다.


<사고에 대한 집행부의 대처>

이번 사고로 느낀 점 중 가장 의아한 것이 해당임원의 무관심한 듯한 대처입니다.
먼저, 사고 직후 어디에도 웹서버의 사고 공지를 한 곳이 없습니다.

또한, 일반회원들에게는 복구 후에도 아예 공지조차 하지를 않았습니다.
제가 이를 지적한 다음 날인 7월 21일에야 일반회원메뉴인 공지게시판에 복구사실을 올렸습니다.

사고 후 집행부의 복구에 대한 어떤 지시가 누구에 의해 있었는지 궁금합니다.

의협서버의 사고가 7일간이나 지속된 것은 적은 사고가 아니라고 생각합니다. 그런대도 주무이사의 구체적인 부연 설명에 대한 글 하나 없습니다. 현행 포탈운영위원회의 규정에 의하면 위원장이 정보이사 부위원장이 대표운영장으로 되어 있습니다.

운영위에서 부위원장인 대표운영장에게 포탈사이트에 관한 모든 권한을 위임 받을 수가 있게 되어 있습니다. 이는 일을 효율성을 위해 많은 각고 끝에 정한 규정입니다. 이번에 새로 구성된 운영위에서 그런 사항을 결정하지 않았다면 포탈사이트의 실질적인 관리책임자는 대표운영장이 아닌 정보이사입니다. 하지만 대표운영장은 사퇴의사를 표했다고 들었고, 정보이사는 회원들의 질문에 대한 답변을 일체하지 않습니다. 그 이유가 궁금합니다.

그 뿐만 아니라 이번 사고 후 회원메뉴에 잇는 의협건의나 운영건의에 대한 어떤 질문에도 답변을 하지 않고 있습니다. 이런 일련의 일들이 이번 일과 연관이 있는지 궁금합니다.

이번 사고로 느낀 점은 현재의 포탈운영위가 제 구실을 하지 못하고 있다는 것입니다.
못하고 있는건지 안하는 건지 자못 궁금합니다.

서버는 기계이기 때문에 어떤 이유로든 문제가 생길 수는 있습니다.
하지만 이번에 느낀 점은 사고에 대한 집행부의 대처의지나 대처방법의 미숙이 문제라고 생각합니다.
복구에 고의적인 또는 태만으로 안한 지연이 되었는지 그것이 가장 궁금합니다.

손병문 올림.
0 0
로그인 후 추천 또는 비추천하실 수 있습니다.

댓글목록 0

등록된 댓글이 없습니다.
전체 530 건 - 30 페이지
제목
1,408 0 0 2006.12.04
1,177 0 0 2006.08.03
1,306 0 0 2006.07.31
1,313 0 0 2006.07.14
1,236 0 0 2006.07.06
1,296 0 0 2006.07.01
1,529 0 0 2006.07.01
2,548 0 0 2006.07.01
1,528 0 0 2006.05.26
1,226 0 0 2006.05.02
1,348 0 0 2006.04.19
2,470 0 0 2006.04.17
1,307 0 0 2006.04.11
1,302 0 0 2006.03.13
1,218 0 0 2006.02.25