ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 윈도우 서버 2008 497일 버그를 접하다....
    경험/개인독학 교육 2016. 8. 7. 19:09


    한 일주일 전부터


    윈도우 2008 운영체제가 설치된 서버중 한대의


    백업이 진행되지 않았다.


    해당 서버는 한 업무의 DB서버였고


    ACTIVE 서버 였으니


    중요도는 꽤 상당한 편이었고


    그래서 백업은 무엇보다도 중요한 서버였다.



    우선 백업툴의 로그를 확인해 보니


    해당 서버가 백업서버 혹은 백업 데이터를 담는 NAS에 접근을 못하는 것이었다.


    그런데 다른 서버에서 해당 서버로 접근은 가능했다.


    쉽게 말하자면 해당 서버로 들어가는 건 되는데 나가는 건 안되는 증상이었다.


    해당 백업 서비스 데몬을 몇번씩 올렸다 내려도 마찬가지였고


    방화벽 인바운더로 가서 해당 포트를 등록해 보기도 하고


    방화벽을 완전히 열어보기도 하고 했지만 해결되지 않았는데



    그 덕분에 해당 서버 PORT에 엄청난 양의 TIME WAIT이 쌓이게 되어서


    서버 상태가 점점 위험한 상태로 달려가고 있는 느낌이었다.



    백업툴 업체에서는 뭐 당연하게도 리부팅을 권유했고



    결국 해결책이 일단은 없다는 것을 깨닫고


    토요일 새벽에 리부팅 작업을 진행하기로 했다.

    (젠장.....ㅡㅡ)



    근데 문제는 해당 서버의 상태가 영 메롱이었다는 사실.



    해당 DB서버는  SQL Server 2005를 사용했고

    (내년이면 MS에서 지원이 중단된다는...ㅡㅡ)


    STANDBY DB서버와 서로간에 장애조치 클러스터가 구성되어 있었는데


    이론적으로라면 ACTIVE와 STANDBY 서버를 차례대로 내렸다 올리게되면


    큰 문제는없어야 하는데


    다운 타임을 찾기위해 DBA에게 문의하니


    구성된 클러스터의 상태가 영 좋지가 않다고 한다...


    그리고 반드시 클러스터를 핸들링해줄 엔지니어의 섭외가 필요하다는 의견도 덧붙였다.


    그런데 그 클러스터를 다룰 사람이 아무도 존재하지 않았다.


    당연히 유지보수 업체와 계약도 되어 있지 않았고


    그 클러스터를 아는 사람은 오래전에 이미 다른곳에 가 있는 상황이었다.




    다행이 어찌어찌 클러스터 엔지니어를 섭외하고


    리부팅 작업을 하게 됐는데


    그 클러스터 엔지니어가 오자마자 서버 상태를 보더니


    나에게 얘기했다.



    "이거 리부팅한지 497일이 지났네요.  그럼 그 버그가 생긴거겠네요.  서버 올리고 497일 동안 리부팅 안하면

     이런 버그가 나와요.  꽤 유명한 버그인데..."


    엥?  이게 뭔 소리?


    그럼 그동안 이런저런 생쇼를 하게 만든게


    단순히 497일동안 리부팅을 안해서 발생했다는 얘기?ㅡㅡ



    http://h20564.www2.hpe.com/hpsc/doc/public/display?docId=mmr_kc-0112172



    구글에서 검색한 페이지중 한곳인데


    서버 업체에서 이런 답변까지 올려놓을 정도면 정말 유명한 버그이긴 한 모양이었다.


    뭐 그래서 해당 DB서버는 리부팅을 하면서 동시에


    패치 작업까지 진행을 했다.

    (함부로 끌수는 없는 서버이기에 또 497일이 지날지도 모르므로....)



    https://support.microsoft.com/ko-kr/kb/2553549



    패치는 위 사이트에서 받으면 되고


    리부팅을 하자


    해당 증상은 깔끔하게 해결되었다.



    하지만 그때부터가 시작이었다.


    클러스터가 2번 서버로 넘어가는건 자연스럽게 됐는데


    다시 1번 서버로 넘어오지를 않는 것이었다.


    그리고 정말 다행이었다.


    클러스터 엔지니어를 섭외한건.....


    클러스터 엔지니어는 이렇게 저렇게 살피더니 서로간의 AD 상태가 맞지 않는다는 얘기를 해 주었다.


    클러스터를 구성할때 서로간의 AD를 정확히 구성하면서 구성을 해야 하는데


    그렇게 구성이 된 것 같지 않다는 얘기를 했고


    클러스터 엔지니어는 그런 일에 익숙한지 이렇게 저렇게 메뉴를 현란하게 왔다갔다 하며


    이런저런 서비스를 죽였다 살리더니 클러스터를 Active로 넘기는데 결국 성공을 했다.


    그 엔지니어 분에게 가장 감탄했던건


    Active 서버로 굳이 화면을 전환하지 않고


    Standby서버에서 Active 서버까지 컨트롤을 해 가면서


    작업을 했다는 점이었다.


    STANDBY에서 ACTIVE서버의 서버스 죽이는 것 부터 해서 LOGOFF하는 방법까지


    그 엔지니어 분에게 배울수가 있었는데


    잘 기억이 나지를 않는다...^^;;;


    핸드폰으로 급하게 좀 찍어놓긴 했는데


    컴퓨터로 복사해 좀 살펴봐야 할 것 같다....




    지금 가장 아쉬운건 해당 클러스터 관련 메뉴얼을 만들었어야 했는데


    워낙 온갖 이런저런 서비스를 죽였다 살리기도 하고 커맨드로 수시로 이것저것 치면서 작업을 해서


    메뉴얼을 만들지 못했다는 점이다.


    더불어 나중에 클러스터 공부도 좀 해봐야 겠다는 생각이 들기도 했다.




    지금 다른 윈도우 2008 서버중에서 똑같은 증상이 나온 서버가 또 한대 나왔는데


    그 서버 시간을 살펴 보니 역시나 497일이 넘어 있는 서버였다.


    그나마 다행인건 그 서버는 DB서버가 아니라는 점인데


    해당 담당자와 월요일에 얘기를 한 연휴에


    리부팅 시간을 정해야 할 것 같다.





    여튼 골치아픈 버그이다.


    윈도우 2008 서버가 생각보다 많은데...ㅡㅡ



Designed by Tistory.