안녕하세요.
이번 시간에는 네이버 클라우드 플랫폼에서 서버 이미지로 서버 복구 시 주의사항을 알아보려고 합니다.
CASE 1) DB 서버 복구 작업
기존 고객사의 DB는 Windows 서버로 MSSQL 설치형 서버를 사용하고 있었습니다. DB 서버 복구를 위해 체크해야 했던 사항들입니다.
1. 서버의 이중화
2. 서비스 영향도 파악
3. DB 데이터 백업
4. 서버 이미지 백업
5. 서버 IP 재사용 유무
6. 사용 중인 서버의 하이퍼바이저와 세대
7. 서버 이미지 복구 시 소요 시간
8. 서비스 및 DB 복구 시 소요 시간
9. 스토리지 이동
10. 스토리지 스냅샷
11. 관리형 DB로의 이관 여부
12. 서비스 중단 안내
13. 네트워크 및 모니터링 재설정
14. 서버 관리자 비밀번호 변경
등등... 서버 하나를 복구하기 위해서 많은 요소들을 고려해야 했습니다.
1. 서버 이중화
운영 환경에서 단일 인스턴스는 서버 장애 시 서비스 전체 장애로 이어질 수 있기 때문에 이중화는 필수적입니다. 이중화를 할 만큼 서비스의 중요도가 낮다면 장애 시 빠르게 복구할 수 있는 Recovery 방안이 필요합니다.
2. 서비스 영향도 파악
요즘은 대부분의 서비스가 MSA 형태로 이루어져 있거나 기능 단위로 있기 때문에 서비스 영향도가 낮아지고 있는 추세지만 아직도 오래된 시스템에서는 서비스 간 영향도가 있어서 서비스에 문제가 발생할 시 다른 서비스에까지 영향을 주는 경우가 많습니다. 따라서 서버 복구를 진행하기 전에 서비스 간 영향도를 파악하는 것이 필수입니다.
3. DB 데이터 백업
DB 서버의 데이터는 서버 이미지로 같이 백업되지 않기 때문에 위와 같이 설치형 DB에서는 데이터를 백업해두어야 합니다. 서버 복구가 완료되면 데이터를 다시 이관하는 작업이 필요합니다.
4. 서버 이미지 백업
네이버 클라우드에서 서버 이미지 백업 시 중요한 사항은 스토리지를 연결한 후 백업을 받으면 스토리지까지 같이 이미지에 포함됩니다. 이 경우 서버 이미지 생성 시 스토리지 백업 시간이 추가되어서 더 많은 시간이 걸립니다.
서버 이미지로 서버 복구 시 XEN G2 서버들은 기존 스토리지가 삭제(스토리지 명 중복 이슈)되어 있어야 합니다. 따라서 복구 전 스토리지를 미리 스냅샷으로 생성해두고 기존 스토리지를 지워야 합니다. 그리고 서버 이미지를 통해 신규 서버를 복구하면 되는데 이때 IP를 재사용해야 한다면 기존 서버를 반납한 후에 진행해야 합니다.
서버 복구 후 스냅샷으로 스토리지를 다시 생성하여 신규 서버에 마운트 하는 작업까지 진행해 주면 됩니다.
5. 서버 IP 재사용 유무
서비스에서 IP를 기반으로 동작하는 로직이 있다면 기존 서버의 IP를 재사용해야 합니다. 그게 아니라면 기존 로직을 DNS 기반으로 변경하는 작업이 필요한데 그게 어려운 경우라면 기존 서버를 반납해야 합니다.
기본적으로 네이버 클라우드에서는 서버의 NIC 중 eth0은 해제할 수 없기 때문에 반드시 반납을 통해서만 서버의 IP를 재사용할 수 있습니다. 이 부분은 사설 IP에 해당합니다.
공인 IP의 경우 Public IP 탭에서 인스턴스에서 할당 해제한 후 신규 인스턴스에 할당할 수 있습니다.
6. 사용 중인 서버의 하이퍼바이저와 세대 확인
확인해 본 결과 서버 이미지로 스토리지를 이관할 시 KVM G3 서버에서는 신규 서버에 할당될 스토리지의 이름을 지정해서 변경이 가능했는데 XEN G2 서버는 기존 스토리지를 삭제하지 않으면 신규 스토리지를 생성할 수 없게 끔 되어 있었습니다. 그래서 기본 스토리지와 추가 스토리지 데이터를 이관하는 작업과 스냅샷 생성 작업이 더 필요했는데 이 부분은 네이버 클라우드 측에서 개선을 해주어야 할 부분인 것 같습니다.
7. 서버 이미지 복구 시 소요 시간
네이버 클라우드에서 KVM G3 서버는 서버를 생성하는 속도와 부팅 속도 모두 빠릅니다. 이번에 서버 복구 작업을 진행했던 서버는 윈도우 서버에 XEN G2 서버였는데 서버 생성에만 무려 70분이 걸렸습니다. 작업 시간을 러프하게 잡고 진행하는 것을 추천드립니다. 서버 복구 시 사설 IP와 ACG를 기존 서버 설정으로 생성해야 하고 생성 후 Public IP 할당이 필요합니다.
8. 서비스 및 DB 복구 시 소요시간
본인이 인프라 담당자라면 서비스 및 DBA에게 전체적인 복구 시간을 듣고 복구에 소요되는 시간을 미리 테스트해 본 후 작업계획서를 작성해야 합니다. 생각보다 서비스와 DB 데이터 복구 시간이 많이 소요되기 때문에 이 부분을 고려해서 복구 작업을 진행해야 합니다.
9. 스토리지 이동
앞서 말했듯이 기존 서버의 스토리지는 마운트와 연결을 해제한 후 신규 서버에 다시 마운트 및 연결을 진행해야 합니다. 이때 XEN 기반과 KVM 기반의 작업 진행이 다르기 때문에 이 부분을 꼼꼼하게 체크해야 합니다. 둘 다 스토리지 이관 작업이 필요하기 때문에 약간의 차이만 있을 뿐 프로세스는 거의 비슷합니다.
10. 스토리지 스냅샷
볼륨의 크기가 큰 스토리지의 경우 스냅샷을 생성하는데도 시간이 오래 걸립니다. 스냅샷 후 스토리지를 새로 생성하는 데도 시간이 걸리기 때문에 이 부분도 작업 시간에 포함해야 합니다.
11. 관리형 DB로 이관 여부
보통 DB의 경우 설치형 DB 보다는 관리형 DB로 사용하는 것이 좋습니다. 하지만 비용이나 기능 이슈로 인해 설치형 DB가 필요한 경우에는 이중화시키는 것이 좋습니다.
12. 서비스 중단 안내
DB 서버 복구 작업 전 작업 계획서를 작성하고 사용자에게 서비스 중단을 안내해야 합니다. 아무 공지 없이 서비스가 중단될 경우 서비스에 대한 신뢰와 회사 이미지에 타격이 있을 수 있습니다.
13. 네트워크 및 모니터링 설정
신규 서버로 복구가 되었다면 기존에 설정되어 있던 네트워크 설정 및 타겟 그룹 설정과 모니터링 관련 설정을 다시 한번 체크한 후 기존 설정을 원상 복구해야 합니다.
14. 서버 관리자 비밀번호 변경
네이버 클라우드의 경우 서버 이미지로 서버가 복구되면 해당 서버의 관리자 비밀번호가 바뀌게 되므로 이 부분은 다시 체크해서 문서화해야 합니다.
이번 시간에는 네이버 클라우드 플랫폼에서 서버 이미지로 서버 복구 시 주의사항을 알아봤습니다.
감사합니다.
'Cloud > Naver Cloud' 카테고리의 다른 글
[NCLOUD] 리전 간 지리적 레이턴시 문제를 해결하기 위한 아이디어 (2) | 2024.09.30 |
---|---|
[NCLOUD] Private Subnet에 특정 IP만 접근 제어할 수 있는 방법 알아보기 (0) | 2024.09.28 |
[Ncloud] HyperCLOVA X 스킬트레이너 사용 가이드 활용 예제 실습하기 (0) | 2024.08.08 |
[Ncloud] HyperCLOVA X 스킬트레이너에 대해 알아보고 사용 가이드 정리 (0) | 2024.08.08 |
[Ncloud] Certificate Manager 신규 기능 Advanced DV 인증서 알아보기 (0) | 2024.08.02 |
클라우드, 개발, 자격증, 취업 정보 등 IT 정보 공간
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!