모니터링 — CloudWatch, X-Ray

25
1 / 14

모니터링 — CloudWatch, X-Ray

새벽 2시 37분. 당신은 깊이 잠들어 있습니다. 같은 시각, 회사 서비스의 결제 API가 타임아웃을 내뱉기 시작합니다. 5분이 지나도 아무도 모릅니다. 10분 후, 고객 센터에 전화가 오기 시작합니다. 30분이 지난 새벽 3시 7분, 누군가 SNS에 장애를 공개 게시합니다. 그때서야 당신의 휴대폰이 울립니다.

장애를 사용자보다 30분 늦게 발견했습니다. 이미 수백 명이 결제에 실패했고, 브랜드 신뢰는 손상되었습니다.

이것이 모니터링 없는 운영의 현실입니다. 서버는 침묵 속에 무너지고, 팀은 고객 컴플레인이 쌓인 후에야 문제를 인지합니다.

"장애를 사용자보다 먼저 발견하라" — 이것이 현대 모니터링의 목표입니다.

이 레슨을 마치면 다음을 이해할 수 있습니다:

  • CloudWatch Metrics, Alarms, Dashboards로 시스템 상태를 실시간 감시하는 방법
  • CloudWatch Logs와 Logs Insights로 수백만 줄 로그에서 문제를 10초 내 찾는 방법
  • X-Ray로 마이크로서비스 간 분산 추적을 통해 병목 서비스를 정확히 특정하는 방법
  • CloudWatch 알람을 자동화 액션과 연결하여 새벽 장애를 5분 내 감지하는 실무 구성
모니터링 없는 장애 vs CloudWatch 알람으로 신속 대응하는 대비 일러스트

이 레슨의 대상: EC2, Lambda 등 AWS 서비스를 사용해본 경험이 있으며, 운영 중인 서비스를 어떻게 감시하고 장애에 빠르게 대응할지 궁금한 분을 위해 작성되었습니다. DevOps 여정의 핵심 관측 가능성(Observability) 구간입니다.