ETL 데이터 파이프라인 아키텍처

대규모 실시간 이벤트를 수집하고, 변환하여 데이터 레이크에 저장한 뒤 SQL로 분석하는 AWS 기반 ETL 패턴입니다. 별도 서버나 클러스터 없이 서버리스 서비스만으로 일 수억 건의 이벤트를 처리할 수 있습니다.

🏗️ 이 패턴을 사용하면 좋은 경우: 사용자 행동 로그 분석, IoT 센서 데이터 수집, 실시간 매출 리포트, 광고 클릭 분석

아키텍처 다이어그램

다이어그램 로딩 중...

💰 월 비용 예시 (일 1억 이벤트, 이벤트당 1KB)

EMR Spark 클러스터라면: m5.xlarge × 3 ($350) + S3 ($23) = $373/월

💡 Athena는 쿼리당 최소 10MB 과금 — 작은 테이블도 $0.00005/쿼리. 대시보드 용도로 매우 경제적!

⚠️ 주의할 점:

✏️

원본 이벤트가 Athena에서 SQL로 조회 가능해지기까지의 전체 파이프라인을 설명해보세요.

💡 이벤트 → Kinesis 수집 → Lambda 변환 → S3 Parquet 저장 → Glue 카탈로그 등록 → Athena SQL 쿼리...