도입
1 / 14데이터 파이프라인과 레이크 아키텍처
회사가 성장하면 데이터는 사방에 흩어집니다. 고객 데이터는 RDS에, 클릭 로그는 S3에, 마케팅 데이터는 Google Analytics에, 결제 데이터는 외부 PG사 API에 있습니다. CEO가 "이번 달 마케팅 캠페인별 전환율이 얼마야?"라고 물으면, 데이터 팀은 4개의 시스템에서 데이터를 수동으로 추출하고, Excel에서 합치고, 반나절을 보낸 뒤에야 보고서를 만들 수 있습니다.
이 문제를 해결하는 것이 데이터 레이크(Data Lake)와 데이터 파이프라인(Data Pipeline)입니다. 모든 원본 데이터를 하나의 중앙 저장소(S3)에 모으고, 자동화된 파이프라인으로 변환하고, SQL 한 줄로 분석할 수 있게 만드는 것입니다.
AWS는 이를 위해 S3(스토리지), Glue(ETL), Athena(쿼리), Lake Formation(거버넌스)이라는 핵심 서비스를 제공합니다.
이 레슨을 마치면 다음을 이해할 수 있습니다:
- 데이터 레이크의 개념과 데이터 웨어하우스와의 차이
- S3 기반 데이터 레이크의 3계층 아키텍처 (Raw → Cleaned → Curated)
- AWS Glue ETL과 Crawler의 역할
- Athena로 S3 데이터를 직접 SQL 쿼리하는 방법
- Lake Formation으로 데이터 거버넌스를 관리하는 방법
- 파티셔닝 전략과 비용 최적화

사전 지식: 이 레슨은 S3 기본 개념과 SQL 기본 문법(SELECT, WHERE, GROUP BY, JOIN)을 이해하고 있는 분을 대상으로 합니다. Kinesis 기초를 알고 있으면 실시간 파이프라인 부분을 더 수월하게 이해할 수 있습니다.
← → 이동F 집중