데이터 파이프라인과 레이크 아키텍처

회사가 성장하면 데이터는 사방에 흩어집니다. 고객 데이터는 RDS에, 클릭 로그는 S3에, 마케팅 데이터는 Google Analytics에, 결제 데이터는 외부 PG사 API에 있습니다. CEO가 "이번 달 마케팅 캠페인별 전환율이 얼마야?"라고 물으면, 데이터 팀은 4개의 시스템에서 데이터를 수동으로 추출하고, Excel에서 합치고, 반나절을 보낸 뒤에야 보고서를 만들 수 있습니다.

이 문제를 해결하는 것이 데이터 레이크(Data Lake)와 데이터 파이프라인(Data Pipeline)입니다. 모든 원본 데이터를 하나의 중앙 저장소(S3)에 모으고, 자동화된 파이프라인으로 변환하고, SQL 한 줄로 분석할 수 있게 만드는 것입니다.

AWS는 이를 위해 S3(스토리지), Glue(ETL), Athena(쿼리), Lake Formation(거버넌스)이라는 핵심 서비스를 제공합니다.

이 레슨을 마치면 다음을 이해할 수 있습니다:

데이터 레이크의 개념과 데이터 웨어하우스와의 차이
S3 기반 데이터 레이크의 3계층 아키텍처 (Raw → Cleaned → Curated)
AWS Glue ETL과 Crawler의 역할
Athena로 S3 데이터를 직접 SQL 쿼리하는 방법
Lake Formation으로 데이터 거버넌스를 관리하는 방법
파티셔닝 전략과 비용 최적화

S3 데이터 레이크 생태계 — 원본/정제/큐레이션 3계층과 Glue, Athena, Lake Formation

사전 지식: 이 레슨은 S3 기본 개념과 SQL 기본 문법(SELECT, WHERE, GROUP BY, JOIN)을 이해하고 있는 분을 대상으로 합니다. Kinesis 기초를 알고 있으면 실시간 파이프라인 부분을 더 수월하게 이해할 수 있습니다.

← → 이동F 집중

연관 실습

미니 프로젝트

data-lake-setup →

데이터 파이프라인과 레이크 아키텍처

연관 실습

관련 보조 자료