🏗️
데이터 레이크 구축
실습 가이드소요 기간
2일
난이도
중급
선수 요건
없음
예상 비용
$0 ~ $3
무엇을 만드나요?
S3 + Glue + Athena 기반 서버리스 데이터 레이크 아키텍처 — CSV → Parquet 변환 및 파티셔닝 최적화
구성 요소
S3 (raw/ 버킷)S3 (processed/ 버킷)Glue CrawlerGlue Data CatalogGlue ETL JobAthenaIAM Role (Glue 서비스 역할)
연결 흐름
→Raw CSV 파일 → S3 raw/ 버킷 업로드
→Glue Crawler → S3 raw/ 스캔 → Data Catalog 스키마 자동 등록
→Glue ETL Job → S3 raw/ 읽기 → CSV→Parquet 변환 + 파티셔닝 → S3 processed/ 저장
→Glue Crawler → S3 processed/ 스캔 → Data Catalog 스키마 갱신
→Athena → Data Catalog 참조 → S3 데이터 SQL 쿼리
개요
이 실습에서는 S3, Glue Crawler, Glue ETL, Athena를 활용하여 완전한 서버리스 데이터 레이크를 구축합니다. Raw CSV 데이터를 S3에 업로드한 뒤 Glue Crawler로 스키마를 자동 탐지하고 Data Catalog에 등록합니다. Glue ETL 잡을 통해 CSV를 Parquet 포맷으로 변환하고 파티셔닝을 적용하여 쿼리 성능을 최적화합니다. 최종적으로 Athena에서 SQL 쿼리를 실행하며 raw 데이터와 processed 데이터의 성능/비용 차이를 직접 비교합니다.
학습 목표
- S3 기반 데이터 레이크의 계층 구조(raw/processed/curated)를 설계한다
- Glue Crawler와 Data Catalog로 스키마 관리를 자동화한다
- Glue ETL로 데이터 포맷 변환(CSV→Parquet)을 구현한다
- Athena로 서버리스 SQL 분석을 수행한다
핵심 개념
데이터 레이크Glue CrawlerData CatalogETL (추출/변환/적재)Parquet 포맷파티셔닝Athena SQL
실습 결과물
- S3 버킷 구조 설계 (raw/, processed/, curated/)
- 샘플 CSV 데이터 업로드
- Glue Crawler → Data Catalog 스키마 자동 등록
- Glue ETL 잡 (CSV → Parquet 변환 + 파티셔닝)
- Athena SQL 쿼리 실행 (raw vs processed 성능 비교)
- 비용 분석 결과
단계별 실습 가이드
포함된 코스
직접 실습해보세요
실습 환경이 제공되는 클라우드 교육 과정에 참여하여 실제 AWS 환경에서 이 가이드를 따라해보세요.