ml-inference
패턴 갤러리

ML 추론 서비스 아키텍처

중급월 ~$50 (1만 요청 기준)
BedrockLambdaAPI GatewayS3DynamoDB

ML 추론 서비스 아키텍처

Amazon Bedrock 기반의 생성형 AI 추론 서비스를 서버리스로 구축하는 RAG 패턴입니다. GPU 서버 없이도 Claude, Titan 같은 파운데이션 모델을 API 호출만으로 사용할 수 있습니다.

🏗️ 이 패턴을 사용하면 좋은 경우: 사내 문서 기반 Q&A 챗봇, 고객 지원 자동화, 맞춤형 AI 어시스턴트, RAG 기반 검색 시스템

아키텍처 다이어그램

다이어그램 로딩 중...

요구사항

    장단점 비교

    비용 시뮬레이션

    💰 월 비용 예시 (1만 요청, 평균 입력 500토큰 + 출력 200토큰)

    • Bedrock (Claude Haiku): 1만 × (500 × $0.00025 + 200 × $0.00125)/1K = ~$28
    • Lambda: 1만 × 5초 × 512MB = $0.42
    • API Gateway: 1만 요청 = $0.04
    • DynamoDB: 온디맨드, 1만 쓰기 + 1만 읽기 = $0.03
    • S3: 문서 저장 1GB = $0.02
    • 합계: ~$29/월 (경량 모델 기준)

    자체 GPU 호스팅이라면: p3.2xlarge ($2,200/월) + 운영 인력 비용

    💡 Bedrock은 토큰 기반 과금이므로 프롬프트 최적화가 곧 비용 절감입니다.

    실전 팁

    ⚠️ 주의할 점:

    • Lambda 최대 실행 시간 15분 — 긴 추론은 Step Functions 활용
    • Bedrock 리전별 모델 가용성이 다름 (us-east-1 권장)
    • API Gateway 응답 페이로드 최대 10MB, 스트리밍은 Lambda Function URL 사용
    • DynamoDB 항목 크기 400KB — 긴 대화는 S3에 오프로드
    • Bedrock 모델별 토큰 제한 확인 (Claude: 200K, Titan: 8K)
    • IAM 정책으로 bedrock:InvokeModel 권한을 최소 범위로 제한
    ✏️

    본인의 말로 설명해 보세요

    RAG 패턴에서 S3 문서가 Bedrock 응답 품질을 높이는 원리를 설명해보세요.

    💡 임베딩, 유사도 검색, 컨텍스트 주입, 할루시네이션 감소...