ML 추론 서비스 아키텍처

Amazon Bedrock 기반의 생성형 AI 추론 서비스를 서버리스로 구축하는 RAG 패턴입니다. GPU 서버 없이도 Claude, Titan 같은 파운데이션 모델을 API 호출만으로 사용할 수 있습니다.

🏗️ 이 패턴을 사용하면 좋은 경우: 사내 문서 기반 Q&A 챗봇, 고객 지원 자동화, 맞춤형 AI 어시스턴트, RAG 기반 검색 시스템

아키텍처 다이어그램

다이어그램 로딩 중...

💰 월 비용 예시 (1만 요청, 평균 입력 500토큰 + 출력 200토큰)

자체 GPU 호스팅이라면: p3.2xlarge ($2,200/월) + 운영 인력 비용

💡 Bedrock은 토큰 기반 과금이므로 프롬프트 최적화가 곧 비용 절감입니다.

⚠️ 주의할 점:

✏️

RAG 패턴에서 S3 문서가 Bedrock 응답 품질을 높이는 원리를 설명해보세요.

💡 임베딩, 유사도 검색, 컨텍스트 주입, 할루시네이션 감소...