[AI] AI 서비스 장애 대응: LLM API 장애 시 Fallback 전략 설계
LLM 기능을 붙인 서비스는 응답 품질만 잘 만들면 끝날 것 같지만, 실제 운영에서는 외부 API 장애를 어떻게 흡수할지가 더 중요해지는 순간이 옵니다. 특히 AI 서비스는 모델 호출이 외부 의존성인 경우가 많아서, 장애를 막는 것이 아니라 장애가 나도 서비스가 무너지지 않게 설계하는 쪽이 훨씬 중요합니다. AI 서비스 장애 대응에서 LLM API Fallback 전략이 필요한 이유장애 대응 관점에서 보면 LLM API 장애는 단순히 외부 호출 실패 하나로 끝나지 않습니다. 사용자는 답변이 느려졌다고 느끼고, 일부 요청은 아예 실패하며, 내부적으로는 재시도가 겹치면서 큐와 워커가 흔들릴 수 있습니다. 그래서 Fallback 전략은 “다른 모델도 붙여두자” 수준이 아니라, 어떤 실패는 재시도하고 어떤 실패..