API retry 로직 잘못 짜서 장애 난 사례: http 네트워크 오류를 안전하게 다루는 방법
API retry는 네트워크 오류를 견디기 위한 장치입니다. 그런데 retry 정책을 잘못 짜면 장애를 막는 코드가 오히려 장애를 키우는 원인이 됩니다. 특히 http API 호출, 결제 승인, 외부 인증, 알림 발송처럼 외부 시스템에 의존하는 로직에서는 retry 기준을 신중하게 잡아야 합니다.http API retry 로직에서 실제로 문제가 된 상황http 기반 외부 API를 호출하는 서비스에서 간헐적인 네트워크 timeout이 발생했습니다. 처음에는 단순한 외부 API 지연으로 보였습니다. 그래서 개발팀은 요청 실패 시 최대 3번까지 다시 호출하도록 retry 로직을 넣었습니다.문제는 retry 자체가 아니라 retry를 적용한 방식이었습니다. 모든 실패를 같은 실패로 보고 재시도했고, 재시도 간격..