GPT-4o에서 gpt-4o-mini로의 전환: 성능 하락 없이 비용 80% 절감하기

트래픽이 조금만 늘어도 LLM 비용이 눈에 보이기 시작합니다. 기능은 잘 돌아가는데 비용이 무섭게 올라가는 상황이 생기더군요. 저희 팀도 GPT 모델을 운영 환경에 붙였다가 한 달 만에 모델 교체를 검토하게 된 경험이 있습니다. 그때 선택했던 방법이 GPT 4o에서 gpt 4o mini로 전환하는 것이었습니다.

GPT 4o 운영 중 발생한 비용 문제

GPT 4o 모델은 성능이 상당히 좋습니다. 응답 품질도 안정적이고 코드 생성이나 문서 요약 같은 작업에서도 결과가 깔끔하게 나옵니다. 문제는 운영에 붙이면 비용이 빠르게 올라간다는 점입니다. 

저희 서비스는 내부 운영 도구와 고객 상담 자동화 기능에서 LLM을 사용하고 있습니다. 트래픽이 아주 높은 서비스는 아니었지만 API 호출이 꽤 많았습니다.

당시 평균 트래픽은 RPS 80 정도였습니다. LLM 요청은 초당 20 정도였고 하루 약 170만 토큰 정도를 사용했습니다. 작은 숫자처럼 보이지만 월 비용을 계산해보니 생각보다 크게 나오더군요.

특히 GPT 4o를 기본 모델로 사용하니 월 비용이 약 1800달러 수준까지 올라갔습니다. 기능은 잘 동작했지만 서비스 규모를 고려하면 부담스러운 금액이었습니다.

 

운영에서 보였던 특징

흥미로운 점이 하나 있었습니다. 실제 로그를 분석해보니 요청의 70퍼센트 이상이 그렇게 높은 추론 능력을 필요로 하지 않았습니다.

간단한 문장 요약, FAQ 응답 생성, 간단한 번역 같은 작업이 대부분이었습니다. 이런 작업에 GPT 4o를 사용하는 것은 조금 과하다는 생각이 들었습니다. 

GPT 4o와 gpt 4o mini 비교 검토

그래서 팀 내부에서 모델 변경을 검토했습니다. 후보는 두 가지였습니다. GPT 4o를 유지할지 아니면 gpt 4o mini로 전환할지였습니다. 이 부분은 생각보다 논쟁이 있었습니다.

 

방법 A GPT 4o 유지

장점은 단순합니다. 이미 안정적으로 동작하고 있었고 품질 문제가 없었습니다. 모델을 바꾸지 않으면 테스트 비용도 거의 들지 않습니다.

하지만 단점이 명확했습니다. 비용입니다. 트래픽이 늘어나면 LLM 비용이 선형으로 증가합니다. 운영 경험상 이런 비용 구조는 장기적으로 부담이 됩니다.

 

방법 B gpt 4o mini 전환

장점은 비용입니다. 토큰 단가가 크게 낮습니다. 내부 계산으로는 약 70에서 80퍼센트 비용 절감이 가능했습니다.

단점은 성능이었습니다. 일부 복잡한 질문에서 품질이 떨어질 수 있다는 우려가 있었습니다. 특히 코드 생성이나 긴 문서 분석에서는 차이가 날 수 있습니다.

그래서 저희는 결론적으로 혼합 전략을 선택했습니다. 기본 모델은 gpt 4o mini를 사용하고 복잡한 요청만 GPT 4o로 라우팅하는 방식이었습니다. 

 

gpt 4o mini 기반 실전 구현 방식

구현은 생각보다 단순합니다. 핵심은 모델 라우팅입니다. 요청 난이도를 기준으로 모델을 선택하도록 했습니다.

Spring Boot 기반 API 서버에서 간단한 라우팅 로직을 만들었습니다. LLM 요청을 한 곳에서 처리하도록 만들어두면 이런 변경이 쉬워집니다.


@Service
public class LlmService {

    public String selectModel(String prompt) {

        // 간단한 요청은 mini 사용
        if(prompt.length() < 500) {
            return "gpt-4o-mini";
        }

        // 긴 문서나 복잡한 요청은 4o 사용
        return "gpt-4o";
    }

    public String request(String prompt) {

        String model = selectModel(prompt);

        // 운영 팁
        // 모델 이름을 여기서 통합 관리하면
        // 나중에 교체할 때 정말 편합니다

        return openAiClient.chat(model, prompt);
    }
}

운영 결과

전환 후 한 달 정도 데이터를 분석했습니다.

LLM 요청 중 약 82퍼센트가 gpt 4o mini로 처리되었습니다. 나머지 18퍼센트만 GPT 4o로 처리되었습니다.

비용은 약 1800달러에서 350달러 수준으로 내려갔습니다. 대략 80퍼센트 절감입니다. 

생각보다 성능 차이가 크지 않았습니다. 특히 요약이나 FAQ 응답 같은 작업에서는 차이를 느끼기 어려웠습니다.

 

LLM 비용 절감의 현실적인 결론

GPT 4o에서 gpt 4o mini로 전환한다고 해서 모든 문제가 해결되지는 않습니다. 모델 비용은 줄지만 다른 관리 포인트가 생깁니다.

예를 들어 모델 라우팅 로직 관리, 품질 모니터링, 프롬프트 튜닝 같은 작업이 필요합니다. 

또 하나 중요한 점이 있습니다. 모든 서비스에 gpt 4o mini가 맞는 것은 아닙니다. 코드 생성이나 복잡한 reasoning이 필요한 서비스라면 GPT 4o가 더 나을 수도 있습니다.

하지만 대부분의 실무 서비스에서는 gpt 4o mini로도 충분한 경우가 많습니다. 특히 요약, 분류, 간단한 QA 같은 작업에서는 비용 대비 효율이 좋습니다.