모델 패밀리 매트릭스
godotz.ai는 두 가지 주요 모델 패밀리와 여러 특수 목적 모델을 운용합니다. 올바른 역할에 올바른 모델을 할당하는 것이 비용 효율성과 에코 챔버 방지의 핵심입니다.
패밀리 개요
Antigravity 패밀리
공급자: Anthropic
접근 경로: LiteLLM Proxy → Anthropic API
특성: 높은 추론 능력, 긴 컨텍스트 윈도우, 고비용
| 모델 | 컨텍스트 | 강점 | godotz.ai 역할 |
|---|---|---|---|
| claude-opus-4-6 | 200K | 복잡한 추론, 설계, 비평 | 오케스트레이터, 아키텍트 |
| claude-sonnet-4-6 | 200K | 균형, 속도-품질 트레이드오프 | 비평가, 검토자 |
동시성 한도: API 계층에 따라 다름 (일반적으로 10-50 RPM)
GLM 패밀리 (z.ai)
공급자: z.ai API
접근 경로: LiteLLM Proxy → z.ai Endpoint
API 키: 가상 키로 관리 (실제 키: 2b5223eebd8b4991a6f96319bc29146e.QA8t9Zd1clyxzLjQ)
특성: 빠른 실행, 저비용, 고동시성
| 모델 | 동시성 | 강점 | godotz.ai 역할 |
|---|---|---|---|
| glm-5.1 | 10 | 빠른 추론, 고처리량 | 기본 실행자, 코드 생성 |
| glm-4.7 | 2 | 균형, 중간 성능 | 보조 실행, 분류 작업 |
| glm-4.5-air | 5 | 경량, 초저비용 | 분류, 라우팅, 단순 작업 |
| glm-5-turbo | 1 | 최고 성능 GLM | 복잡한 GLM 작업 |
총 GLM 동시성: 10 + 2 + 5 + 1 = 18 동시 요청
특수 모델
| 모델 | 공급자 | 역할 | 트리거 |
|---|---|---|---|
| gemini-3.1-pro | 대화 모델 | 오케스트레이터 대안 | |
| gemini-3.1-pro-low | 비전 처리 | 이미지 입력 감지 시 자동 폴백 |
상세 사양
GLM-5.1 — 기본 실행자
model_config:
name: glm-5.1
provider: z.ai
concurrency: 10
# 권장 사용 사례
use_cases:
- code_generation: true
- file_editing: true
- test_writing: true
- documentation: true
- data_processing: true
# 부적합한 사용 사례
not_recommended:
- complex_architecture_design: false # → claude-opus-4-6
- critical_security_review: false # → claude-sonnet-4-6
- vision_tasks: false # → gemini-3.1-pro-low
비용 특성: 1,000 작업당 약 $1.50 (캐시 40% 히트 기준)
GLM-4.5-Air — 경량 라우터
가장 저렴한 GLM 모델. 복잡한 추론보다 단순한 분류, 태깅, 라우팅 결정에 최적화.
# 라우팅 결정 예시
routing_agent:
model: glm-4.5-air # 저비용으로 라우팅 결정
concurrency: 5
task: "다음 작업을 적절한 에이전트에 라우팅하세요: {{ task }}"
claude-opus-4-6 — 오케스트레이터
가장 비싼 모델. 소량의 중요한 결정에만 사용.
orchestrator:
model: claude-opus-4-6
concurrency: 1 # 1개면 충분, 오케스트레이터는 병렬 불필요
# 적합한 사용 사례
use_cases:
- system_design: true
- complex_reasoning: true
- cross_agent_coordination: true
- ambiguous_problem_resolution: true
비용 절약 팁: 오케스트레이터를 최소 호출로 유지. 실행 작업은 GLM에 위임.
모델 역할 할당 가이드
작업 복잡도별 모델 선택 트리:
단순 작업 (분류, 태깅, 라우팅)
→ glm-4.5-air (가장 저렴)
표준 실행 (코드 작성, 파일 편집, 테스트)
→ glm-5.1 (기본 실행자)
중간 복잡도 (검토, 비평, 요약)
→ claude-sonnet-4-6 또는 glm-4.7
높은 복잡도 (설계, 아키텍처, 복잡한 추론)
→ claude-opus-4-6
이미지/비전 포함
→ gemini-3.1-pro-low (폴백)
→ 또는 gemini-3.1-pro (대화)
LiteLLM 설정 예시
# config.yml
model_list:
# Antigravity 패밀리
- model_name: "antigravity/opus"
litellm_params:
model: "claude-opus-4-6"
api_key: os.environ/ANTHROPIC_API_KEY
- model_name: "antigravity/sonnet"
litellm_params:
model: "claude-sonnet-4-6"
api_key: os.environ/ANTHROPIC_API_KEY
# GLM 패밀리
- model_name: "glm/5.1"
litellm_params:
model: "glm-5.1"
api_key: os.environ/GLM_API_KEY
api_base: "https://open.bigmodel.cn/api/paas/v4"
- model_name: "glm/4.7"
litellm_params:
model: "glm-4.7"
api_key: os.environ/GLM_API_KEY
api_base: "https://open.bigmodel.cn/api/paas/v4"
- model_name: "glm/4.5-air"
litellm_params:
model: "glm-4.5-air"
api_key: os.environ/GLM_API_KEY
api_base: "https://open.bigmodel.cn/api/paas/v4"
- model_name: "glm/5-turbo"
litellm_params:
model: "glm-5-turbo"
api_key: os.environ/GLM_API_KEY
api_base: "https://open.bigmodel.cn/api/paas/v4"
# 비전 폴백
- model_name: "vision/low"
litellm_params:
model: "gemini/gemini-1.5-pro" # gemini-3.1-pro-low 매핑
api_key: os.environ/GOOGLE_API_KEY
# 동시성 제한
router_settings:
allowed_fails: 3
cooldown_time: 60
routing_strategy: "usage-based-routing"
# 모델별 RPM 설정
litellm_settings:
glm_5_1_rpm: 10
glm_5_turbo_rpm: 1
glm_4_7_rpm: 2
glm_4_5_air_rpm: 5
비용 비교
| 패밀리 | 모델 | 상대 비용 | 1K 토큰 처리 속도 |
|---|---|---|---|
| GLM | glm-4.5-air | ⭐ (최저) | 빠름 |
| GLM | glm-5.1 | ⭐⭐ | 빠름 |
| GLM | glm-4.7 | ⭐⭐ | 중간 |
| GLM | glm-5-turbo | ⭐⭐⭐ | 빠름 |
| Antigravity | claude-sonnet-4-6 | ⭐⭐⭐⭐ | 중간 |
| Antigravity | claude-opus-4-6 | ⭐⭐⭐⭐⭐ (최고) | 느림 |
추천 비율: 예산의 70%를 GLM 패밀리에, 30%를 Antigravity에 할당하면 최적 비용-품질 균형을 달성합니다.
EMA 폴백 체인
Exponential Moving Average 기반 폴백:
기본 모델 실패
↓ (3회 재시도 후)
보조 모델 시도
↓ (실패 시)
폴백 모델
↓ (실패 시)
오류 반환 (Hardcore 모드) 또는 에러 처리
예시 체인:
glm-5.1 → glm-4.7 → glm-4.5-air → ERROR
claude-opus-4-6 → claude-sonnet-4-6 → glm-5-turbo → ERROR
관련 문서
- Model Gateway — LiteLLM 설정 상세
- Model Routing Guide — 동적 라우팅 및 폴백
- Echo Chamber Prevention — 모델 이종성의 중요성
- 설계 철학 — Heterogeneity 원칙