모델 패밀리 매트릭스

godotz.ai는 두 가지 주요 모델 패밀리와 여러 특수 목적 모델을 운용합니다. 올바른 역할에 올바른 모델을 할당하는 것이 비용 효율성과 에코 챔버 방지의 핵심입니다.

패밀리 개요

Antigravity 패밀리

공급자: Anthropic
접근 경로: LiteLLM Proxy → Anthropic API
특성: 높은 추론 능력, 긴 컨텍스트 윈도우, 고비용

모델	컨텍스트	강점	godotz.ai 역할
claude-opus-4-6	200K	복잡한 추론, 설계, 비평	오케스트레이터, 아키텍트
claude-sonnet-4-6	200K	균형, 속도-품질 트레이드오프	비평가, 검토자

동시성 한도: API 계층에 따라 다름 (일반적으로 10-50 RPM)

GLM 패밀리 (z.ai)

공급자: z.ai API
접근 경로: LiteLLM Proxy → z.ai Endpoint
API 키: 가상 키로 관리 (실제 키: 2b5223eebd8b4991a6f96319bc29146e.QA8t9Zd1clyxzLjQ)
특성: 빠른 실행, 저비용, 고동시성

모델	동시성	강점	godotz.ai 역할
glm-5.1	10	빠른 추론, 고처리량	기본 실행자, 코드 생성
glm-4.7	2	균형, 중간 성능	보조 실행, 분류 작업
glm-4.5-air	5	경량, 초저비용	분류, 라우팅, 단순 작업
glm-5-turbo	1	최고 성능 GLM	복잡한 GLM 작업

총 GLM 동시성: 10 + 2 + 5 + 1 = 18 동시 요청

특수 모델

모델	공급자	역할	트리거
gemini-3.1-pro	Google	대화 모델	오케스트레이터 대안
gemini-3.1-pro-low	Google	비전 처리	이미지 입력 감지 시 자동 폴백

상세 사양

GLM-5.1 — 기본 실행자

model_config:
  name: glm-5.1
  provider: z.ai
  concurrency: 10
  
# 권장 사용 사례
use_cases:
  - code_generation: true
  - file_editing: true
  - test_writing: true
  - documentation: true
  - data_processing: true
  
# 부적합한 사용 사례
not_recommended:
  - complex_architecture_design: false  # → claude-opus-4-6
  - critical_security_review: false      # → claude-sonnet-4-6
  - vision_tasks: false                  # → gemini-3.1-pro-low

비용 특성: 1,000 작업당 약 $1.50 (캐시 40% 히트 기준)

GLM-4.5-Air — 경량 라우터

가장 저렴한 GLM 모델. 복잡한 추론보다 단순한 분류, 태깅, 라우팅 결정에 최적화.

# 라우팅 결정 예시
routing_agent:
  model: glm-4.5-air  # 저비용으로 라우팅 결정
  concurrency: 5
  task: "다음 작업을 적절한 에이전트에 라우팅하세요: {{ task }}"

claude-opus-4-6 — 오케스트레이터

가장 비싼 모델. 소량의 중요한 결정에만 사용.

orchestrator:
  model: claude-opus-4-6
  concurrency: 1  # 1개면 충분, 오케스트레이터는 병렬 불필요
  
# 적합한 사용 사례
use_cases:
  - system_design: true
  - complex_reasoning: true
  - cross_agent_coordination: true
  - ambiguous_problem_resolution: true

비용 절약 팁: 오케스트레이터를 최소 호출로 유지. 실행 작업은 GLM에 위임.

모델 역할 할당 가이드

작업 복잡도별 모델 선택 트리:

단순 작업 (분류, 태깅, 라우팅)
  → glm-4.5-air (가장 저렴)

표준 실행 (코드 작성, 파일 편집, 테스트)
  → glm-5.1 (기본 실행자)

중간 복잡도 (검토, 비평, 요약)
  → claude-sonnet-4-6 또는 glm-4.7

높은 복잡도 (설계, 아키텍처, 복잡한 추론)
  → claude-opus-4-6

이미지/비전 포함
  → gemini-3.1-pro-low (폴백)
  → 또는 gemini-3.1-pro (대화)

LiteLLM 설정 예시

# config.yml
model_list:
  # Antigravity 패밀리
  - model_name: "antigravity/opus"
    litellm_params:
      model: "claude-opus-4-6"
      api_key: os.environ/ANTHROPIC_API_KEY
      
  - model_name: "antigravity/sonnet"
    litellm_params:
      model: "claude-sonnet-4-6"
      api_key: os.environ/ANTHROPIC_API_KEY
      
  # GLM 패밀리
  - model_name: "glm/5.1"
    litellm_params:
      model: "glm-5.1"
      api_key: os.environ/GLM_API_KEY
      api_base: "https://open.bigmodel.cn/api/paas/v4"
      
  - model_name: "glm/4.7"
    litellm_params:
      model: "glm-4.7"
      api_key: os.environ/GLM_API_KEY
      api_base: "https://open.bigmodel.cn/api/paas/v4"
      
  - model_name: "glm/4.5-air"
    litellm_params:
      model: "glm-4.5-air"
      api_key: os.environ/GLM_API_KEY
      api_base: "https://open.bigmodel.cn/api/paas/v4"
      
  - model_name: "glm/5-turbo"
    litellm_params:
      model: "glm-5-turbo"
      api_key: os.environ/GLM_API_KEY
      api_base: "https://open.bigmodel.cn/api/paas/v4"
      
  # 비전 폴백
  - model_name: "vision/low"
    litellm_params:
      model: "gemini/gemini-1.5-pro"  # gemini-3.1-pro-low 매핑
      api_key: os.environ/GOOGLE_API_KEY

# 동시성 제한
router_settings:
  allowed_fails: 3
  cooldown_time: 60
  routing_strategy: "usage-based-routing"
  
# 모델별 RPM 설정
litellm_settings:
  glm_5_1_rpm: 10
  glm_5_turbo_rpm: 1
  glm_4_7_rpm: 2
  glm_4_5_air_rpm: 5

비용 비교

패밀리	모델	상대 비용	1K 토큰 처리 속도
GLM	glm-4.5-air	⭐ (최저)	빠름
GLM	glm-5.1	⭐⭐	빠름
GLM	glm-4.7	⭐⭐	중간
GLM	glm-5-turbo	⭐⭐⭐	빠름
Antigravity	claude-sonnet-4-6	⭐⭐⭐⭐	중간
Antigravity	claude-opus-4-6	⭐⭐⭐⭐⭐ (최고)	느림

추천 비율: 예산의 70%를 GLM 패밀리에, 30%를 Antigravity에 할당하면 최적 비용-품질 균형을 달성합니다.

EMA 폴백 체인

Exponential Moving Average 기반 폴백:

기본 모델 실패
    ↓ (3회 재시도 후)
보조 모델 시도
    ↓ (실패 시)
폴백 모델
    ↓ (실패 시)
오류 반환 (Hardcore 모드) 또는 에러 처리

예시 체인:
glm-5.1 → glm-4.7 → glm-4.5-air → ERROR
claude-opus-4-6 → claude-sonnet-4-6 → glm-5-turbo → ERROR