Özellik detayı · 7 / 8

Token Tasarrufu (~%70)

Cache + izole context + paralel async = 3 katman optimizasyon.

Kanka 3 katmanlı token optimizasyonu uygular — prompt cache, subagent context isolation, paralel async. Çıplak LLM kullanımına göre 5 dosyalık refactor projesi $1.80'den $0.45'a düşer.

TL;DR

▸Prompt cache (~70% tasarruf) — Anthropic cache hit, 5dk TTL
▸İzole context (~50%) — subagent kendi context'inde, ana sohbet şişmiyor
▸Paralel async (3x hız) — wall-clock 1/3, toplam token aynı
▸OAuth ile $0 marginal cost — Claude Pro/Max abonelik
▸5 dosyalık refactor: $1.80 → $0.45 (-75% maliyet, -66% süre)

3 katman

💾 Katman 1: Prompt Cache (~70%)

Anthropic prompt caching + GLM cache desteği. Sistem prompt'u, skill'ler, AGENTS.md gibi statik içerikler 5 dakika cache'lenir.

Cache fiyatlandırma (Claude Sonnet 4.6)· text

İlk turn (cache miss, full write):  $0.018 / 1K token
Sonraki turn'ler (cache hit, read): $0.002 / 1K token  → 1/10 fiyat

Tipik oturum: 50 turn
  - 1 cache miss:  $0.018
  - 49 cache hit:  49 × $0.002 = $0.098
  - Toplam:        $0.116

  Cache olmasaydı: 50 × $0.018 = $0.900
  Tasarruf:        87%

🔒 Katman 2: İzole Context (~50%)

Subagent kendi context'inde çalışır, ana sohbet sadece özet alır:

Context isolation· text

Çıplak yaklaşım:
  Ana agent: 20 mesaj × ~2K token = 40K token
  → 'şu kodu detaylı oku' der
  → Ana context'e 20K token kod eklenir
  → Sonraki turn: 60K token kod GÖNDERİLİR (her seferinde tekrar)

Kanka:
  Ana agent: 40K token
  → delege({ agent: 'kasif', task: 'şu kodu oku' })
  → kasif KENDİ context'inde çalışır (200K kapasiteli)
  → kasif: 500 token özet döner
  → Ana agent şimdi: 40.5K token (sadece +500)
  → Sonraki turn: 40.5K gönderilir

⚡ Katman 3: Paralel Async (~3x hız)

Toplam token aynı ama wall-clock 1/3'e iner:

Sequential vs Paralel· text

Sequential:
  kasif (8s) → test-yazari (12s) → gozden-geciren (10s)
  Toplam wall-clock: 30s
  Toplam token: 8K

Paralel:
  kasif         ⎫
  test-yazari   ⎬ aynı anda
  gozden-geciren⎭
  Wall-clock: max(8, 12, 10) = 12s
  Toplam token: 8K (aynı!)
  Kullanıcı bekleme: -60%

Gerçek benchmark

5 dosyalık refactor projesi — auth modülünü yeniden yazma:

Metrik	Çıplak Claude	kanka	Tasarruf
Toplam token	180K	54K	-70%
Maliyet (Sonnet 4.6)	$1.80	$0.45	-75%
Wall-clock süre	12 dk	4 dk	-66%
Kullanıcı bekleme	12 dk active	4 dk active	-66%
Cache hit oranı	0%	78%	+78pp

OAuth ile $0 marginal cost

Claude Pro ($20/ay) veya Max ($100/ay) abonelin varsa, OAuth ile sınırsız Opus + Sonnet — marginal cost = $0:

$kanka

>/giriş

Provider seç:

[1] OAuth — Claude Pro/Max

[2] API key — Anthropic

[3] API key — OpenAI

...

🌐 Tarayıcı açılıyor: claude.ai/oauth

...

✓OAuth tamam. Marginal cost: $0 (Pro/Max kapsamında)

✓

Pro ipucu

Token sayma derdi yok — aylık abonelik kapsamında. Yoğun kullanıcılar için bedava (kullanım limiti var ama günlük dev için yeterli).

Hibrit model kullanımı

Task'a göre LLM· ts

// Ucuz + hızlı keşif: Gemini Flash
await delege({
  agent: "kasif",
  task: "frontend dosyalarını listele",
  model: "google/gemini-2.5-flash", // $0.075 / 1M token
});

// Orta seviye iş: Sonnet
await delege({
  agent: "isci",
  task: "yeni component yaz",
  model: "anthropic/claude-sonnet-4-6", // $3 / 1M token
});

// Karmaşık reasoning: Opus
await delege({
  agent: "mimar",
  task: "microservice architecture design",
  model: "anthropic/claude-opus-4-7", // $15 / 1M token
});

// Toplam maliyet: $0.05 (vs Opus only $1.20) — %96 tasarruf

Cache durumunu izle

/bilgiCache hit oranı + maliyet özeti

/istatistikLokal kullanım analizi (oturum başına)

/maliyetŞu anki oturumun toplam maliyeti

Sıkça Sorulanlar

Cache nasıl çalışır?

Anthropic ephemeral cache — sistem prompt üst kısmı (~6K token) cache_control: ephemeral ile işaretlenir. 5 dakika TTL. Sonraki request'lerde cache hit olursa o kısım 1/10 fiyat.

Cache invalidation?

Sistem prompt değişirse cache miss. Persona değiştirdiğinde, AGENTS.md güncellediğinde, skill yüklediğinde cache yenilenir.

OAuth limit'e takılırsam?

Claude Pro/Max'in günlük token limit'i var (resmi olmayan ~3-5M token/gün). Limit aşılırsa otomatik API key'e düşer (varsa).