3 katman
💾 Katman 1: Prompt Cache (~70%)
Anthropic prompt caching + GLM cache desteği. Sistem prompt'u, skill'ler, AGENTS.md gibi statik içerikler 5 dakika cache'lenir.
İlk turn (cache miss, full write): $0.018 / 1K token
Sonraki turn'ler (cache hit, read): $0.002 / 1K token → 1/10 fiyat
Tipik oturum: 50 turn
- 1 cache miss: $0.018
- 49 cache hit: 49 × $0.002 = $0.098
- Toplam: $0.116
Cache olmasaydı: 50 × $0.018 = $0.900
Tasarruf: 87%🔒 Katman 2: İzole Context (~50%)
Subagent kendi context'inde çalışır, ana sohbet sadece özet alır:
Çıplak yaklaşım:
Ana agent: 20 mesaj × ~2K token = 40K token
→ 'şu kodu detaylı oku' der
→ Ana context'e 20K token kod eklenir
→ Sonraki turn: 60K token kod GÖNDERİLİR (her seferinde tekrar)
Kanka:
Ana agent: 40K token
→ delege({ agent: 'kasif', task: 'şu kodu oku' })
→ kasif KENDİ context'inde çalışır (200K kapasiteli)
→ kasif: 500 token özet döner
→ Ana agent şimdi: 40.5K token (sadece +500)
→ Sonraki turn: 40.5K gönderilir⚡ Katman 3: Paralel Async (~3x hız)
Toplam token aynı ama wall-clock 1/3'e iner:
Sequential:
kasif (8s) → test-yazari (12s) → gozden-geciren (10s)
Toplam wall-clock: 30s
Toplam token: 8K
Paralel:
kasif ⎫
test-yazari ⎬ aynı anda
gozden-geciren⎭
Wall-clock: max(8, 12, 10) = 12s
Toplam token: 8K (aynı!)
Kullanıcı bekleme: -60%Gerçek benchmark
5 dosyalık refactor projesi — auth modülünü yeniden yazma:
| Metrik | Çıplak Claude | kanka | Tasarruf |
|---|---|---|---|
| Toplam token | 180K | 54K | -70% |
| Maliyet (Sonnet 4.6) | $1.80 | $0.45 | -75% |
| Wall-clock süre | 12 dk | 4 dk | -66% |
| Kullanıcı bekleme | 12 dk active | 4 dk active | -66% |
| Cache hit oranı | 0% | 78% | +78pp |
OAuth ile $0 marginal cost
Claude Pro ($20/ay) veya Max ($100/ay) abonelin varsa, OAuth ile sınırsız Opus + Sonnet — marginal cost = $0:
Hibrit model kullanımı
// Ucuz + hızlı keşif: Gemini Flash
await delege({
agent: "kasif",
task: "frontend dosyalarını listele",
model: "google/gemini-2.5-flash", // $0.075 / 1M token
});
// Orta seviye iş: Sonnet
await delege({
agent: "isci",
task: "yeni component yaz",
model: "anthropic/claude-sonnet-4-6", // $3 / 1M token
});
// Karmaşık reasoning: Opus
await delege({
agent: "mimar",
task: "microservice architecture design",
model: "anthropic/claude-opus-4-7", // $15 / 1M token
});
// Toplam maliyet: $0.05 (vs Opus only $1.20) — %96 tasarrufCache durumunu izle
/bilgiCache hit oranı + maliyet özeti/istatistikLokal kullanım analizi (oturum başına)/maliyetŞu anki oturumun toplam maliyetiSıkça Sorulanlar
Cache nasıl çalışır?
Anthropic ephemeral cache — sistem prompt üst kısmı (~6K token) cache_control: ephemeral ile işaretlenir. 5 dakika TTL. Sonraki request'lerde cache hit olursa o kısım 1/10 fiyat.
Cache invalidation?
Sistem prompt değişirse cache miss. Persona değiştirdiğinde, AGENTS.md güncellediğinde, skill yüklediğinde cache yenilenir.
OAuth limit'e takılırsam?
Claude Pro/Max'in günlük token limit'i var (resmi olmayan ~3-5M token/gün). Limit aşılırsa otomatik API key'e düşer (varsa).
💰 Token Tasarrufu (~%70)'ni dene
npm üzerinden 30 saniyede kur, hemen kullan.
$npm install -g @thorrangonak/kanka