Küçük liglerde (8–32 takım veya oyuncu arası, sınırlı maç sayısı, sık tekrar eden eşleşmeler) doğru bir sıralama sistemi seçmek, yalnızca kazanma yüzdesiyle yetinmekten çok daha fazlasıdır. Bu yazıda ELO, Glicko/Glicko-2, TrueSkill ve özelleştirilmiş (Bayesyen/hiërarşik veya hibrit) modellerin küçük ligler için avantajlarını, dezavantajlarını, uygulama inceliklerini ve pratik önerilerini somut örneklerle anlatacağım.
Giriş: Küçük liglerin özgün sorunları
Küçük ligleri büyük liglerden ayıran temel başlıklar şunlardır:
- Düşük maç sayısı: Her oyuncu/ekip çok az maç yapar; istatistiksel sinyal zayıftır.
- Tekrarlayan eşleşmeler: Aynı rakiplerle sık oynanır, dolayısıyla bağımlılıklar vardır.
- Hızlı kadro/performans değişimi: Küçük liglerde form dalgalanması ve oyuncu hareketleri dereceyi etkiler.
- Veri kalitesi: Sonucun dışında ayrıntılar (skor farkı, oyuncu istatistikleri) bazen yoktur.
Bu şartlar, her modelin nasıl davranacağını ve hangi ayarlara ihtiyaç duyacağını doğrudan etkiler.
ELO: Basit, hızlı, ayarlaması kritik
ELO, basitliği ve hesaplama hızı nedeniyle en çok bilinen sistemdir. Her maçta sabit veya dinamik K faktörü ile puan güncellenir.
Avantajları
- Hafif ve uygulanması kolay.
- Hızlı güncellenir; gerçek zamanlı puanlama uygundur.
- Parametre sayısı az: başlangıç puanı, K değeri.
Dezavantajları ve küçük liglerde tuzaklar
- Sabit K, düşük maç sayısında aşırı dalgalanma veya yavaş adaptasyon yaratabilir.
- Belirsizlik (uncertainty) bilgisi vermez; bir oyuncunun puanına ne kadar güveneceğinizi söylemez.
- Açılış prior'i yanlış seçilirse (ör. herkese 1500 vermek) ilk dönemlerde sıralama yanıltıcı olur.
Pratik ayarlar (örnek)
Küçük lig için öneri: başlangıç 1400–1500; K dinamik: yeni oyuncular için K=60 ilk 10 maç, orta dönem K=30, stabil K=10. Bu, hem hızlı adaptasyon hem de uzun vadede stabilite sağlar.
Glicko / Glicko-2: Belirsizliği modele sokar
Glicko sistemi her oyuncu için bir rating (r) ve bir rating deviation (RD) tutar; Glicko-2 ayrıca volatilite (sigma) ekler. RD, puanın güvenilirliğini gösterir (yüksek RD = az güven).
Avantajları
- Belirsizlik ölçüsü sayesinde az maç yapan oyuncuları doğru şekilde değerlendirir.
- İnatçı hata/şans durumlarını daha sağlıklı tolere eder.
- İnaktiflik durumu doğal olarak RD artışıyla modellenir.
Dezavantajları
- Hesaplama ELO'dan daha karmaşıktır; ancak orta ölçekli liglerde kolay uygulanır.
- Parametre (tau vb.) seçimi küçük liglerde etkili olur; yanlış ayar over/under reacting yaratır.
Pratik ayarlar ve örnek
Küçük bir 12 takımlı ligde Glicko kullanıldığında, başlangıç RD yüksek (ör. 350) verilip ilk 5 maç sonrası RD düşüşü izlenmelidir. Glicko-2'de tau için 0.3–0.5 arası genelde uygun; küçük ligde daha düşük tau (0.3) stabilite sağlar.
TrueSkill: Takım ve oyuncu bazlı esneklik
TrueSkill Microsoft tarafından geliştirildi; Bayesyen bir yaklaşımla her oyuncunun ortalama (mu) ve belirsizliği (sigma) tutulur. Takım maçlarını ve çok oyunculu eşleşmeleri doğal şekilde işler.
Avantajları
- Takım halinde oynanan oyunlarda ve çok oyunculu lobby'lerde güçlüdür.
- Bayesyen güncelleme sayesinde küçük veriyle daha iyi sonuçlar üretebilir.
- Senkron güncellemeler ve çok taraflı sonuçları (ör. 1-2-3 sıralaması) modelleyebilir.
Dezavantajları
- Hesaplama ve implementasyon ELO/Glicko'dan daha karmaşıktır.
- Modeli doğru koşullarla çalıştırmak (ör. beta/performans varyansı) deneyim ister.
Küçük lig tavsiyesi
Eğer ligde takım maçları, çoklu sonuçlar veya skoru olmayan kısa turnuvalar varsa TrueSkill, veri etkinliği ve takım esnekliği nedeniyle öne çıkar. Performans varyansı (beta) ligdeki skor aralığına göre dikkatle seçilmeli (küçük ligde beta daha büyük tutulursa aşırı oynaklık olur).
Özelleştirilmiş ve Bayesyen Hiërarşik Modeller
Küçük ligler için en adil ama en maliyetli yaklaşım, veriye göre özelleştirilmiş bir Bayesyen model kurmaktır. Örneğin oyuncu-bazlı rastgele etkiler, maç-başına skor farkı, zamanla değişen formlar (state-space modeller) ve hiyerarşik priors kullanabilirsiniz.
Neden bu yaklaşımlar küçük liglerde avantajlı?
- Poor data durumunda priors ile bilgi paylaşımı sağlanır (ör. benzer takımlardan öğrenme).
- Zaman içinde form değişimi (kalıcı veya geçici) ayrı ayrı modellenebilir.
- Skor farkı veya diğer yan bilgiler (sahada avantaj, eksik oyuncu vs.) kolayca eklenebilir.
Dezavantajlar
- Modelin kurulması, hiperparametre optimizasyonu ve çıkarım süreci (MCMC/VI) hesaplama ve uzmanlık gerektirir.
- Gerçek zamanlı güncellemeler için ek mühendislik gerekebilir.
Performans Ölçütleri: Hangi metriğe bakmalı?
Bir sistemin "adaleti"ni ölçmek için tek bir metrik yok; birden fazlasını kullanın:
- Predictive accuracy (ör. log loss): Bir maç sonucunu ne kadar iyi tahmin ediyor?
- Calibration (ör. Brier score): Tahmin olasılıkları gerçeğe ne kadar uygun?
- Rank correlation (Kendall tau, Spearman): Oluşan sıralama ile son dönemdeki gerçek performans korelasyonu.
- Stability: Az maç olan oyuncular için puanın güvenilirliği (RD veya sigma değişimi).
Somut Örnek: 8 Takımlı Round-Robin
Diyelim 8 takım var ve her takım 7 maç oynuyor. Veri çok az; her takım için ortalama 7 maç yeterli sinyal vermez. Burada öneriler:
- ELO tek başına kullanılırsa dinamik K (yüksek başlangıç K) şarttır.
- Glicko-2, RD sayesinde ilk dönem belirsizliğini yansıtır; bu adalet açısından büyük avantaj sağlar.
- TrueSkill, eğer maçlarda skor farkı ve takım kompozisyonu değişiyorsa daha uygun olabilir.
- En iyi sonuç: Glicko-2 veya TrueSkill + sezon öncesi hiyerarşik prior (geçmiş sezon verisi varsa) kombini.
Uygulama İpuçları (Checklist)
- Başlangıç priorsını düşünün: Yeni ligse herkese aynı puan yerine geçmiş performansa göre farklı priors verin.
- İnaktiviteyi RD/sigma ile modelleyin; sadece puan dondurmayın.
- Skor farkı varsa onu modele ekleyin (özellikle özelleştirilmiş modellerde yapılmalı).
- Modelinizi simülasyonla test edin: Bilinen bir ground-truth ile hangi yöntemin recovery performansı iyi bakın.
- Basit metrikler yerine birkaçını izleyin (log loss, Brier, Kendall tau).
Özet ve Öneriler
Kısa haliyle:
- ELO: Basit ve hızlıdır; küçük ligde işe yarar ancak dinamik K veya ek önlemler gerektirir.
- Glicko/Glicko-2: Küçük ligler için genelde en pratik ve adil seçimdir; belirsizliği (RD) ölçmesi büyük avantajdır.
- TrueSkill: Takım bazlı ve çok oyunculu senaryolarda öne çıkar; Bayesyen yapısıyla az veriyle iyi çalışabilir.
- Özelleştirilmiş Bayesyen modeller: En adil ve esnek çözümler; kaynak varsa en iyi tercih.
Sonuç olarak: Küçük liglerde öncelikle Glicko-2 veya TrueSkill ile başlamanızı, veri ve mühendislik kaynaklarınız varsa hiyerarşik Bayes modeline doğru ilerlemenizi öneririm. Her durumda sistemi canlıya almadan önce simülasyonlarla test etmek ve birkaç hata metriği (predictive accuracy ve calibration) üzerinden değerlendirmek adalet ve güvenilirlik için kritik önemdedir.
Kaynaklar ve İleri Okuma
- Original Elo paper ve temel kaynaklar
- Glickman, M. E. "Rating Systems" (Glicko) — Glicko-2 teknik dokümanları
- Microsoft Research TrueSkill belgeleri ve uygulama rehberleri
- Bayesyen hiyerarşik modeller için Stan ve PyMC dokümanları
Pratik not: Hangi sistemi seçerseniz seçin, küçük liglerde insan gözetimi (manuel denetim, anomali kontrolü) ve periyodik yeniden kalibrasyon çoğu zaman otomatik sistemlerden daha fazla fark yaratır.
Uygulama veya belirli bir lig için örnek parametre/konfigürasyon isterseniz; lig boyutu, maç formatı ve mevcut veri yapınızı paylaşın, birlikte en uygun konfigürasyonu çıkaralım.