Blog / Derecelendirme / ELO mi TrueSkill mi? 5 Küçük Lig Senaryosunda Hangi Derecelendirme Sistemi Daha Adil ve Uygulanabilir?
ELO mi TrueSkill mi? 5 Küçük Lig Senaryosunda Hangi Derecelendirme Sistemi Daha Adil ve Uygulanabilir?
Derecelendirme

ELO mi TrueSkill mi? 5 Küçük Lig Senaryosunda Hangi Derecelendirme Sistemi Daha Adil ve Uygulanabilir?

Giriş

Küçük ligler — arkadaş grupları, amatör turnuvalar, ofis ligleri veya yerel kulüp etkinlikleri — rekabeti canlı tutarken adil bir derecelendirme sistemi gerektirir. ELO ve TrueSkill en popüler iki seçenek. Ancak "küçük lig" dediğimizde, maç sayıları sınırlı, oyuncu sayısı küçük, eşleşmeler sık tekrarlı veya düzensiz olabilir. Bu yazıda 5 farklı küçük lig senaryosunda ELO ile TrueSkill'i uzman gözüyle karşılaştırıp hangi durumda hangisinin avantajlı olduğunu, uygulanabilirlik ve parametre önerilerini adım adım inceliyoruz.

Derecelendirme sistemlerinin kısa teknik özeti

ELO basit ve anlaşılırdır: her oyuncunun bir skoru (rating) vardır; maç sonucuna göre bu skoru güncellersiniz. Güncelleme R' = R + K * (S - E) formülüne dayanır. Burada K güncelleme hızını, S gerçek sonucu, E beklenen sonucu verir.

TrueSkill Microsoft tarafından geliştirilen, özellikle takım oyunları ve çok oyunculu eşleşmeler için tasarlanmış istatistiksel bir modeldir. Her oyuncu için ortalama yetenek (mu) ve belirsizlik (sigma) tutulur. Sonuçlar bu iki parametre üzerinden Bayesçi olarak güncellenir; dolayısıyla sistem yeni veya düzensiz oyuncuları daha hızlı öğrenebilir.

Genel karşılaştırma: ELO ve TrueSkill'in güçlü/zaaflı yönleri

  • Basitlik: ELO daha sade, uygulaması kolay. TrueSkill daha kompleks ve biraz daha fazla hesaplama gerektirir.
  • Belirsizlik yönetimi: TrueSkill sigma ile belirsizliği ölçer; yeni oyuncuların yeteneğini hızla belirler. ELO'da benzer etki için K ayarlarıyla oynamak gerekir.
  • Takım maçları: TrueSkill doğal olarak takım oyunlarını destekler; ELO için takım halinde rating birleşimi ve paylaştırma gerekir ki bu ek kurallar talep eder.
  • Maç sayısı azsa: TrueSkill genellikle daha hızlı ve istikrarlı öğrenir. ELO, uygun K ile optimize edilirse kabul edilir sonuçlar verir fakat ince ayar gerektirir.
  • Hesaplama ve altyapı: Küçük ligler için her iki sistem de rahat çalışır; TrueSkill kütüphaneleri mevcut ama ELO için kendi basit kodunuzu yazabilirsiniz.

Senaryo bazlı değerlendirme: 5 küçük lig örneği

Her senaryoda öncelikle problemi tanımlayıp ardından hangi sistemin neden daha uygun olduğunu belirteceğim. Sonunda uygulama notları ve parametre tavsiyeleri olacak.

Senaryo 1: 4 oyunculu round-robin, sık rematch, sonuçlar genelde net (kazanan/kaybeden)

Tanım: Dört oyuncu birbirleriyle birkaç kez karşılaşıyor. Beraberlik nadir. Lig dönemi boyunca herkes benzer sayıda maç oynuyor.

Değerlendirme:

  • ELO: Çok uygun. Sadelik ve şeffaflık avantajı. K değerini orta (ör. K=20) tutarak stabil ama yeterince duyarlı sonuçlar alınır. Sık rematchlerde ELO geçmiş performansı iyi yansıtır.
  • TrueSkill: Teknik olarak de uygundur ama ekstra sigma yönetimi bu ölçek için gereğinden fazla karmaşıklık getirebilir. Eğer başlangıç belirsizliği yüksekse avantaj sağlar.

Tavsiye: Küçük, düzenli round-robin için ELO (K=20, başlangıç rating=1500) yeterli ve pratik. Eğer başlangıçtaki belirsizlik çok fazlaysa TrueSkill düşünün.

Senaryo 2: 6 oyunculu Swiss tarzı, beraberlik (draw) olasılığı yüksek

Tanım: Eşit seviyeli oyuncular, maçlar bazen beraberlikle sonuçlanabiliyor. Eşleşmeler model tarafından dinamik olarak belirleniyor.

Değerlendirme:

  • ELO: Beraberlik durumunu ele almak için S değerini 0.5 olarak kullanmak yeterli. Ancak oyunların sık berabere bitmesi ELO'nun ayarını zorlayabilir; beklenen skor hesaplaması eşleşmelerin ince farklılıklarını yeterince yakalamayabilir.
  • TrueSkill: Draw durumlarını doğal olarak modelleyebilir ve sigma ile birlikte oyuncu belirsizliğini hesaba katar. Swiss eşleşmelerinde daha stabil sıralamalar çıkarır.

Tavsiye: Beraberlik sık ise TrueSkill tercih edin. ELO kullanacaksanız K'yi biraz yükseltin (K=24-30) ve beraberlik için 0.5 yaklaşıklı skorlama uygulayın.

Senaryo 3: 4 takımlı doubles (2v2) küçük lig

Tanım: İki kişiden oluşan takımlar halinde karşılaşmalar. Oyuncular farklı partnerlerle eşleşebiliyor.

Değerlendirme:

  • ELO: Takımlar için rating kombinasyonu (ör. ortalama veya toplam) kullanmak gerekir. Partner değiştikçe bireysel katkıyı ayırmak zorlaşır. ELO bu esnada çarpık sonuçlar verebilir.
  • TrueSkill: Takım oyunlarına özgü güncelleme kuralları ile tasarlanmıştır; farklı partnerlerle oynandığında bile bireysel mu/sigma güncellenerek daha adil performans tespiti yapar.

Tavsiye: Doubles ve partner değişimi varsa TrueSkill neredeyse her zaman daha adil ve uygulaması kolay çözümdür.

Senaryo 4: 5 oyunculu gayri düzenli (irregular) lig, yüksek inaktivite

Tanım: Bazı oyuncular haftalarca oynamıyor. Maçlar düzensiz, yeni oyuncular dönüp geliyor.

Değerlendirme:

  • ELO: ELO'da uzun süre aktif olmayanların rating'leri aynı kaldığından, zamanla form değişimini yakalamak zor olur. Yeniden aktif olanlar için manuel reset veya K artırımı gerekebilir.
  • TrueSkill: Sigma değeri sayesinde uzun süre oynamayanlar için belirsizlik artabilir (uygulamada sigma'yı zamanla artırmak için custom logic gerekir). TrueSkill varsayılan olarak buna odaklı değildir ama sigma yönetimi eklenirse daha hassas olur.

Tavsiye: Irregular oyun takibi varsa TrueSkill lehine özelleştirme yapın: inaktivite süresi boyunca sigma'yı kademeli artıran bir kural ekleyin. Alternatif olarak ELO ile inaktif oyuncuları hafifçe soft-resetleyen bir mekanizma kurabilirsiniz.

Senaryo 5: 8 oyunculu tek maç eliminasyon (knockout) turnuvası, az sayıda maç

Tanım: Her oyuncu 1-3 maç yapıyor; küçük örneklemle yetenek tahmini yapmak zor.

Değerlendirme:

  • ELO: Az maçla stabil sonuç çıkarmak zor. Başlangıç ratingleri çok etkili olur. K yüksek tutulursa dalgalanma olur, düşük tutulursa yeni bilgi az etkiler.
  • TrueSkill: Az maçlarda sigma belirsizliği yüksek tutarak gerçek performans aralığını korur. Bu, tek turnuva üzerinden aceleyle karar vermeyi önler.

Tavsiye: Tek maç eliminasyonlarda TrueSkill daha güvenli sonuç verir; ELO tercih edilecekse turnuva sonrasında uzun vadeli sıralama için ek maçlar gerekebilir.

Uygulama notları ve pratik parametre önerileri

  • ELO başlangıç ve K: Başlangıç 1500, aktif lig için K=20; yeni başlayanlar veya hızlı öğrenme gereken ligler için K=32; amatör sabit liglerde K=10-15 daha stabil sonuç verir.
  • TrueSkill varsayılan: mu=25, sigma=8.333, beta=4.167 tipik; küçük liglerde sigma'yı biraz daha büyük tutmak (ör. sigma=10-12) başlangıç belirsizliğini yansıtabilir.
  • Beraberlik (draw): ELO'da S=0.5; TrueSkill'de draw olasılığını modele dahil edin (kütüphaneler genelde destekler).
  • Takım maçları: TrueSkill otomatik avantaj sağlar. ELO'da takım rating'ini takım üyelerinin ortalaması ya da ağırlıklı ortalaması ile hesaplayın ve bireylere göre paylaştırın.
  • Inaktivite: Sigma artırma (TrueSkill) veya soft-decay (ELO) uygulayın: örn. 3 ay oynamayanlara her ay için sigma*1.05 veya rating-0.25% uygulanabilir.

Sonuç — hangi sistemi seçmelisiniz?

Kısa cevap: Genel olarak doubles/takım ve düzensiz/az maçlı senaryolarda TrueSkill daha adil ve esnek. Düzenli, küçük round-robin ligler için ELO basit, şeffaf ve pratik bir çözümdür.

Pratik öneri: Yeni başlıyorsanız ve altyapınız basitse ELO ile başlayın; ileride partner değişimleri, draws ya da düzensizlikler sorun olmaya başlarsa TrueSkill'e geçiş yapın. Geçişte oyuncu geçmişini mu değerleriyle başlatmak ve sigma'yı dikkatli ayarlamak önemlidir.

Her lig benzersizdir: en doğru seçim teknik yeterlilik, oyuncu davranışı ve uygulama kolaylığı dengesiyle yapılır. Küçük deneyler ve A/B denemeleriyle kendi liginiz için en iyi ayarı bulun.

Çıkarımlar: 1) ELO = basit, şeffaf, düşük maliyet. 2) TrueSkill = karmaşık ama takım oyunları ve belirsizlik yönetiminde üstün. 3) Parametreler küçük liglerde sonucu önemli ölçüde etkiler; bu yüzden varsayılanları blindly kabul etmeyin.

Son olarak, karar verirken oyuncu deneyimini ön planda tutun: adil görünen bir sistem katılımı artırır ve rekabeti canlı tutar.