Blog / Analiz / Sürpriz Zaferlerin Anatomisi: 5 Sezon ELO Verisiyle 'Upset'leri Hesaplama ve Tahmin Etme Analizi
Sürpriz Zaferlerin Anatomisi: 5 Sezon ELO Verisiyle 'Upset'leri Hesaplama ve Tahmin Etme Analizi
Analiz

Sürpriz Zaferlerin Anatomisi: 5 Sezon ELO Verisiyle 'Upset'leri Hesaplama ve Tahmin Etme Analizi

Giriş

Spor veya e-spor karşılaşmalarında favorinin yenilmesi — yani "upset" — hem izleyiciye heyecan verir hem de analistler için suçlu arama sürecini başlatır. Beş sezonluk ELO verisini kullanarak bu sürpriz zaferleri nicel olarak nasıl tanımlayıp, hesaplayıp ve geleceğe dönük tahminler üretebileceğimizi adım adım inceleyeceğiz. Bu yazı, teorik temelden pratik uygulamaya geçiş yapanlar için reproducible (yeniden üretilebilir) bir yol haritası sunar.

ELO nedir, 'upset' nasıl tanımlanır?

ELO, rakiplerin göreceli güçlerini puanlayarak maç öncesi beklenen galibiyet olasılığını hesaplayan basit ama etkili bir sistemdir. İki oyuncu veya takım için ELO farkı kullanılarak beklenen galibiyet olasılığı şöyle hesaplanır:

P(A kazanır) = 1 / (1 + 10^{(ELO_B - ELO_A)/400})

Bu hesaplamayı baz alarak "upset" tanımını netleştiririz: Daha düşük ELO'ya sahip takımın (veya oyuncunun) kazanması, o maçta gerçekleşen bir "upset"tir. Analizde hem gözlem tabanlı (gerçekleşen upsets) hem de model tabanlı (tahmini upset olasılığı) değerlendirmeler yapacağız.

Veri hazırlığı: 5 sezonluk ELO verisini nasıl kullanmalısınız?

  • Zaman serisi yapısı: ELO zaman içinde değişir; sezonlar arası meta değişimleri ve transferler önemli. Verinizi maç zamanına göre sıralayın ve sezon etiketleri ekleyin.
  • Öznitelik çıkarımı: Maç öncesi ELO farkı (delta ELO), ev sahibi avantajı, son N maç formu (ör. son 5 maçın kazanma oranı), turnuva önemi (K faktörü etkisi), roster değişimleri, dinlenme günleri ve head-to-head geçmişi gibi özellikleri oluşturun.
  • Ağırlık ve çürükler: Eski maçlar daha az etkili olabilir. Üslü (exponential) ağırlıklandırma ile son maçlara daha fazla önem verin. Eksik veri ve anormal skorlar için temizleme adımları ekleyin.
  • Maç tipi farkı: BO1/BO3/BO5 formatları ve map sayıları upset olasılığını değiştirir; format bilgisini mutlaka saklayın.

Basit hesaplama: ELO tahmini ile upset olasılığı

En temel model: ELO formülünden doğrudan elde edilen P(low-rated wins). Örnek:

  • ELO A = 1600, ELO B = 1700 ise P(A kazanır) = 1 / (1 + 10^{(1700-1600)/400}) ≈ 0.359. Eğer A düşük ELO'luysa, bu maçın 'upset' olasılığı ~35.9% olarak gözükür.

Bu basit olasılık modelinin güçlü yanı şeffaf olması; zayıf yanı ise bağlam (home advantage, BO formatı, kadro değişimi) gibi önemli faktörleri görmezden gelmesidir.

İleri modelleme: Olasılığı iyileştirme yolları

Basit ELO olasılığı, bir başlangıç noktasıdır. Gerçek hayatta doğruluğu artırmak için şu yöntemleri kullanabilirsiniz:

  1. Logistic regression: Hedef değişken: favorinin yenilip yenilmediği (binary). Özellikler: delta ELO, ev sahibi, form, h2h, turnuva tipi. Bu model ELO çıktısını bir özellik olarak alıp diğer faktörlerle birlikte değerlendirir.
  2. Ensemble ve ağaç tabanlı modeller: Random Forest veya Gradient Boosting (XGBoost/LightGBM) nonlineer ilişkileri yakalar; özellikle etkileşimler (delta ELO x format) önemliyse tercih edilir.
  3. Time-aware modeller: Zaman serisi özellikleri, rolling-window validation (kaydırmalı doğrulama) ve online learning yaklaşımları kullanın. Concept drift (meta değişikliğinde model performans kaybı) için düzenli yeniden eğitim şarttır.
  4. Bayesian yaklaşımlar: UpSet'ler nadir olaylarsa, Bayesian hiyerarşik modeller ile takım bazlı belirsizlikleri ve sezonlar arası varyansı modellemek faydalı olur.

Model değerlendirme ve kalibrasyon

Sadece doğruluk (accuracy) ölçümü yanıltıcı olabilir; çünkü upset'ler genelde dengelenmemiş ve düşük frekanslıdır. Aşağıdaki metrikleri kullanın:

  • Log loss / Cross-entropy: Tahmin olasılıklarının güvenilirliğini test eder.
  • Brier skoru: Olasılık tahminlerinin MSE benzeri bir değerlendirmesidir; düşük değer daha iyi.
  • ROC-AUC: Sınıflandırma ayırdetme gücünü ölçer ama olasılık kalibrasyonunu vermez.
  • Calibration plot / reliability diagram: Tahmini olasılık dilimlerinde gerçekleşme frekansını karşılaştırarak modelin kalibre olup olmadığını görün.

Kalibrasyon için Platt scaling (lojistik dönüşüm) veya isotonic regression kullanılabilir. Örneğin modeliniz %30 olasılık verdiği maçların gerçekte %20'si upset oluyorsa, olasılıkları küçültmek gerekir.

Pratik örnek: Adım adım bir pipeline

  1. Veri yükle ve zaman etiketle (5 sezon boyunca maç düzeyi).
  2. ELO hesaplama: Her maçtan sonra ELO güncellemesi (dinamik K faktörü ile deneyin).
  3. Öznitelik mühendisliği: delta ELO, recent form, ev sahibi, bo formatı, roster_change_flag, rest_days.
  4. Train-val-test split: Zaman yapısını koruyarak kaydırmalı doğrulama kullanın (ör. ilk 3 sezon train, 4. sezon val, 5. sezon test veya rolling windows).
  5. Baseline: ELO tabanlı olasılık hesapla ve log loss/Brier ile değerlendir.
  6. Gelişmiş model: Logistic veya GBM eğit. Feature importance ile en etkili faktörleri incele.
  7. Kalibrasyon: Isotonic/Platt uygulayıp reliability diagram çıkar.
  8. Üretime alma: Modeli haftalık olarak yeniden eğit, meta değişimlerini izlemek için drift alarmı kur.

Ölçümler ve pragmatik metrikler

Analistler için faydalı bazı ekstra metrikler:

  • Upset frequency by predicted decile: Her 10'luk olasılık dilimi için gerçekleşen upset oranını hesaplayın. İyi kalibre modelde bu oran yukarı doğru artar ve öngörü ile tutarlı olur.
  • Expected vs Actual upset count: Belirli bir dönem için modelin beklediği upset sayısı ile gerçek sayıyı karşılaştırın; fark model hatasını gösterir.
  • Surprise score: Negatif log olasılık (−log p) kullanarak gerçekleşen upsetlerin ne kadar beklenmedik olduğunu nicelendiririz; yüksek puan = daha şaşırtıcı.

Uygulama alanları ve örnek kullanım

Bu analizlerin pratik faydaları şunlardır:

  • Scouting ve strateji: Rakibin zayıf anlarını ve upset riskini tespit ederek maç hazırlığını optimize edebilirsiniz.
  • İçerik ve yayın: Yayınlarda "bu maçta %X upset olasılığı var" gibi veri destekli anlatılar izleyiciyi çeker.
  • Bahis ve risk yönetimi: Olasılığı paraya çevirmek isteyenler için expected value (EV) hesapları ve portföy sınırlandırmaları önem kazanır.

Riskler, sınırlamalar ve dikkat edilmesi gerekenler

Beş sezonluk verinin sağladığı istatistiksel güç büyük olsa da bazı sınırlamalar kaçınılmazdır:

  • Kadro değişiklikleri: Takımın ELO'su geçmiş performansa bağlıdır; ama büyük roster değişimleri ELO'yu yanıltabilir.
  • Meta ve format değişimleri: Sezonlar arası kural değişiklikleri veya oyun yamaları modelin geçerliliğini etkiler.
  • Veri bağımsızlığı: Maçlar bağımsız olmayabilir (playoff momentum, psikoloji), bu nedenle hiper-güven tehlikelidir.
  • Sampling bias: Sadece lig maçlarını alıp eleme maçlarını dışarıda bırakmak sonuçları çarpıtabilir.

Sonuç

Sürpriz zaferlerin (upset) analizi, ELO gibi basit modellerle başlayıp, zengin öznitelik setleri ve uygun kalibrasyonla ciddi şekilde geliştirilebilir. Beş sezonluk veri size hem güvenilir örneklem büyüklüğü hem de zaman içi mantıksal değişimleri inceleme imkânı verir. En iyi uygulama; baseline ELO modelini referans kabul edip, ek faktörleri adım adım entegre ederek ve sürekli kalibrasyonla sonuçları doğrulamaktır.

Uygulayabileceğiniz ilk adım: Elinizdeki veriyi zaman bazlı bölümlere ayırıp önce sadece ELO farkıyla upset frekanslarını hesaplayın. Ardından logistic model ekleyip hangi özelliklerin en yüksek etkiyi verdiğini test edin. Böylece hem teoriyi hem de pratiği harmonize etmiş olursunuz.