Giriş
Bir lig (spor ligi, e-spor ligi veya benzeri rekabet ortamı) için veri bilimciler işe alırken teknik yetkinliklerin yanında etik ve gizlilik farkındalığı da kritik öneme sahiptir. Bu yazı, röportaj sırasında sorabileceğiniz 12 derinlemesine soruyu, her sorunun arkasındaki amacı, ideal cevaplarda hangi unsurları aramanız gerektiğini ve adayların uygulamalı becerilerini test etmek için kullanabileceğiniz kısa değerlendirme önerilerini içerir.
Neden bu sorular?
Lig verisi genellikle hassas, yüksek frekanslı ve oyuncu/taraftar bazlıdır. Model hataları hem sportif performansa hem de kişisel gizliliğe zarar verebilir. Bu nedenle sorular üç ana temada toplanmıştır: model doğrulama, yanlılık tespiti ve veri gizliliği. Aşağıdaki sorular hem teknik derinliği test eder hem de etik muhakeme ve uygulama becerilerini açığa çıkarır.
12 Temel Soru ve Açıklamaları
-
Model doğrulama: Zaman serisi/sıralı veriye dayalı modellerde doğrulama nasıl yaparsınız?
Amaç: Lig verilerinde (maç olayları, oyuncu takipleri) zaman bağımlılığı önemlidir. Adayın yanlış CV (cross-validation) uygulamalarını bilip bilmediğini görmek istiyoruz.
İdeal cevap: Zaman bazlı cross-validation (rolling window, expanding window), backtesting, leakage kontrolü, ve model gölgeleme (shadow mode) ile üretim öncesi validasyon. Ayrıca performans metriklerinin (AUC, F1, Brier score, calibration) zaman içinde izlenmesi gerektiğini belirtmeli.
Pratik test: Adaya geçmiş sezon verisi verip bir sonraki maçlar için tahmin görevi verin; hangi CV stratejisini seçtiğini ve nedenini açıklamasını isteyin.
-
Label leakage örneği verin. Lig verisinden bir kaç örnekle nasıl tespit edilir ve düzeltilir?
Amaç: Sızan/gelecek bilgilerin model performansını şişirip gerçek dünyada başarısızlığa yol açmasını önlemek.
İdeal cevap: Geleceğe ait sinyaller (ör. maç sonrası oluşan özet istatistikler, sakatlık sonrası raporlar) veya hedefle doğrudan ilişki kuran türev özelliklerin tespiti. Kök neden analizi, feature importance ile anomalilerin tespiti, zaman damgası gözlemi, ve gerçek zamanlı feature engineering ile çözüm.
Örnek: Maç sonucunu tahmin ederken oyuncu 'oynadı_mı' sütununun kullanılması label leakage'tır. Düzeltme: veri sözleşmeleri ve feature store'da zaman-damacı uyumluluğu.
-
Model kalibrasyonu ve güvenilirlik: Bir modeli nasıl kalibre edersiniz ve neden önemlidir?
Amaç: Tahminlerin olasılık anlamında güvenilir olması (ör. %70 tahmini gerçekten ~%70 gerçekleşme olasılığına sahip olmalı).
İdeal cevap: Platt scaling, isotonic regression, reliability diagram, Brier score değerlendirmesi, sınıf dengesizliği durumunda stratified calibration. Lig uygulamalarında yanlış kalibre olmuş bir model riskli kararlar doğurur (ör. oyuncu alımı, sakatlık riski yönetimi).
-
Dağılım değişikliği (distribution shift) nasıl tespit edilir? Bir lig sezon boyunca dağılım değişirse ne yaparsınız?
Amaç: Veri dağılımları zaman içinde değişir; modellerin eskimesini erken tespit etmek gerekir.
İdeal cevap: PSI (Population Stability Index), Kolmogorov-Smirnov testi, özelliklerin istatistiksel karşılaştırmaları, model performansının üretimde sürekli izlenmesi ve uyarı eşikleri. Shadow production, incremental retraining, ve online learning yaklaşımlarından bahsetmeli.
-
Yanlılık tespiti: Takım, ülke, yaş veya cinsiyet kaynaklı adaletsizliği nasıl ölçersiniz?
Amaç: Adil olmayan model davranışını sayısallaştırmak ve düzeltmek.
İdeal cevap: Demographic parity, equalized odds, equal opportunity, predictive parity gibi metriklerden bahsetmeli. Lig özelinde örnek: bir scout modelinin belirli bir ülke veya pozisyona sistematik düşük skor vermesi. Causal analiz, subgroup evaluation ve reweighing / adversarial debiasing gibi düzeltme yöntemleri önerilmeli.
-
Açıklanabilirlik: Bir kararın oyuncu/koç önünde açıklanması gerektiğinde hangi yöntemleri kullanırsınız?
Amaç: Kararların şeffaf ve anlaşılır olması; tecrübeli kullanıcıların güvenini kazanmak.
İdeal cevap: SHAP ile yerel ve global açıklamalar, LIME, kural tabanlı surrogate modeller, basit kontrfaktüel açıklamalar. Ayrıca özet grafikler ve etkileşimli görselleştirme (feature contribution over time) önerilmeli.
-
Veri gizliliği: Oyuncu izleme verisi (x,y koordinatları, biyometrik veriler) için hangi anonimleştirme stratejilerini önerirsiniz?
Amaç: Kişisel veriyi korurken veri kullanılabilirliğini korumak.
İdeal cevap: Pseudonimization, k-anonymity, l-diversity, t-closeness gibi klasik teknikler; ayrıca differential privacy (DP-SGD, Laplace/Gaussian mekanizmaları) ve synthetic data üretimiyle yeniden-identifikasyon riskinin azaltılması. Örnek: GPS benzeri hareket verilerinde zaman/konum kombinasyonu re-identifikasyona izin verebileceği için noise eklenmesi, segmentasyon veya downsampling uygulanmalı.
-
Hukuk ve uyum: KVKK/GDPR bağlamında hangi süreçleri etkinleştirirsiniz?
Amaç: Yasal uygunluk ve veri sahipliği süreçlerini değerlendirmek.
İdeal cevap: Veri envanteri, veri işleme sözleşmeleri, aydınlatılmış rıza (consent) protokolleri, veri minimizasyonu, erişim kontrolleri, veri işleme amaçları ve saklama süreleri tanımlanmalı. Ayrıca DPIA (Data Protection Impact Assessment) yapılması gerektiğini bilmeliler.
-
Gizli/dağıtık öğrenme: Federated learning veya secure aggregation bu lig ortamında nerede mantıklıdır?
Amaç: Merkezi veri paylaşımının mümkün olmadığı durumlarda alternatif çözümleri ölçmek.
İdeal cevap: Kulüp bazlı verinin paylaşımının kısıtlı olduğu durumlar için federated learning ve secure aggregation önerilmeli; model güncellemelerinin merkezi sunucuya yalnızca gradyan olarak iletildiği ve secure multiparty computation (MPC) ya da homomorfik şifreleme kullanımının maliyet/performans değerlendirmesi yapılmalı.
-
Adversary (kötü amaçlı) senaryolar: Modelinizi manipüle etmeye çalışan bir aktöre karşı hangi savunmaları tasarlarsınız?
Amaç: Model güvenliği — kötü niyetli oyuncuların sistemleri manipüle etme riski.
İdeal cevap: Data poisoning, evasion attack örnekleri ve savunma yöntemleri; outlier detection, robust training (e.g. adversarial training), input sanitization, anomaly detection, ve üretimde canlı izleme. Örnek: rakip bir takımın telemetri verisini manipüle edip rakip analizlerini bozma riski.
-
Üretim süreçleri: Model izleme, uyarı eşikleri ve rollback planı nasıl olmalı?
Amaç: Modelin sahadaki güvenli ve etkili çalışmasını sağlamak.
İdeal cevap: SLA'lar, performans metrikleri için uyarı eşikleri (ör. AUC düşüşü, PSI eşik aşımları), otomatik rollback prosedürleri, shadow testing, canary deployment, ve sürekli eğitim pipeline'ı (MLOps). Ayrıca audit log ve explainability kayıtları tutulmalı.
-
Pratik SQL/Python testi: Verilen maç-event tablosunda maç başına topa sahip olma süresini (possession) SQL ile hesaplayın; nasıl performanslı çalıştırırsınız?
Amaç: Temel mühendislik becerisi ve üretim veritabanı optimizasyonu.
İdeal cevap: Zaman aralıklarının birleştirilmesi, window fonksiyonları, event sıralaması, eksik veri işleme; indeksleme, partitioning, pre-aggregation (materialized views) önerileri. Aday kısa ve okunabilir bir SQL parçası yazabilmeli.
Değerlendirme Kriterleri ve Kısa Rubrik
- Teknik Derinlik (0-3): Kavramları doğru tanımlar, örnekler ve alternatif çözümler sunar.
- Uygulama Yetisi (0-3): Gerçek dünya verilerinde nasıl uygulayacağını gösterir; kod/SQL örnekleri verirse artı puan.
- Etik & Uyum (0-3): Gizlilik, KVKK/GDPR vb. konuları açıkça ele alır.
- İletişim (0-1): Teknik olmayan paydaşlara açıklama yeteneği.
Genel kabul eşiği: toplam 7/10 veya üzeri, pozisyona göre değişir.
Pratik Örnekler ve Kısa Senaryolar
1) Eğer bir model belirli bir kulübün oyuncularını sürekli düşük puanlandırıyorsa, subgroup analysis yapın: pozisyon, yaş, ülke, antrenman verisi gibi alt gruplarda model performansını karşılaştırın.
2) Telemetri verisinin re-identifikasyon riski: Bir oyuncunun benzersiz hareket paterni birkaç maçla eşleştirilebiliyorsa, k-anonymity sağlanmamış olabilir. Çözüm: hareketlere noise eklemek, segment düzeyinde paylaşmak veya synthetic data üretmek.
İpucu: Adayların verdiği cevapların teknik doğruluğu kadar, takıma nasıl adapte olacaklarını ve karar vericilere nasıl güven vereceklerini değerlendirin.
Sonuç
Lig ortamında veri bilimi sadece algoritma seçmekten ibaret değildir. Doğru röportaj soruları; model doğrulama, yanlılık tespiti ve veri gizliliği gibi kritik alanlarda adayın hem teknik ehliyetini hem de etik muhakemesini ortaya koyar. Yukarıdaki 12 soru ve değerlendirme yaklaşımları, doğru kişiyi seçmenizde sistematik ve pratik bir rehber sağlayacaktır.
Kapanış önerisi: Teknik soruların yanında kısa bir uygulama ödevi (ör. küçük bir notebook veya SQL görevi) verin; adayın teoriyi pratikte uygulayış biçimi en iyi sinyali verir.