Veri Bilimi

Röportaj Soruları: Lig Veri Bilimcisine Sorulacak 12 Teknik ve Etik Soru — Model Doğrulama, Hile Tespiti ve Şeffaflık

Rekabet · 23 Şubat 2026 · 5 dk okuma · 82 görüntülenme

Giriş: Liglerde veri bilimi pozisyonları teknik bilgi kadar etik ve operasyonel muhakeme de gerektirir. Adayın model doğrulama süreçlerini, hile tespiti yaklaşımlarını, veri şeffaflığı ve kullanıcı mahremiyeti konularındaki bakışını ölçen iyi hazırlanmış sorular, hem takımınızın güvenilirliğini artırır hem de yanlış kararları ve operasyonel riskleri azaltır.

Bu rehberin amacı

Burada 12 soru ve her soru için neden sorulmalı, beklenen güçlü cevaplar, olası takip soruları ve pratik değerlendirme ipuçları yer alır. Sorular teknik (model doğrulama, performans metrikleri, hile tespiti algoritmaları) ve etik (şeffaflık, adalet, gizlilik) karışımıdır.

Nasıl kullanmalı?

Mülakata bağlı olarak soruları kademelendirin: ilk turda geniş strateji ve etik, ikinci turda teknik derinlik ve kod/örnek proje incelemesi tercih edin. Adayın geçmiş deneyimlerini somut örneklerle anlatmasını isteyin; varsayımsal senaryolarda nasıl hareket edeceğini değerlendirin.

12 Temel Röportaj Sorusu ve Açıklamaları

Model doğrulama sürecinizi adım adım anlatır mısınız? Hangi metrikleri, hangi senaryolarda kullanırsınız?
- Neden: Lig modelleri değişken, mevsimsel ve advers etkilere açık. Doğrulama kritik.
- Beklenen cevap: Veri bölme (zaman serisi için zaman bazlı split), çapraz doğrulama türleri, ROC/AUC, PR, F1, calibration, Brier skoru, dağılım kayması (covariate shift) testleri, backtest süreçleri.
- Takip: "Overfitting tespit ederseniz adımlarınız neler?" veya "Spor takımlarındaki kavram kayması (concept drift) ile nasıl başa çıkarsınız?"
Model kalibrasyonu ve güven aralıklarını nasıl sağlarsınız? Olasılık tahminleri güvenir mi?
- Neden: Tahminlerin olasılıksal yorumlanması karar desteği için önemlidir (ör: maç sonucu oranlama, oyuncu idman kararları).
- Beklenen cevap: Platt scaling, isotonic regression, calibration plot, Brier score; güven aralıkları için bootstrap, Monte Carlo dropout (NN), Bayesian yaklaşımlar.
- Takip: "Gerçek kullanıcıya sunulan bir skoru 'kesin' göstermeyecek misiniz?"
Gerçek zamanlı veri akışıyla çalışırken modelinizi nasıl doğrular ve izlersiniz?
- Neden: Lig operasyonları çoğunlukla gerçek zamanlıdır; gecikme ve drift kritik.
- Beklenen cevap: MLOps hatları, model izleme (data drift, label drift), latency SLAs, online A/B testleri, canary deployment, geri alma planları.
- Takip: "Anomali saptarsanız otomatik mi yoksa manuel müdahale mi olur?"
Hile (fraud/cheating) tespiti için hangi yöntemleri uygularsınız? Örnek bir vaka anlatın.
- Neden: Liglerde bahis, bot oyuncu, performans manipülasyonu riskleri var.
- Beklenen cevap: Anomali tespiti (isolation forest, HDBSCAN, autoencoder tabanlı), davranış tabanlı modelleme (sequence modeling, RNN/Transformer ile zaman serisi), grafik analiz (graph anomalies, community detection), kurallı sistemlerle hibrit yaklaşımlar.
- Örnek cevap: "Bir taraftar/hile şüphesi vakasında oyun içi telemetri, IP adresi, hesap ilişkileri ve zaman desenlerini birleştirip graf tabanlı şüphe skorlaması kullandık."
- Takip: "Yanlış pozitifleri nasıl azaltırsınız? Hukuki ve kullanıcı deneyimi etkisini nasıl değerlendirirsiniz?"
Hile tespit modellerinde adversarial (kasıtlı yanıltma) saldırılara karşı nasıl sağlamlık sağlarsınız?
- Neden: Hile yapan aktörler yöntemlerini günceller; modellerin adversitelere karşı dayanıklı olması gerekir.
- Beklenen cevap: Adversarial training, feature hardening (birden fazla veri kaynağı), model ensemble, online öğrenme ve insan-in-the-loop inceleme, düzenli saldırı simülasyonları.
- Takip: "Bir saldırı tespit edildiğinde anlık aksiyon planınız ne olur?"
Veri kalitesi sorunlarını (eksik, hatalı, gecikmiş etiket) nasıl ele alırsınız? Örnek politikalarınız var mı?
- Neden: Kötü veri doğrudan yanlış modele yol açar; liglerde etiketlerin gecikmesi sık olur.
- Beklenen cevap: Veri doğrulama pipeline'ları, kabul edilebilirlik kriterleri (schema checks), imputation stratejileri, gecikmeli etiketler için semi-supervised learning veya delayed feedback modeling.
- Takip: "Etiket gecikmesi olduğunda performans değerlendirmesini nasıl yaparsınız?"
Şeffaflık ve açıklanabilirlik (explainability) sizin için ne kadar önemli? Hangi teknikleri kullanırsınız?
- Neden: Takımlar, yöneticiler ve regülasyon açısından model kararlarını açıklayabilmek gerekir.
- Beklenen cevap: SHAP, LIME, counterfactual explanation, feature importance, model cards, datasheets for datasets; karar süreçlerini kullanıcı dostu şekilde dokümante etmek.
- Takip: "Bir oyuncu transferiyle ilgili modelinizin verdiği öneriyi nasıl açıklarsınız?"
Adalet ve önyargı: Modelinizin oyuncu veya takım bazında adaletsiz bir davranışı olup olmadığını nasıl test edersiniz?
- Neden: Eşitsizlikler ve önyargılar hem etik hem de operasyonel sorunlara yol açar.
- Beklenen cevap: Protected attribute analizi (örn. yaş/medeniyet/ülke gibi hassas alanlarda dikkat), fairness metrikleri (statistical parity, equal opportunity), subgroup performance incelemesi, bias mitigation yöntemleri (reweighing, adversarial debiasing).
- Takip: "Bir önyargı tespit ederseniz hangi adımları atarsınız?"
Veri gizliliği ve yasal uyumluluk (ör: KVKK, GDPR) bağlamında hangi pratikleri uygularsınız?
- Neden: Lig verileri kişisel veya hassas olabilir; yasal risk yüksek.
- Beklenen cevap: Minimum veri ilkesi, anonimleştirme/pseudonymization, veri erişim kontrolleri, veri işlem kayıtları, veri kullanım izinlerinin kaydı, privacy-by-design yaklaşımları, gerektiğinde DP (differential privacy) uygulamaları.
- Takip: "Bir oyuncu verisi talep ederse nasıl yanıt verirsiniz?"
Bir model canlıya alındıktan sonra performansı düşmeye başlarsa ilk 48 saatte hangi adımları atarsınız?
- Neden: Hızlı aksiyon hataların büyümesini engeller.
- Beklenen cevap: Hızlı analiz (input distribution kontrolü, label lag kontrolü), canary rollback, veri etiketleme önceliği, insan-in-the-loop müdahalesi, kısa vadeli kurallarla tamponlama.
- Takip: "Hangi metric tetikleyiciler otomatik alarm üretmeli?"
Adayın teknik yeterliliğini ve kod becerisini nasıl test edersiniz? (Take-home, canlı kodlama, kod revizyonu vs.)
- Neden: Teori ile pratiğin ayrışması sık görülür.
- Beklenen cevap: Gerçek veriyle kısa bir take-home görev (temizleme, öznitelik mühendisliği, basit model), kod okunabilirliği ve reproducibility kriterleri, notebook + docker veya MLflow ile kayıt, canlı mülakatta model tasarımı tartışması.
- Takip: "Kod tesliminde hangi kalite kriterlerini zorunlu tutarsınız?"
Bu rol için hangi üretim ve izleme araçlarına hakimsiniz? (örn. MLflow, Prometheus, Kafka, Airflow vb.)
- Neden: Araç bilgisi operasyon verimliliğini artırır.
- Beklenen cevap: En az bir model kaydı/izleme (MLflow, Seldon), streaming (Kafka), workflow (Airflow, Prefect), container ve CI/CD pratikleri; örnek altyapı mimarisi çizebilmesi artı puan getirir.
- Takip: "Bir model rollback senaryosu nasıl olmalı?"

Mülakatta Dikkat Edilecek Kırmızı Bayraklar

Sadece teoride iyi olmak, somut üretim deneyimi veya vaka örneği verememek.
Şeffaflık, etik veya gizlilik konularını hafifsemek veya "işe göre değişir" gibi muğlak cevaplar.
Hile tespiti gibi güvenlik kritik konularda sadece tek bir basit kural önerisiyle yetinmek.

Pratik Değerlendirme Önerileri

Kısa bir take-home görevi: 1-2 saatlik veri keşfi + bir sayfalık rapor ve modelleme (reproducible notebook). Değerlendirme: veri doğrulama, feature engineering, baseline model ve açıklama kısmı.
Vaka tartışması: Gerçek bir hile vakası senaryosu verip adım adım nasıl ilerleyeceğini konuşun; teknik, etik ve operasyonel kararları tartışın.

Sonuç

Lig veri bilimcisi mülakatı teknik yeterlilik kadar etik, operasyonel olgunluk ve iletişim becerisi ölçmelidir. Model doğrulama güçlü bir teknik altyapı, hile tespiti için hibrit yöntemler ve şeffaflık için iyi dokümantasyon gerektirir. Bu 12 soru, adayın tüm bu boyutlardaki yetkinliğini somut örneklerle ortaya koymasına yardımcı olacaktır. Mülakatta asıl amaç, adayın sadece "nasıl yapacağını" değil, "ne zaman, neden ve hangi risklerle" yapacağını da gösterebilmesidir.

Özet ipucu: Teknik cevapların yanında adayın işletme etkisini, yanlış pozitif/negatif maliyetini ve operasyonel uygulanabilirliği tartışabilmesi en değerli göstergedir.