p-değeri Nedir? “İstatistiksel Anlamlılık” Sandığınız Kadar Güvenilir mi?

Bilimsel bir haberde ya da araştırma özetinde muhtemelen şu cümleyi görmüşsünüzdür: “sonuç istatistiksel olarak anlamlı bulundu (p < 0.05)”. Bu cümle kulağa çok kesin ve güvenilir geliyor, sanki bilim insanları bir gerçeği kanıtlamış gibi. Ama gerçek şu ki, p-değeri kavramı istatistikte en sık yanlış anlaşılan, en sık kötüye kullanılan ve giderek daha fazla bilim insanının sorguladığı bir araç.

p-değeri Aslında Neyi Ölçüyor?

Basitçe anlatmak gerekirse: bir p-değeri, “eğer aradığınız etki gerçekte hiç var olmasaydı, elinizdeki kadar çarpıcı bir sonucu sadece tesadüfen elde etme ihtimaliniz ne olurdu” sorusuna verilen bir cevap. Yani p-değeri düşükse (genelde 0.05’in altı “anlamlı” kabul ediliyor), bu, “elimdeki sonuç sadece şans eseri ortaya çıkmış olamaz, muhtemelen gerçek bir etki var” demenin bir yolu.

Burada kritik bir nokta var ve bu nokta neredeyse herkesin kafasını karıştırıyor: p-değeri, “hipotezimin doğru olma ihtimali” değildir. p=0.03 çıkması, “aradığım etkinin yüzde 97 ihtimalle gerçek olduğu” anlamına gelmiyor. p-değeri sadece, “etki hiç olmasaydı bu veriyi görme ihtimalim” hakkında bir şey söylüyor — bu ince ama son derece önemli bir fark.

Neden Bu Kadar Kafa Karıştırıyor?

Bu yanlış anlaşılmanın kökeninde, insan zihninin olasılıkları “ters çevirme” konusundaki doğal zorluğu yatıyor. Bu, aslında bir başka olasılık kavramıyla da yakından ilişkili: yeni bir kanıt geldiğinde inancımızı doğru şekilde nasıl güncellememiz gerektiğini ele alan Bayes teoremi yazımızda bahsettiğimiz mantığın neredeyse aynısı. p-değeri, sizi “veri, hipotez doğruyken nasıl görünürdü” sorusundan “hipotez, bu veriyi gördüğümde ne kadar doğru” sorusuna götürmüyor — bu iki soru istatistikte birbirinden tamamen farklı ve p-değeri sadece birincisine cevap veriyor.

“0.05” Sınırı Nereden Geldi?

İlginç bir gerçek: 0.05 eşiği, hiçbir matematiksel zorunluluğa dayanmıyor. Bu sayı, 20. yüzyılın başında istatistikçi Ronald Fisher’ın kullandığı, zamanla adeta bir gelenek hâline gelen keyfi bir eşik. Yani bir sonucun “anlamlı” ya da “anlamsız” sayılması arasındaki sınır, doğanın koyduğu bir kural değil, bilim camiasının üzerinde uzlaştığı bir konvansiyon. Bu da “p=0.049 anlamlı, p=0.051 anlamsız” gibi absürt görünen ama pratikte sıkça karşılaşılan durumlara yol açıyor — iki sonuç arasında neredeyse hiçbir fark olmamasına rağmen.

p-Hacking: Sonucu “Anlamlı” Hâle Getirmenin Tehlikeli Yolları

p-değerinin en çok istismar edildiği alanlardan biri, araştırmacıların bilinçli ya da bilinçsizce “anlamlı” bir sonuç elde edene kadar veriyi farklı şekillerde dilimlemesi — buna istatistikte “p-hacking” deniyor. Yeterince farklı değişken kombinasyonu denerseniz, sırf şans eseri bile p<0.05 çıkan bir ilişki bulma ihtimali yükseliyor. Bu, aslında yanıltıcı grafikler yazımızda bahsettiğimiz veri sunumu manipülasyonlarının, görsel değil istatistiksel bir versiyonu.

Bu tuzağın bir başka boyutu da, gözden kaçan bir üçüncü değişkenin sonucu tamamen tersine çevirebilmesi. Bu konuyu daha derinlemesine görmek istersen Simpson Paradoksu yazımıza göz atabilirsin — istatistiksel anlamlılık bulmak, o ilişkinin gerçek ve nedensel olduğu anlamına gelmiyor; bu ayrımı korelasyon nedensellik değildir yazımızda detaylı ele almıştık.

Peki p-değerine Hiç mi Güvenmemeli?

Hayır — p-değeri tamamen anlamsız bir araç değil, doğru bağlamda kullanıldığında faydalı bir sinyal verebiliyor. Sorun, p-değerinin tek başına, bağlamsız bir “kanıt/kanıtsızlık” düğmesi gibi kullanılması. İstatistik camiasının kendisi bile bu konuda resmi bir uyarı yayınladı: bilim insanlarının sonuçlarını sadece bir eşik değerin altında mı üstünde mi olduğuna bakarak değerlendirmemesi, etki büyüklüğü ve güven aralıkları gibi başka bağlamsal bilgileri de dikkate alması gerektiği vurgulandı.

Bu konudaki resmi ve otoriter kaynağı incelemek istersen, Amerikan İstatistik Derneği’nin (ASA) p-değerleri hakkındaki resmi açıklamasına göz atabilirsin; istatistik camiasının bu konudaki uzlaşısını birinci elden orada bulabilirsin.

Günlük Hayatta Nasıl Şüpheci Olmalı?

Bir sonraki sefer “araştırma istatistiksel olarak anlamlı sonuç buldu” gibi bir cümle okuduğunda, kendine şu soruları sorabilirsin: Etkinin büyüklüğü ne kadar? Örneklem büyüklüğü yeterli miydi? Araştırmacılar kaç farklı değişken denedi? Bu sorular, “anlamlı mı anlamlı değil mi” ikiliğinin ötesine geçip, sonucun gerçekten ne kadar güvenilir olduğunu anlamanıza yardımcı oluyor.

Son Söz

p-değeri, istatistiğin en yaygın kullanılan ama en az anlaşılan araçlarından biri. Tek başına bir “doğru/yanlış” damgası değil, sadece daha büyük bir bulmacanın bir parçası. Bir sonraki sefer karşınıza “p<0.05” ibaresi çıktığında, bunu bir kesinlik değil, dikkatli okunması gereken bir ipucu olarak görmeye ne dersin?