Lojistik Regresyon

Lojistik Regresyon (logistic regression)

Zorluk Derecesi: J

Bu bölümde neler var?
1. Bölüm: Lojistik Regresyon nedir?
2. Bölüm: Lojistik Regresyonun amaçları
3. Bölüm: Lojistik Regresyon ile diğer analizlerin karşılaştırılması
4. Bölüm: Lojistik Regresyon denklemi
5. Bölüm: Lojistik Regresyonun varsayımları
6. Bölüm: Lojistik Regresyonun modelinin anlamlılığının test edilmesi
7. Bölüm: Log-likelihood istatistiği
8. Bölüm: Hosmer ve Lemeshow testi
9. Bölüm: R ve sözde R-kare istatistikleri
10. Bölüm: Wald testi
11. Bölüm: Olasılık, Odds ve Odds oranı
12. Bölüm: Etki büyüklüğü
13. Bölüm: Model Yeterliliğinin Tespit Edilmesi
14. Bölüm: Regresyon Modeline Değişken Seçme Yöntemleri
15. Bölüm: Örnek
16. Bölüm: SPSS Uygulaması
17. Bölüm: SPSS Çıktıları
18. Bölüm: Sonuçların Yorumlanması ve Raporlanması
19. Bölüm: Özet
20. Bölüm: Kaynakça
Bağımlı ve bağımsız değişken ayrımı olan bir model kurulup bağımlı değişkenin kategorik olduğu durumlarda doğrusal regresyon modeli ve en küçük kareler tahminleme yöntemi kullanılamaz. Bu sebepten, bağımlı değişkenin kategorik verilere sahip olduğu durumlarda lojistik regresyon modeli tercih edilebilir (Field, 2009, s. 265; Kalaycı, 2010, s. 273). Lojistik regresyon adını bağımlı değişkenin normal dağılamadığı durumlarda kullanılan logit dönüşümden almaktadır (Çokluk, 2010, s. 1362). Lojistik regresyon analizinde bağımsız değişkenler için normal dağılım ve varyansların eşitliği varsayımları olmadığından sağlık, ekonomi ve eğitim alanında tercih edilmektedir (Alpar, 2013, s. 638; Çokluk, 2010, s. 1361; Tabachnick ve Fidell, 2009, s. 439). Özellikle sağlık alanında yapılan çalışmalarda bağımsız değişkenler risk faktörleri olarak ele alınmaktadır. Lojistik regresyon doğrusal regresyondan farklı olarak bağımsız değişkenlerin bağımlı değişkendeki etkisine değil bağımsız değişkenlere bağlı olarak bağımlı değişkendeki kategorilerden hangisine ait olabileceği araştırılır (Can, 2018, s. 294). Doğrusal regresyonda bağımsız değişkenler yardımıyla bağımlı değişkenin gerçek değeri tahminlenirken, lojistik regresyonda bağımlı değişkendeki kategorilere ait olma olasılığı kestirilmeye çalışılır (Alpar, 2013, s. 638). Yani tahmin edilen değer 0 ile 1 arasındaki olasılık değeridir (Çokluk, 2010, s. 1364). Verilen bilgiler ışığında (bağımsız değişkenler) bir kişinin hangi gruba (bağımlı değişken kategorileri)düşeceğini tahmin edilebilmektedir (Field, 2009, s. 265). Ayrıca Bir olayın ortaya çıkıp-çıkmamasında bağımsız değişkenlerin etki büyüklüklerini hesaplamaya yardımcı olmaktadır (Özdamar, 2013, s. 524). Örneğin, bir hastalığın bir bireyle bulunma durumunu etkileyen birçok risk faktörü olabilir. Bu risk faktörlerinin bazılarının etkileri diğer faktörlere nazaran büyüklüklerini tespit etmek için lojistik regresyon kullanılabilir.

Lojistik regresyonun amaçları:

1. Bir katılımcının ya da olayın bağımlı değişkendeki gruplardan hangisine ait olduğunu tahminlemek, üyelik tahmini (Can, 2018, s. 295; Çokluk, 2010, s. 1362; Özdamar, 2013, s. 523; Tabachnick ve Fidell, 2015, s. 441).

2. Bağımsız değişkenlerin arasındaki ilişkileri ve boyutlarını ortaya çıkartmak (Can, 2018, s. 295; Çokluk, 2010, s. 1362; Huck, 2012, s. 392; Tabachnick ve Fidell, 2015, s. 441).

Grup üyeliğinin tespiti için ayırma analizi, kümeleme analizi ve lojistik regresyon analizi kullanılabilir. Lojistik regresyonu kullanım kolaylığı ve sonuçlarının yorumlanması daha kolay olduğundan dolayı tercih edilmektedir (Alpar, 2013, s. 646; Hair Black, Babin ve Anderson, 2010, s. 413). SPSS ve Minitab gibi birçok yazılımda lojistik regresyon analizinin yapılabilmesi bu analiz yönteminin avantajları arasındadır (Çokluk, 2010, s. 1363). Lojistik regresyon ile çoklu regresyon arasındaki benzerlikler aşağıdaki tabloda özetlenmiştir.

Çoklu Regresyon	Lojistik Regresyon
Genel Kareler Toplamı	Başlangıç modeli için -2LL
Hata Kareler Toplamı	Amaçlanan model için -2LL
Regresyon Kareler Toplamı	Başlangıç modeli – amaçlanan model arasındaki –LL farkı
Model Uyumu için F testi	-2LL için ki-kare testi
Determinasyon katsayısı (R kare)	Pseudo R-kare ölçümleri

Lojistik regresyon modelindeki parametreler En çok olabilirlik (Maximum Likelihood) tahminleme yöntemi yardımıyla hesaplanır (Alpar, 2013, s. 647; Can, 2018, s. 295; Çokluk, 2010, s. 1364; Field, 2009, s. 267; Hair vd., 2010, s. 415; Kalaycı, 2010, s. 273; Tabachnick ve Fidell, 2015, s. 440) ve denklemi aşağıdaki biçimdedir. Lojistik regresyonda amaç bir olayın gerçekleşme ihtimalinin en çok olmasını sağlamak olduğu için en çok olabilirlik yöntemi daha uygundur (Çokluk, 2010, s. 1365). Örneklem büyüklüğü arttıkça en çok olabilirlik yöntemi ile ağırlıklandırılmış en küçük kareler yöntemi benzer dağılımlar göstermektedirler (Alpar, 2013, s. 647).

$\hat{Y}=\frac{e^{u}}{1+e^{u}}$

$u= b_{0}+b_{i}X_{i}$

$Logit (p_{i})=ln\left [ \frac{p_{i}}{1-p_{i}} \right ]=b_{0}+b_{i}X_{i}+e_{i}$

$L=ln\left [ \frac{p_{i}}{q_{i}} \right ]=b_{0}+b_{i}X_{i}$

Olasılık değeri 0 ile 1 arasında (Field, 2009, s. 267), logit değeri -∞ ile +∞ arasında bulunabilmektedir. Sıfıra yakın değerler bağımlı değişkenin olmama ihtimalini ve bire yakın değerler bağımlı değişkenin olma ihtimalini göstermektedir (Field, 2009, s. 267).

Varsayımlar:

1. Gözlemler birbirinden bağımsız olmalıdır yani ilişkili gözlemler bu analize dâhil edilemez (Can, 2018, s. 296; Field, 2009, s. 273; Tabachnick ve Fidell, 2015, s. 445). Deney ve kontrol gruplu çalışmalarda normal lojistik regresyon analizi kullanmak doğru değildir (Tabachnick ve Fidell, 2015, s. 445).

2. Bağımlı değişken yalnızca bir tane ve kategorik olmalıdır (Huck, 2012, s. 392). Gerekli olduğu durumlarda sürekli olan bir bağımlı değişken kategorik hale getirilerek lojistik regresyon analizine başlanabilir (Tabachnick ve Fidell, 2015, s. 439). Bağımlı değişkendeki kategoriler 0 ve 1 ile kodlanır. Hangi kategoriye hangi kodun verildiğinin önemi olduğundan kodlama işlemi akılda tutulması gerekmektedir (Hair vd., 2010, s. 414).

3. Bağımsız değişkenler sürekli veya kategorik olabilirler (Alpar, 2013, s. 638; Can, 2018, s. 296; Huck, 2012, s. 392).

4. Bağımsız değişkenler ile bağımlı değişkenin logit dönüşümü arasında doğrusal bir ilişki bulunmalıdır (Can, 2018, s. 296; Field, 2009, s. 273; Tabachnick ve Fidell, 2015, s. 445). Bunun tespiti için grafikler kullanılabildiği gibi Box Tidwell testi de en çok tercih edilen yöntemlerdendir (Alpar, 2013, s. 650; Tabachnick ve Fidell, 2015, s. 445). Diğer bir yöntem ise bağımsız değişken ve onun log dönüşümü arasındaki etkileşimin anlamlı olması gerekmektedir (Field, 2009, s. 273).

5. Bağımsız değişkenler arasında çoklu bağlantılılık durumunu olmamalıdır (Can, 2018, s. 296; Field, 2009, s. 273; Tabachnick ve Fidell, 2015, s. 445). Böyle bir çoklu bağlantılılık durumunun olduğu durumlarda katsayıların standart hataları olduğundan çok büyük olarak tahminlenir ve sonuçlar güvenilir olmaktan çıkar (Alpar, 2013, s. 660; Huck, 2012, s. 400; Tabachnick ve Fidell, 2015, s. 445). Diğer bir ifade ile standart hata arttıkça Wald istatistiği de küçülmekte ve dolayısıyla gerçekte önemli bir katkısı bulunan bir bağımsız değişkenin istatistiksel olarak anlamsız bulunabilir (Alpar, 2013, s. 660).

a. Modeldeki kategorik bağımsız değişkenler için çok yönlü frekans analizi kullanılabilir (Tabachnick ve Fidell, 2015, s. 445).

b. Modeldeki sürekli bağımsız değişkenler için ise kategorik değişkenler dummy / kukla değişken olarak dönüştürülür ve çoklu regresyondaki tolerans ve VIF değerleri hesaplanabilir (Tabachnick ve Fidell, 2015, s. 445).

c. Ayrıca regresyon modelindeki katsayılara veya onların standart hatalarına bakılarak çok büyük hataya sahip olan değişkenler kontrol edilebilir.

d. Çoklu bağlantılılık bulunduğunda bu değişkenler tespit edilerek yalnızca birinin modele katılması sağlanabilir (Alpar, 2013, s. 660; Tabachnick ve Fidell, 2015, s. 445). Ya da iki değişkeni birleştirerek yeni bir değişken oluşturulabilir ve bu yeni değişken modele dâhil edilebilir (Kalaycı, 2010). Diğer bir yöntem ise, kısıtlanmış lojistik regresyon analizi (penalized logistic regression) yöntemi tercih edilebilir (Alpar, 2013, s. 660).

6. Lojistik regresyon modelinin uyum değerleri uç noktalardan etkilendiği için değişkenlerde uç noktalar bulunmamalıdır (Can, 2018, s. 296; Çokluk, 2010, s. 1369).Bunun için çoklu regresyondaki gibi Mahalonobis uzaklıkları hesaplatılır ve gerekli görülen gözlemler analizden çıkartılır veya dönüştürülür (Çokluk, 2010, s. 1376).

7. Yansız ve sapmasız istatistikler ortaya koyabilmek için örneklem büyüklüğü yeterli düzeyde olmalıdır (Çokluk, 2010, s. 1361; Hair vd., 2010, s. 415). En çok olabilirlik yönteminin kullanıldığı lojistik regresyon analizinde katsayıların güvenirliği için büyük örneklemlerle çalışılması gerekmektedir (Hair vd., 2010, s. 415). Bu konuda genel örneklem büyüklüğü ve kategorilerin örneklem büyüklüğü seçimi olarak iki farklı yaklaşım sergilenmiştir. Hosmer ve Lemeshow genel örneklem büyüklüğünün 400 ve üzeri olmasını tavsiye etmiştir (Akt., Hair vd., 2010, s. 415). Genel olarak yeterli örneklem büyüklüğüne ulaşmanın öneminin vurgulanmasının yanı sıra bağımlı değişkendeki kategorilerin her birine ait örneklem büyüklüğü de dikkate alınmalıdır. Hair vd. (2010, s. 415) her bir grup için hesaplanan parametrelerin 10 katı büyüklüğünde gözlemlere sahip olmak gerektiğini söylemektedir. Kategorik bağımsız değişkenler lojistik regresyon modeline dâhil edildiğinde ise bu kategorilerin her birindeki gözlem sayısı da önem kazanmaktadır. Bu konuda Çokluk vd. (2010, s. 59) her bir grup kategorisi için en az 50 katılımcı olması gerektiğini söylemiştir. Değişken sayısının en az 10 katı kadar olması gerekir (Alpar, 2013, s. 647). Bazı kaynaklarda bağımsız değişkenler arasında oluşturulan çapraz tablodaki her bir hücrenin beklenen frekansı 5’ten küçük olduğu durumlar %20’yi geçmemelidir (Çokluk, Şekercioğlu ve Büyüköztürk, 2012; Tabachnick ve Fidell, 2015, s. 444). Fazla boş gözelerin olması geniş parametre ve standart hata kestirimine sebep olabildiğinden araştırmacılar bağımsız değişkenlerin kategorileri birleştirilebilir veya bazı kategoriler araştırma dışına çıkartılabilir (Çokluk, 2010, s. 1368; Tabachnick ve Fidell, 2015, s. 444). PASS, GPOWER gibi birçok ücretsiz yazılım yardımıyla örneklem büyüklüklerini hesaplayabilirsiniz. GPOWER programını indirmek için tıklayınız.

Uyarı: Kategorik bağımsız değişkenlere sahipseniz crosstabulation yardımıyla çapraz tablo hazırlanarak her bir gözenin sıfırdan farksız olması kontrol edilir. Kategorilerden birinde sıfır frekansa rastlanırsa lojistik regresyon hesaplanamaz ya da hesaplanan regresyon katsayıları büyük tahminlenir (Alpar, 2013, s. 660; Field, 2009, s. 273-274).

Uyarı: Bağımlı değişkenin niteliksel değişken tarafından tam(mükemmel) ayrılması durumunda da sıkıntılı regresyon katsayıları elde edilebilir (Alpar, 2013, s. 661; Field, 2009, s. 274). Vaka sayısı artırılarak ya da bazı değişkenleri analizden çıkartarak bu problem çözüme kavuşabilir (Tabachnick ve Fidell, 2015, s. 444). Çok yüksek parametre tahminleri ve standart hata katsayıları mükemmel ayrılma probleminin olduğunu gösterebilir. Bu sebepten böyle durumlarda mükemmel ayrılma olup olmadığı kontrol edilmelidir.

Uyarı: Gözlenen varyansın tahminlenen varyans değerinden büyük olması durumunda standart hatalar kısıtlanır ve güven aralıkları daralır (Field, 2009, s. 276). Gözlemlerin bağımsızlığı varsayımının ihlal edilmesi sonucunda bu durum ortaya çıkabilmektedir.

Regresyon Modelinin Anlamlılığının Test Edilmesi

Regresyon modelinin anlamlılığı için farklı istatistikler hesaplanabilmektedir. Bunlar Log-Likelihood (-2LL), Hosmer ve Lemeshow Testi ve Pseudo/ sözde R² değerleridir.

Log-likelihood istatistiği(log-olasılık)

Çoklu regresyon analizinde modelin anlamlılığını bağımlı değişkenin (Y) gözlenen değerleri ve tahminlenen değerler arasındaki farka bakılarak test edilir. Lojistik regresyon da ise benzer biçimde gözlenen değerler ve tahminlenen değerler yardımıyla log-likelihood formülü ile modelin anlamlılığı hakkında bilgi edinebiliriz (Field, 2009, s. 267). Çoklu regresyondaki Kareler toplamı değerlerine benzer biçimdedir (Hair vd., 2010, s. 419). Log-likelihood istatistiği tahminlenen ve gözlenen Y değerlerinin olasılıkların toplanmasıyla elde edilir (Tabachnick ve Fidell, 2015, s. 445). Bu istatistiğin alabileceği en küçük değer sıfırdır ve sıfır değeri bize mükemmel bir model veri uyumunu gösterir (Çokluk, 2010, s. 1380; Hair vd., 2010, s. 419). -2LL değerlerinin küçük bulunması veri-model uyumunun iyi olduğunu gösterir (Hair vd., 2010, s. 419).

$Log-likelihood= \sum_{1}^{N}\left [ Y_{i}ln(P(Y_{i})) +(1-Y_{i})ln(1-P(Y_{i}))\right ]$

Bu istatistiğin büyük değerleri modelin veri ile iyi uyum göstermediğini, model ile açıklanamayan gözlemler olduğunu ifade etmektedir (Field, 2009, s. 267).

Hosmer ve Lemeshow testi

Model-veri uyumunu test etmek için geliştirilmiş bir test olan Hosmer ve Lemeshow testi k-2 serbestlik derecesinde ki-kare dağılımına uymaktadır (Alpar, 2013, s. 669). Ancak bu testin güvenilir sonuçlar vermesi için 400 örneklem büyüklüğüne ulaşması tavsiye edilmektedir (Alpar, 2013, s. 669). Aksi takdirde, bu test istatistiği model-veri uyumundaki önemli sapmaları tespit edememektedir. SPSS yazılımında bu testin sonuçları verilmediğinden dolayı modelin ki-kare değerinin -2LL değerine bölünmesiyle elde edilebilir.

R ve sözde R² istatistikleri

R-istatistiği bağımlı değişken ile bağımsız değişkenler arasındaki kısmi korelasyon katsayısını temsil eder ve aşağıdaki biçimde hesaplanır (Field, 2009, s. 268).

$R=+-\sqrt{(\frac{Wald-(2.df)}{-2LL(orijinal)})}$

UYARI: Bu R-istatistiği doğrusal regresyondaki biçimde düşünülmemelidir ve karesi alınarak yorumlanmamalıdır.

Hosmer ve Lemeshow’s R_L²: Doğrusal regresyondaki R²’deki değere benzer biçimde düzeltilmiş bir istatistiktir. 0 ile1 arasında değerler alabilen bu istatistik sıfıra yaklaştıkça bağımsız değişkenlerin bağımlı değişkeni tahminlemede yetersiz kaldığını ifade etmektedir (Field, 2009, s. 269).

$R_{L}^{2}=\frac{-2LL(model)}{-2LL(orijinal)}$

Cox ve Snell’s Rcs²: Bir başka R² istatistiği Cox ve Snell tarafından geliştirilmiştir. SPSS tarafından kullanılan bir istatistiktir. Yüksek değerler yüksek model-veri uyumunu gösterir. Bu istatistiğin formülü;

$R_{CS}^{2}=1-e^{\left [ -\frac{2}{n} (LL(yeni))-(LL(temel))\right ]}$

Nagelkerke RN²: Cox ve Snell istatistiği hiçbir zaman 1 üst sınırına ulaşmadığı için onun bir düzeltmesi olan Nagelkerke istatistiği geliştirilmiştir (Field, 2009, s. 269; Hair vd., 2010, s. 420; Thompson, 2008, s. 410). Doğrusal regresyondaki R² değerine oldukça benzediği için hesaplama türleri farklı olsa da tüm bu istatistikler R² gibi yorumlanır (Huck, 2012, s. 399). Nagelkerke lojistik regresyondaki açıklanan varyansı temsil eder (Çokluk, 2010, s. 1386).

$R_{N}^{2}=\frac{R_{CS}^{2}}{1-e^{\left [ \frac{2(LL(temel))}{n} \right ]}}$

Modellerin karşılaştırılması
Lojistik regresyon analizi yapılırken farklı modeller (farklı bağımsız değişkenlerin dâhil olduğu) üzerine inşa edilerek hareket edilir. Log-likelihood (log-olasılık) analizi yardımıyla modele giren değişkenlerin etkililiğine bakılır. Bağımsız değişken eklendikçe log-likelihood artarken azaldıkça log-likelihood azalır (Tabachnick ve Fidell, 2015, s. 450).

Katsayıların anlamlılığı test edilmesi
Lojistik regresyondaki katsayıların anlamlılığın test edilmesi için Olabilirlik Oranı, Wald ve Skor (Lagrange multiplier) testleri kullanılabilir. Bu testlerin analizinde en çok olabilirlik (maximum likelihood) tahminleme yöntemi kullanılır (Hair vd., 2010, s. 419).

Olabilirlik Oranı testi( Likelihood Ratio)

Bağımsız değişkenin modele eklenmesiyle oluşan değişimin anlamlılığını test eder (Tabachnick ve Fidell, 2015, s. 461). LR testi asimptotik olarak ki-kare dağılımı gösterir (Alpar, 2013, s. 648).

$LR=G=-2ln(\frac{L(degisken modelde olmadiginda)}{L(degisken modelde oldugunda)})$

Wald testi

En çok olabilirlik tahminleme yöntemi ile beta katsayılarının anlamlılığı test edilir (Huck, 2012, s. 398). Wald istatistiği Ki-kare dağılımına uyduğu için SPSS yazılımı ki-kare sonuçlarını vermektedir (Field, 2009, s. 269; Huck, 2012, s. 398; Tabachnick ve Fidell, 2015, s. 445).

$Wald =W= \frac{\hat{B_{j}}}{S(\hat{B_{j}})}= \frac{b}{SE_{b}}$

Bu Wald istatistiği testi t-testine benzemektedir ancak Wald istatistiğini kullanırken dikkatli davranmak gerekmektedir. Wald istatistiği daha muhafazakâr sonuçlar verdiği için anlamlılık düzeylerini düşük tutmakta fayda vardır (Tabachnick ve Fidell, 2015, s. 461). Regresyon katsayısının (b) çok büyük değerler aldığı durumlarda standart hatalar da artacak ve Wald istatistiğinin yanlı çıkmasına sebep olmaktadır (Field, 2009, s. 270). Tip II hata yapma ihtimali artacak ve Wald istatistiğinin tutucu sonuçlar verme ihtimali artacaktır (Tabachnick ve Fidell, 2015, s. 461).

Skor testi(Lagrange multiplier): Skor testi normal dağılıma uymaktadır (Alpar, 2013, s. 649).

$ST= \frac{-\sum x_{i}(y_{i}-\bar{y})}{\sqrt{y_{i}(1-\bar{y})\sum (x_{i}-\bar{x})^{2}}}$

Olasılık, Odds ve Odds oranı
Bir olayın sonuç sayısının tüm olası sonuç sayısına bölümüne olasılık adı verilir (Çokluk, 2010, s. 1365).

Bağımsız değişkenlerdeki bir birim değişimin bağımlı değişkendeki değişimi temsil eder (Field, 2009, s. 270; Huck, 2012, s. 395). Doğrusal regresyondaki b katsayılarına benzer biçimde yorumlanır. Odds (olabilirlik oranı) değeri bir olayın olma ihtimalinin olmama olasılığına bölümü ile elde edilir (Hair vd., 2010, s. 418; Thompson, 2008, s. 402). Olasılık ile odds değeri arasında ilişki olduğundan 1’in üstünde çıkan odds değeri ,50 den büyük olasılıkları temsil eder (Hair vd. , 2010, s. 418). Tam tersi şekilde, Odds değeri 1’in altında çıkan durumların olma olasılığı ,50’nin altındadır. Odds değerinin alt limiti sıfırdır ancak üst limiti bulunmamaktadır. Odds oranı (Odds-ratio) ise iki oddsun birbirine bölünmesiyle elde edilir. Exp(B) ile de ifade edilir. Odds oranı iki değişkenin ilişkisini özetler. Lojistik regresyondaki diğer önemli bir kavram ise logit’tir. Logit değeri odds-oranının doğal logaritmik dönüşümüdür (Çokluk, 2010, s. 1365).

$Odds=\frac{P(olay)}{P(olayolmama)}=\frac{p(x)}{1-p(x)}$

P(x): bir olayın gerçekleşme olasılığı

1-p(x): bir olayın gerçekleşmeme olasılığı

Odds oranının birden büyük olduğu durumlarda bağımsız değişkendeki artış, bağımlı değişkendeki odds un artışına sebep olmaktadır (Field, 2009, s. 271; Tabachnick ve Fidell, 2015, s. 463). Öte yandan, odds oranının birden küçük olması durumunda bağımsız değişkenin artması bağımlı değişkenin odds değerinin azalmasına neden olmaktadır (Field, 2009, s. 271; Tabachnick ve Fidell, 2015, s. 463). Odds oranının anlamlılığını test etmek için hipotez testi yöntemi ya da güven aralıkları yöntemi kullanılabilir. Odds oranını hipotez testinde sıfır hipotezi bu oranının sıfıra eşit olduğunu söyler (Huck, 2012, s. 397). Eğer ki hipotez testi reddedilemez ise bu durumda bağımsız değişkenlerin bağımlı değişkeni yordamada başarılı olmadıkları sonucu çıkartılabilir. Bu sebepten bu aşamada odds-oranı hipotez testinde sıfır hipotezinin reddedilmesi beklenir. Güven aralıkları yöntemin de ise güven aralıklarının (Confidence Interval for Exp(B) ) 1’i ihtiva edip etmemesine bakılabilir (Huck, 2012, s. 398). Odds değerlerinin metrik bir forma sokabilmek için doğal logatirmaları olan logit değerlerine dönüştürülür (Hair vd., 2010, s. 418). Böylece bağımlı değişken değerleri lojistik regresyona uygun hale gelir. Odds değerlerinin negatif çıkmasını engellemek için bu değerlerin doğal logaritması alınarak logit değerleri hesaplanır (Hair vd., 2010, s. 418). Aşağıdaki tabloda bazı olasılık değerlerine karşılık gelen odds ve logit değerleri verilmiştir.

Olasılık	Odds	Log Odds (logit)
,00	,00	Hesaplanamaz
,10	,11	-2,20
,30	,43	-,85
,50	1,00	,00
,70	2,33	,85
,90	9,00	2,20
1,00	Hesaplanamaz	Hesaplanamaz

Lojistik Regresyonda Açıklayıcılık Katsayıları

Lojistik regresyondaki açıklayıcılık katsayıları doğrusal regresyondaki gibi en küçük kareler yöntemi ile hesaplanamaz. Yani, doğrusal regresyondaki gibi R²değeri yorumlanamaz (Alpar, 2013, s. 665). Bunun yanı sıra, araştırmacılar yalancı (pseudo) R² değerleri geliştirmişlerdir ve R² değerlerinden en sık kullanılanları McFaden R², Cox-Snell ve Nagelkerke R² istatistikleridir (Alpar, 2013, s. 665). Ancak bu istatistikler daha küçük değerler verdiği için farklı modellerin performanslarının değerlendirilmesi aşamalarında kullanılır.

McFaden ρ²: Olabilirlik oran indeksi olarak bilinir ve olabilirlik oranının transformasyonudur (Tabachnick ve Fidell, 2015, s. 462). Çoklu regresyondaki R² değerine nazaran daha küçük değerler çıkarma eğilimi göstermektedir. Sıfır ile 1 arasında değerler alır. Ancak ,2 ile ,4 arasındaki değerler yüksek düzey olarak kabul edilebilir (Hensher ve Johnson, 1981, Akt., Tabachnick ve Fidell, 2015, s. 462).

Cox-Snell R²: En çok olabilirlik R² olarak tanınmaktadır. McFaden e benzer şekilde log-olabilirlik üzerine kurulmuştur. Örneklem büyüklüğünü de hesaplamaya katmaktadır (Tabachnick ve Fidell, 2015, s. 462). Cox-Snell R²’in alabileceği en küçük değeri 0 ancak alabileceği en büyük değeri 1 yerine $1-\hat{L}(M_{\alpha })^{2/n})$ olmaktadır (Alpar, 2013, s. 667).

Nagelkerke R²:Cox-Snell R² değerinin düzeltilmesiyle en büyük değerin 1 olacağı bir ölçü geliştirilmiştir. Bu yeni değer Nagelkerke R² veya Cragg ve Uhler R²olarak adlandırılmaktadır (Alpar, 2013, s. 668).

Etki büyüklüğü

Birçok hipotez testinde olduğu gibi lojistik regresyon analizinde de istatistiksel olarak anlamlı bulunan sonuçlar her zaman uygulamada etkili sonuçlara denk gelmemektedir. Bu sebepten araştırmalarınızda her zaman etki büyüklüğü değerlerinden bahsetmeniz önerilir (Huck, 2012, s. 401). Lojistik regresyon için bağımsız değişkenlerin odds oranları etki büyüklüğü için bir ölçü biçiminde kullanılabilir (Can, 2018, s. 313; Tabachnick ve Fidell, 2015, s. 465). Hatta araştırmanızın başında güç analizi yaparak çalışmanızın sağlam temeller üzerine atıldığını gösterebilirsiniz. Odds oranının bire yaklaşması küçük etki büyüklüğünü temsil etmektedir (Tabachnick ve Fidell, 2015, s. 465). Hesaplanan odds oranları Cohen d değerlerine dönüştürülebilir (Chinn, 2000) ve sonrasında Cohen d değerleri eta-kare değerlerine evrilebilir.

Model Yeterliliğinin Tespit Edilmesi

Model yeterliliğinin tespiti için, açıklayıcılık katsayısı 0.20 ile 0.40 arasında bulunmalı, artıklar incelenmeli, artık grafikleri çizilmeli, çoklu bağlantı sorunu olup olmadığı tespit edilmelidir (Alpar, 2013, s. 670). SPSS yazılımda bulunan standartlaştırılmış artıkların -2 ile +2 arasında bulunması model yeterliliğini gösteren basamaklardan biridir (Alpar, 2013, s. 671). Bazı kaynaklara göre -3 ve +3 tür (Çokluk, 2010, s. 1369). Bu değerler (-2 ile +2) arasında çıkmayan gözlemler uç değerler olarak adlandırılabilir. Benzer biçimde, SPSS de studentleştirilmiş artıkları da elde etmek mümkündür. Bu studentleştirilmiş artıların da -2 ile +2 arasında çıkması beklenir (Alpar, 2013, s. 673). SPSS yazılımı artıkların yanı sıra etkili gözlemlerin tespiti için de değerler ortaya koyabilmektedir. Leverage-hii, Cook uzaklığı ve DFBETA istatistikleri etkili gözlemler için önemli ölçülerdir. Cook uzaklığı değeri 1’in üzerinde bulunan gözlemlerin etkili gözlem olarak tanımlandığı belirtilmiştir (Alpar, 2013, s. 673).

Regresyon Modeline Değişken Seçme Yöntemleri

Lojistik regresyon modeline değişkenlerin seçilmesinde kuramsal teoriler ön plana çıkmaktadır. Araştırmacılar modele mümkün mertebe çok fazla bağımsız değişken dâhil etme eğilimi olsa da bağımsız değişkenlerin teoriye göre seçilmesi daha doğru olur (Tabachnick ve Fidell, 2015, s. 443). Lojistik regresyon analizi yaparken eşzamanlı, aşamalı ve hiyerarşik teknikleri tercih edilebilir (Huck, 2012, s. 392). Lojistik regresyon yöntemlerini seçerken dikkat edilmesi gereken ilk nokta araştırmacının yeni bir teori mi test edeceği yoksa keşfedici bir çalışma mı yapmak istediğine karar vermesidir (Field, 2009, s. 272). Bu aşamada teori test edilecekse “enter” “eşzamanlı” yöntemi tercih edilebilir. Aynı zamanda, değişkenlerin modele giriş sırası ve önemi üzerine herhangi bir kaygı yoksa da eşzamanlı yöntem kullanılabilir (Tabachnick ve Fidell, 2015, s. 456). Diğer taraftan keşfedici bir çalışma yapılıyorsa aşamalı lojistik regresyon yöntemlerinden biri kullanılabilir. Aşamalı yöntemlerden ise geriye doğru yöntemi ileri doğru yöntemine nazaran daha güvenilir sonuçlar verdiği için (bakınız suppressor effects) geriye doğru yöntemi tavsiye edilir. Field (2009, s. 279) lojistik regresyon yaparken enter yönteminin tercih edilmesini tavsiye etmektedir.

Örnek: PISA sınavında matematik okuryazarlığı başarısı yordanması için matematik öz yeterliği, matematik benlik kavramı, matematiğe yönelik motivasyon düzeyi ve öğrenci cinsiyeti araştırılmak istenmiştir. PISA matematik başarısı 0= başarısız, 1= başarılı biçiminde kodlanmıştır. Matematik özyeterliği, matematik benlik kavramı ve matematik motivasyon düzeyi sürekli bağımsız değişkenlerdir. Cinsiyet kategorik bağımsız değişkendir.

İkili Lojistik Regresyon SPSS Uygulaması

SPSS’deki Analyze sekmesindeki Regression kısmına gelindiğinde açılan parçadan binary logistic seçimi yapılır. Bağımlı değişken dependent kutusuna, bağımsız değişkenler covariates kutusuna atılmalıdır. Bağımsız değişkenler arasında kategorik değişkenler mevcut ise Categorical komutuna tıklanıp tanımlamalar yapılmalıdır. Categorical penceresinde covariates kutusundaki değişkenlerden niteliksel olanları categorical covariates kutusuna aktarılır. Bu değişkenlerin kutuya atılmasıyla change contrast kısmı aktiflenecektir. Bu aşamada, önce contrast belirlenir sonrasında referans kategorinin (referance category) hangisi olacağına karar verilir (last: son kategori, first: ilk kategori). İkili lojistik regresyon analizinde son ve ilk kategoriyi seçmek çok zor olmamaktadır. Düşük puanla kodlanılan kategoriyi ilk, yüksek puanla kodlanan kategoriyi son kategori olarak tanımlayabilirsiniz (Field, 2009, s. 280). Regresyon katsayılarının işareti ve yorumlaması kategorilerin kodlanmasına göre değişebileceği için referans kategoriyi seçerken dikkatli olmak gerekmektedir (Tabachnick ve Fidell, 2015, s. 465). Burada açılan sekmeye tıklandığında farklı kontrast türlerinin olduğu gözlenir. SPSS varsayılan olarak indicator kodlama sistemi kullanmaktadır.

Indicator: Dummy değişken kodlaması ile benzerlikler gösterdiği için 0 değerini alan kategori referans kategori olarak alınır (Alpar, 2013, s. 651; Can, 2018, s. 299).

Simple: bağımsız değişkenin referans sınıfı dışındaki tüm kategorileri referans kategori ile karşılaştırılması durumunda kullanılır (Kalaycı, 2010, s. 276). simple ve last seçimi yapıldığında en büyük kodun verildiği kategori referans kategori olarak alınır (Alpar, 2013, s. 651). Simple ve first seçimi yapıldığında ise en küçük kodun verildiği kategori referans kategori olarak alınır (Alpar, 2013, s. 651).

Difference: kendinden önceki kategorilerin ortalaması referans kategori olarak alınır (Alpar, 2013, s. 651).

Lojistik regresyondaki Save sekmesine tıklandığında Residuals (artıklar) sütunu karşımıza çıkmaktadır. Buradaki standardized kutusu işaretlenir. Predicted Values kısmında ise Probabilities ve Group membership kutucukları işaretlenir. Influence kısmında ise Cook’s, Leverange values ve DfBeta(s) ölçüleri tercih edilir.

Options sekmesine tıklandığında ise classification plots, Hosmer-Lemeshow goodness of fit, Casewise listing of residuals, Iteration history ve CI for exp(B) işaretlenir. Outliers outside kısmında ise 2 standart deviation(standart sapma) olarak belirlenebilir. Bu aşamada araştırmacı standart sapma sayısının 2’den 3’e çıkartabilir. Probability for Stepwise kısmında ise Entry ve Removal seviyeleri belirlenir. Classification cutoff 0.5 ve Maximum iterations 20 seçilerek continue tıklanır.

İkili Lojistik Regresyon SPSS Çıktıları

SPSS çıktılarında ilk karşımıza çıkan tablolar bağımlı değişkenin kategorilerinin kodlama değerleri (dependent Variable Encoding) ve categorical variables coding tablosudur. Kategorik Değişkenlerin Kodlanması (Categorical variables coding) tablosu yalnızca bağımsız değişkenlerinde kategorik değişken olan modellerde ortaya çıkar.

Block 0

Sonrasında Block 0: Beginning Block başlığı altında hiç bir bağımsız değişkenin eklenmediği yalnızca sabitin modele dâhil edildiği tablolar bulunmaktadır.

Bu Block 0 altında iterasyon geçmişi (iteration history) tablosu verilir. Bu tablo temel modellerin log-likelihood değerleri verilmektedir. Sonrasında sınıflandırma tablosu verilmektedir. Bu tabloda ise gözlenen bağımlı değişken değerleri ve tahminlenen bağımlı değişken değerlerinin bulunduğu 2X2 çapraz tablosu meydana gelmektedir.

Denklemdeki değişkenler (variables in the equation) tablosunda modelde olan sabit ve parametreleri bulunmaktadır. Bu arada sabitin katsayısı, sabitin katsayısının standart hatası, Wald istatistiği, Wald testi için serbestlik derecesi, anlamlılık değeri ve son olarak olabilirlik oranı (odds ratio= Exp(B)) verilmektedir. Anlamlılık derecesi 0.05’ten küçük bulunduğunda sabitin sıfırdan anlamlı derecede farklı olduğu sonucu verilebilir.

Denklemde yer almayan değişkenler (Variables not in the equation) tablosunda modele dâhil edilmeyen bağımsız değişkenler ve Roa’s efficient score statistics değerleri, serbestlik derecesi ve anlamlılık dereceleri bulunmaktadır.

Block 1

Block 1 başlığının altındaki ilk tablo Modeldeki katsayıların tümünü içeren genel test (Omnibus tests of Model Coefficient ) tablosudur. Bu tabloda tüm bağımsız değişkenlerin modele dâhil edilmesiyle oluşan ki-kare testi sonuçlarını gösterir. Ek olarak anlamlılık düzeyleri verilen bu tabloda p < 0,05 olduğu durumlarda başlangıç modeline göre yeni model (bağımsız değişkenlerin dahil edildiği) olasılıkları kestirmedeki gücü anlamlıdır. Enter yöntemi kullanılmış ise bu tablo üç satırdan oluşmaktadır.

Hosmer ve Lemeshow testi tablosunda ise başlangıçtaki model (Block 0) ile bağımsız değişkenlerin eklendiği model (Block 1) arasındaki farkın anlamlılığı testi sonuçlarını ki-kare testi yardımıyla verir. Bu tablodaki anlamlılık değeri (sig. ) p > 0,05 olduğu durumlarda yeni kurulan model başlangıç modeline göre daha iyi uyum gösterdiği sonucu çıkartılır. Bu sebepten bu aşamada p’nin 0,05’ten büyük çıkması istenir (Can, 2018, s. 304).

Regresyon modeli tablosu (Model Summary) açıklayıcılık katsayılarını içermektedir. Yani, Log-likelihood, Cox ve Snell R² ve Nagelkerke R² ölçüleri bulunmaktadır. Log-likelihood değeri gözlenen ve tahmin değerlerle modelin uyumunu gösterirken, diğer R²değerleri model tarafından açıklanan varyans miktarını gösterir.

Block 1 için hazırlanan Sınıflama Tablosu (classification table) bağımsız değişkenlerin modele dâhil edilmesiyle oluşan tahmin değerleri ve gözlenen değerleri vermektedir. Bu tablodaki Percentage correct sütununda belirleyicilik /seçicilik(specificity) ve duyarlılık (sensitivity) oranları görülmektedir. Duyarlılık (sensitivity) birinci kategorideki insanların doğru atama oranı olarak tanımlanırken belirleyicilik (specificity) insanların diğer kategoriye doğru atanması yüzdesi olarak ifade edilebilir (Huck, 2012, s. 399; Tabachnick ve Fidell, 2015, s. 470). Son olarak, modelin genel olarak doğru sınıflama yüzdesi (doğruluk) tablonun sağ alt gözesinde bulunmaktadır. Model uyumunun iyi olabilmesi için bu oranların ya da yüzdelerin yüksek olması beklenir (Alpar, 2013, s. 674).

Block 1 için oluşturulan Regresyon Denklemindeki Değişkenler (Variables in the Equation) tablosu 1. Adımda modele giren bağımsız değişkenlerin ve sabitin regresyon katsayılarını barındırır. Bağımsız değişkenler ile bağımlı değişken arasındaki ilişkinin yönünü belirlemede orijinal regresyon katsayıları kullanışlıdır. Orijinal katsayılara yani B’lere bakılarak değişkenler arasındaki ilişkinin pozitif mi negatif mi olduğunu anlayabiliriz (Hair vd. , 2010, s. 422). Pozitif B katsayısı değerleri odds değerinin 1’in üstünde çıkmasına ve olasılığın da 0,50’den fazla çıkmasına karşılık gelmektedir (Çokluk, 2010, s. 1390). Ayrıca bu katsayılara ait Wald istatistik değerleri ve anlamlılık düzeyleri de tabloya dâhil edilmiştir. Odds-oranı değerleri olan Exp(B) ölçüleri bu tabloda okunması ve yorumlanması gereken önemli değerlerdendir. Exponential değerler hiçbir zaman negatif değerler almamaktadır. Üstel katsayıların 1’in üzerinde çıkması pozitif ilişkiyi, 1’in altında çıkması ise negatif ilişkiyi temsil etmektedir (Çokluk, 2010, s. 1390). Exp(B)’nin 1 çıkması ise değişkenler arasında ilişkinin olmadığını göstermektedir (Hair vd., 2010, s. 422). Son olarak regresyon katsayılarının üsten fonksiyonlarının yani Exp(B)’lerin güven aralıkları da tabloya dâhil edilebilir. Bağımsız değişkenler ile bağımlı değişken arasındaki ilişkinin büyüklüğünü tespit ederken üstel değerlerden (EXP(B)) faydalanmak gerekmektedir. Ancak buradaki bağımsız değişkenlerin sürekli veya kategorik olmaları bu katsayıların yorumlanmasında önemlidir (Hair vd., 2010, s. 423). Sürekli bağımsız değişkenler için üstel katsayılar yüzdelik ifadeye (üstel katsayı -1) x 100 ile dönüştürülebilir ve o şekilde yorumlanabilir. Kategorik bağımsız değişkenler için ise katsayın yorumlanması biraz farklıdır. Öncelikle araştırmacı bağımsız değişkende referans kategori olarak aldığı grubu tespit etmelidir ve not etmelidir. Sonrasında ise Exp(b) katsayıları yorumlarken referans grup ile temsil edilen grubun farkı biçiminde yorumlanır (Hair vd., 2010, s. 425).

Lojistik Regresyon Analizi Sonuçlarının Raporlanması ve Yorumlanması

Lojistik regresyon analizine dair sonuçların raporlanması için uyulması gereken noktalar şunlardır:

· Başlangıç modeli ile hipotezlenen modelin karşılaştırılması sonuçları: uyum iyilik değerleri verilmelidir.

· Modele dahil edilen bağımsız değişkenlerin istatistiksel anlamlılık testleri sonuçları, Wald istatistiği ile birlikte verilmelidir.

· Genel model uyum iyiliği ölçüleri sonuçları yani Hosmer-Lemeshow ve Pearson uyum iyiliği değerlerinden bahsedilmelidir.

· Odds-oranı sonuçları yani Exp (B) değerleri raporlanmalıdır.

· Model yeterliliğine dair bulgular; sınıflama tablosu, artık inceleme sonuçları ve düzeltilmiş R² değerleri (Cox-Snell R² ve Nagelkerke R²) içerecek biçimde okuyucuya aktarılmalıdır.

Özet

· Çoklu regresyona benzemesi, katsayıların kolay yorumlanabilmesi ve normallik varsayımına gerek duymaması açısından sıkça tercih edilen bir yöntemdir.

· Yeterli örneklem büyüklüğüne ulaşmak katsayıların kestirimi için önemlidir. Her bir grup için parametrex10 kuralı veya genel olarak 400 ve üstü kuralı uygulanabilir.

· Lojistik regresyon katsayıları hem orijinal (B) hem üssel (Exp(B)) forma elde edilebilir.

· Orijinal katsayılar (B’ler) bağımsız değişken ile bağımlı değişken arasındaki ilişkinin yönünü (negatif-pozitif) gösterir.

· Üssel katsayılar (Exp(b)) ise ilişkilerin büyüklüğünü bulmakta bize yardımcı olur. Yüzdelik değişim = (üssel katsayı-1.0)x100 formülü ile sürekli bağımsız değişkene ait katsayılar yorumlanabilir.

Yardımcı Kaynaklar:

Ömay Çokluk Lojistik regresyon

https://s3.amazonaws.com/academia.edu.documents/32582073/logistik_regresyon_analizi.pdf?AWSAccessKeyId=AKIAIWOWYYGZ2Y53UL3A&Expires=1553244111&Signature=K3PQPwI%2Fhom%2FAMzZcSUVrw9jy3w%3D&response-content-disposition=inline%3B%20filename%3DLogistik_regresyon_analizi.pdf

http://78.189.53.61/-/bs/ess/k_sumbuloglu.pdf

Kaynakça

Alpar, R. (2013). Uygulamalı çok değişkenli istatistiksel yöntemler. Ankara: Detay Yayıncılık.

Can, A. (2018). SPSS ile bilimsel araştırma sürecinde nicel veri analizi. Ankara: Pegem Yayıncılık.

Çokluk, Ö. (2010). Lojistik regresyon analizi: Kavram ve uygulama. Kuram ve Uygulamada Eğitim Bilimleri, 10(3), 1357-1407.

Field, A. (2009). Discovering statistics using SPSS. Thousand Oaks, CA: Sage.

Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2010). Multivariate data analysis: Global edition. New York, NY: Pearson.

Huck, S. W. (2012). Reading statistics and research. New York, NY: Pearson.

Kalaycı, Ş. (2010). SPSS uygulamalı çok değişkenli istatistik teknikleri. Ankara: Asil Yayın Dağıtım.

Özdamar, K. (2013). Paket programlar ile istatistiksel veri analizi-1: SPSS-MINITAB. Eskişehir: Nisan Kitapevi.

Tabachnick, B. G., & Fidell, L. S. (2015). Çok değişkenli istatistiklerin kullanımı (Çev. Ed. M. Baloğlu). Ankara: Nobel Akademik.

Thompson, B. (2008). Foundations of behavioral statistics: An insight-based approach. New York, NY: Guilford Press.