Basit Doğrusal Regresyon (Simple Linear Regression)


Bu bölümde neler var?
1. Bölüm: Basit doğrusal regresyon nedir?
2. Bölüm: Basit doğrusal regresyonun amaçları
3. Bölüm: Basit doğrusal regresyonun varsayımları
4. Bölüm: En küçük kareler yöntemi ile basit regresyon analizi nasıl hesaplanır?
5. Bölüm: Basit doğrusal regresyonun denklemi
6. Bölüm: Basit doğrusal regresyon doğrusu
7. Bölüm: Yordamanız ne kadar iyi? İyi bir tahminci misiniz?
8. Bölüm: Determinasyon katsayısı nedir?
9. Bölüm: Regresyon analizini kullanabileceğimiz bir araştırma için amaç cümlesi
10. Bölüm: SPSS Uygulaması
11. Bölüm: Sonuçların Yorumlanması
12. Bölüm: Sonuçların Raporlanması
13. Bölüm: Özet
14. Bölüm: Kaynakça
Aralarında doğrusal bir ilişki bulunan biri bağımsız (yordayan, açıklayan, açıklayıcı) diğeri ise bağımlı değişken (yordanan, açıklanan) olan iki değişkenin ilişkilerinin regresyon denklemi ile açıklanabildiği analiz yöntemine basit doğrusal regresyon analizi denir (Güriş ve Astar, 2015, s. 295). Bağımlı değişkenin bağımsız değişken tarafından tahminlenmesine regresyon analizi denir (Field, 2009, s. 198). Korelasyondan farklı olarak regresyon analizinde değişkenlerin bağımlı ve bağımsız olarak tanımlanması önemlidir. Etkisi araştırılan değişkene bağımsız değişken, etkilendiği düşünülen değişkene ise bağımlı değişken adı verilir (Huck, 2012, s. 369).

Basit doğrusal regresyonun amaçları:
Bu analizi yapmanın farklı amaçları vardır ve bu amaçlar aşağıda verilmiştir.
1. Bağımlı ve bağımsız değişken arasındaki doğrusal ilişkiyi matematiksel bir denklem yardımıyla açıklamak (Büyüköztürk, 2015, s. 91),
2.  Modeldeki parametreler tahmin edilerek oluşturulan regresyon denklemin yardımıyla bağımsız değişkenin değerleri için bağımlı değişkenin alabileceği değerleri tahmin etmek/kestirmek (Alpar, 2016, s. 449; Büyüköztürk, 2015, s. 91; Can, 2018, s. 264; Huck, 2012, s. 368; Howell, 2008, s. 212; Thompson, 2008, s. 217) (Örnek: Eğitim bilimleri enstitüsüne lisansüstü öğrenci alırken kullanılan ALES puanı öğrencilerin mezuniyet puanlarının iyi bir tahmincisi midir?),
3.  Determinasyon katsayısı vesilesiyle bağımsız değişkenin bağımlı değişkendeki varyansın ne kadarını açıkladığını tespit etmek (Büyüköztürk, 2015, s. 91; Can, 2018, s. 264; Huck, 2012, s. 368; Thompson, 2008, s. 217),
4.  Bağımsız değişkenin bağımlı değişkeni yordayıp yordamadığını göstermek (Büyüköztürk, 2015, s. 91),
5.   Bağımsız değişkenin bağımlı değişeni nasıl etkilediğini göstermek (Can, 2018, s. 264),
6.   Toplanan veriyi özetlemektir (Alpar, 2016, s. 455).

Regresyon analizi korelasyon analizi ile iç içedir. Bu sebepten değişkenler arasında hesaplanan korelasyon katsayısının değeri büyüdükçe yordama düzeyi de artmaktadır (Salkind, 2015, s. 268). Mükemmel ilişkinin olduğu durumlarda (r = +1,0 veya -1,0) yordama işlemi de hatadan arınık biçimde olacaktır (Salkind, 2015, s. 268).
Basit doğrusal regresyon analizi yapmanın en bilindik yollarından biri de en küçük kareler yöntemidir. En küçük kareler tahminleme yöntemi için varsayımlar aşağıda sıralanmıştır.

Varsayımlar:
· Bağımlı ve bağımsız değişkenler sayısal (en az eşit aralık ölçeğinde) değişkenler olmalıdır (Büyüköztürk, 2015, s. 92).
· Hata terimlerinin normal dağılım göstermesi gerekmektedir  (Güriş ve Astar, 2015, s. 297; Özdamar, 2013, s. 168; Thompson, 2008, s. 232).
· Bağımsız değişken hatasız ölçümlerden elde edilmelidir (Özdamar, 2013, s. 168). Sosyal bilimlerde bu mümkün olmadığı için bu varsayım güvenirliği ve geçerliliği kanıtlanmış ölçme araçları vasıtasıyla bağımsız değişkene ait verileri elde etmek böylece hatayı en aza indirgemektir.
·  Hata terimleri dağılımının aritmetik ortalaması sıfır değerini alır (Güriş ve Astar, 2015, s. 297).
· Hata terimleri arasında otokorelasyon olmamalıdır (Güriş ve Astar, 2015, s. 297).
· Bağımlı ve bağımsız değişkenler arasındaki ilişki doğrusal olmalıdır (Can, 2018, s. 264). Bu ilişkinin doğrusallığını kontrol etmek için saçılım grafiği (scatter plot) çizilebilir. SPSS’de saçılım/serpilme grafiği çizimi için tıklayınız.
· Modele girecek olan değişkenlerin (bağımlı ve bağımsız değişkenlerin) normal dağılım göstermesi gerekmektedir (Özdamar, 2013, s. 168). Normal dağılım varsayımının tespiti için gerekli olan adımlara tıklayınız.
o   Ortalama, ortanca ve tepe değerler birbirine yakın olmalıdır.
o Kolmogorov-Smirnov veya Shapiro-Wilks test sonuçları anlamlılık düzeyleri alfa (0,05) değerinden büyük olmalıdır.
·  Verilerde uç değerler kontrolü yapılarak tespit edilen uç değerler veri setinden atılabilir. Ancak uç değerlerin önemli olduğu düşünülen veriler için transformasyon (dönüşüm) yapılarak veriler normalleştirilir (Büyüköztürk, 2015, s. 93).


En küçük kareler yöntemi ile basit regresyon analizi nasıl hesaplanır?
Regresyon analizine başlarken öncelikle yapılması gerekenler varsayım kontrolleridir. Bağımsız değişken değerleri yardımıyla bağımlı değişken değerlerini tahmin etmek için ilk yapılması gereken korelasyon katsayısının hesaplanmasıdır (Salkind, 2015, s. 269). Regresyon analizinde parametre tahmini momentler yöntemi, en küçük kareler yöntemi (Least Squares Methods) veya maksimum benzerlik (Maximum Likelihood) yardımıyla hesaplanabilmektedir (Akın, 2013, s. 229; Güriş ve Astar, 2015, s. 296; Kalaycı, 2010, s. 199). Bu yöntemler hakkında daha fazla bilgiye ulaşmak için tıklayınız. En çok kullanılan ve bilinen yöntem en küçük kareler yöntemidir (Alpar, 2016, s. 457; Güriş ve Astar, 2015, s. 296).

Denklem: Basit doğrusal regresyona ait model aşağıdaki gibidir:
Y=α + βX + ε
Örneklem üzerinden gözlemlenen regresyon denklemi ise;
Y=  a + bX
X: bağımsız (yordayıcı, açıklayıcı, etkileyen) değişken
Y: bağımlı (yordanan, açıklanan, etkilenen)değişken
a: sabit terim (constant); regresyon doğrusunun Y eksenini kestiği nokta (intercept); bağımsız değişkenin(X) 0 değerini aldığı durumlarda bağımlı değişkenin (Y) ortalama değeri
b: regresyon katsayısı (regression coefficient);  bağımsız değişkendeki (X) bir birimlik değişimin (artma veya azalma) bağımlı değişkende (Y) oluşturduğu ortalama değişim miktarı
En küçük kareler yöntemi ile a ve b parametrelerin tahmini aşağıdaki formüllerde verilmiştir.







Regresyon denkleminde bulunan a ve b bilinmeyenlerine parametre denir. a ve b parametreleri yukarıdaki formüller yardımıyla hesaplandıktan sonra regresyon eşitliğinde yerlerine konularak denklem doğrunun denklemi oluşturulur. Parametreler tespit edildikten sonra bu katsayıların istatistiksel olarak anlamlılığı da t-testi yardımıyla test edilir (Field, 2009, s. 204; Howell, 2008, s. 229). Test sonucu parametrelerden herhangi birinin istatistiksel olarak anlamlı çıkmadığı durumlarda regresyon modelinin kullanımı mantıksız olur (Güriş ve Astar, 2015, s. 297). Böyle bir durumda anlamlı sonuçlar çıkaran farklı regresyon modellerinin oluşturulması tavsiye edilir.

Uyarı: Regresyon denklemindeki a ve b parametreleri standardize edilmemiş regresyon katsayıları olarak bilinmektedir. Bazı çalışmalarda bu katsayılar yerine “standardize edilmiş” değerler olan β (beta) değerleri verilir. Basit doğrusal regresyon denklemlerindeki beta değeri korelasyon değerine eşittir (Howell, 2008, s. 219). Çoklu regresyon analizlerinde ise bağımsız değişkenlerin birbiriyle karşılaştırılmasında kullanılır (Akbulut, 2010, s. 66; Howell, 2008, s. 219).

Güven aralıkları
Sabit için güven aralığı
a-t(n-2;α/2) S(a) ≤ α ≤ a+t(n-2;α/2) S(a)
Regresyon katsayısı için güven aralığı
b-t(n-2;α/2) S(b) ≤ β ≤ b+t(n-2;α/2) S(b)

Verileriniz için en uyumlu doğruyu çizmek: Regresyon doğrusu
Regresyon eşitliği belirlendikten sonra regresyon doğrusunu çizmek kaçınılmazdır. Bu regresyon doğrusu bağımsız değişken değerlerini kullanarak yordanılan bağımlı değişken değerlerinin birlikte görünümünü verir (Salkind, 2015, s. 269) ve Ayrıca verileri özetlemek için de kullanılabilir (Field, 2009, s. 198). Bağımsız değişken X ekseninde ve bağımlı değişken Y ekseninde olacak şekilde çizilir (Akbulut, 2010, s. 63; Thompson, 2008, s. 222). En iyi uyum doğrusu olarak da adlandırılan bu doğru araştırma verilerine en uygun doğru olarak bilinir (Huck, 2012, s. 373). Her bir noktanın bu doğruya uzaklığı en az olması beklenir (Salkind, 2015, s. 271). Bu doğrunun eğimi regresyon denklemindeki b katsayını göstermektedir. Ayrıca, regresyon doğrusunun Y eksenini kestiği nokta a sabiti ile temsil edilir. Son olarak, denklemdeki hata terimleri (e) grafikteki noktaların doğruya dikey uzaklıklarıdır (Thompson, 2008, s. 230). Araştırmaların çoğunda regresyon doğrusu yerine regresyon denklemi verilmektedir (Huck, 2012, s. 374).

Yordamanız ne kadar iyi? İyi bir tahminci misiniz?
Bilinmeyen parametreleri hesaplayıp regresyon modeline ait denklemi oluşturdunuz. Peki, bu denklem yardımıyla ne kadar iyi yordamalar yapabilirsiniz? Ölçme teoristleri her yapılan ölçme işlemine hatanın karıştığını iddia etmektedirler. Denklem yardımıyla tahminlenen değerler ile bağımlı değişkenin toplanan değerleri arasındaki fark yordama hatası olarak bilinmektedir ve mümkün mertebe en aza indirmek gerekmektedir (Salkind, 2015, s. 275). Yordama hatasının standartlaştırılması ile elde edilen standart yordama hatası yordamanın ne kadar hatalı olduğunu göstermektedir (Salkind, 2015, s. 275). Ayrıca iki değişken arasındaki korelasyon katsayısının mükemmele (+1 veya -1’e) yaklaşması standart yordama hatasının sıfıra yaklaşması demektir.

Determinasyon katsayısı:  Hipotetik modelin bağımlı değişkendeki değişimin ne kadarını açıkladığını tespit etmek için determinasyon katsayısına başvurulur. Eldeki verilerin regresyon doğrusuna uyumunu gösteren özet bir ölçü olarak da kullanılır (Akın, 2013, s. 237; Huck, 2012, s. 377). Ayrıca, Bağımsız değişkenin bağımlı değişkende açıkladığı varyans olarak tanımlanır (Büyüköztürk, 2015, s. 92). Basit doğrusal regresyon için “R2 “veya “r2“olarak gösterilir ve 0 ile 1 arasında değerler alır.  r2 değeri 0 olduğunda veriler ile regresyon doğrusunun uyumunun olmadığını gösterir. Diğer taraftan, determinasyon katsayının 1 olduğu durumlarda mükemmel uyum vardır.  Bu sebepten, analizlerde toplam değişmenin açıklama oranının büyük olması beklenir (Güriş ve Astar, 2015, s. 300). Genellikle yüzde olarak ifade edildiğinden araştırmalarda sıkça bahsedilir ve bazı dergiler tarafından rapor edilmesi önerilir (Akbulut, 2010, s. 62).

Regresyon analizini kullanabileceğimiz bir araştırma için amaç cümlesi:
Öğrencilerin istatistik dersine geç kalma süreleri (ortalama dakika olarak), bu öğrencilerin istatistik dersi final puanlarının anlamlı bir yordayıcı mıdır? Bu çalışmada bağımsız değişken derse geç kalma süreleri ve bağımlı değişken final puanlarıdır.

SPSS uygulaması


Varsayımların sağlandığı düşünülsün. Basit doğrusal regresyon analizi yapmak için SPSS in Analyze kısmındaki “regression” sekmesi üzerine gelinir. Açılan listeden linear regression a tıklanır. Ekrana çıkan pencerede bağımlı  (final notu) dependent kutusuna ve bağımsız değişken (derse geç kalma) independent kutusuna atılır. Analiz yöntemi için “methods” kısmından “enter” tercih edilerek OK tuşuna basılır.


SPSS analiz sonuçları: SPSS basit doğrusal regresyon analizi için üç farklı tablo çıkarmaktadır. Bunlardan ilki Model summary adında oluşturulan modelin doğruluğunu gösteren bir tablodur. Bu tabloda iki değişken arasındaki doğrusal korelasyon değeri olan R, determinasyon katsayısı olarak bilinen R-kare, hatalardan arındırılmış hali olan düzeltilmiş R-kare ve son olarak standart yordama (kestirim) hatası olan Std. Error of the Estimate bulunur. SPSS çıktılarında bulunan ikinci sıradaki tablo ANOVA tablosudur. Bu tabloda oluşturulan regresyon modelinin anlamlılığının varyans analizi yardımıyla sınanmasının sonuçları vardır (Can, 2018, s. 270). F ve significant değerlerine bakılarak modelin regresyon analizine uygunluğu tespit edilir. Eğer ki p (significant) değeri 0,05’ten küçük çıkmış ise modelindeki bağımlı ve bağımsız değişken için hesaplanan R değerinin anlamlı olduğu sonucu söylenebilir. SPSS çıktılarının sonuncusu regresyon denklemindeki katsayı ve sabitin tablosudur. Coefficient tablosu yardımıyla sabit ve katsayının istatistiksel manada anlamlı olup olmadıkları tespit edilebilir. Ayrıca bu tablo da standardize edilmiş katsayılar olan beta katsayıları da verilir.

Sonuçların Yorumlanması

SPSS çıktıları yardımıyla bilinmeyen parametreler hesaplanır ve regresyon denklemi oluşturulur. Bu sayede X bağımsız değişkeni kullanılarak Y bağımlı değişkeni yordanabilir. Ayrıca bulguların yorumlanmasında iki değişken arasındaki korelasyon değeri de ifade edilerek vurgulanabilir.
Öğrencilerin istatistik dersine geç kalma süreleri, öğrencilerin bu dersten aldıkları puanlarını ne şekilde yordadığını ortaya koymak için yapılan basit doğrusal regresyon analizi yapılmıştır. Bu analiz sonuçlarına göre öğrencilerin geç kalma süreleri ile ders başarıları arasında anlamlı bir ilişki bulunmuştur (R= ,97 , R2= ,94). Ayrıca derse geç kalma süreleri istatistik dersi puanlarının anlamlı bir yordayıcı olarak gözlenmiştir (F =118,209 , p < 0,05).  Ek olarak, öğrencilerin derse geç kalma sürelerinin ders başarı puanlarındaki değişimin %94’ünü açıkladığı tespit edilmiştir.

Regresyon denklemi : Y = a +bX olarak verildiğinden elde edilen katsayıları denkleme yerleştirirsek;
İstatistik başarı = 94,86 + (-2,43 x Geç kalma süresi)

Buradaki a katsayısı istatistik dersine hiç geç kalmayan bir öğrencinin o dersten aldığı final puanının tahmini değerini gösterir. Yani, derse geç kalmayan bir öğrencinin final puanı 94,86 olarak tahminlenmiştir. Öte yandan parametresi ise geç kalma süresi “1” dakika arttığında istatistik başarısının azalma miktarını temsil eder. Bir dakika geç kalan öğrencinin istatistik dersinden alacağı final notu 2,43 puan azalmaktadır.
Basit doğrusal regresyon analizi sonuçlarını aşağıdaki tabloda özetleyebiliriz.

Sonuçların Raporlanması



Tablo
İstatistik Dersine Ait Final Sınavı Puanlarını Yordayan Derse Geç Kalma


Değişken
B
SE B
β
t
p
Sabit
94,86
1,07
88,71
,000
Derse geç kalma
-2,43
,22
-,97
-10,87
,000
Not. Yukarıdaki tablo APA 6 stiline göre hazırlanmıştır. Bu tablonun Word formatına buradan ulaşabilirsiniz.

Özet
Regresyon yapma aşamaları (Güriş ve Astar, 2015, s. 306):
      1.      Araştırmanın amacı netleştirilir.
      2.      Kavramsal ve kuramsal temellere dayanarak bağımlı ve bağımsız değişken belirlenir.
      3.      İstenilen veriler toplanır.
      4.      Varsayımlar test edilir.
      5.      Uç değerlerin kontrolü saçılım grafikleri yardımıyla sağlanır. Uç değerler varsa ya değerler veri setinden çıkartılır ya da veriler dönüştürülür.
a.      Varsayımlar sağlanıyorsa regresyon denklemi için parametre tahminleri hesaplanır.
                                                              i.      Regresyon modelinin istatistiksel anlamlılığı test edilir.
                                                            ii.      Parametre tahminlerinin istatistiksel anlamlılığı test edilir.
b.      Varsayımlar sağlanmıyorsa gerekli dönüşümler yapılır (varsayımların sağlanmadığı durumlarda kullanılan kareli model, tam logaritmik model vd. regresyon modelleri için Güriş ve Astar’ın (2015, s. 313-325) kitabına başvurabilirsiniz.)
c.      Regresyon doğrusu çizilir.
     6.      Regresyon modelinin yeterliği ve geçerliği saptanma sürecine tabi tutulmalıdır.


Kaynakça

Akın, F. (2009). Sosyal bilimlerde istatistik. İzmir: Ekin Kitabevi.
Akbulut, Y. (2010). Sosyal bilimlerde SPSS uygulamaları: Sık kullanılan istatistiksel analizler ve açıklamalı SPSS çözümleri. İstanbul: İdeal Kültür Yayıncılık.
Alpar, R. (2016). Uygulamalı çok değişkenli istatistiksel yöntemler. Ankara: Detay Yayıncılık.
Büyüköztürk, Ş. (2015). Sosyal bilimler için veri analizi el kitabı: İstatistik, araştırma deseni. Ankara: Pegem Yayıncılık.
Can, A. (2018). SPSS ile bilimsel araştırma sürecinde nicel veri analizi. Ankara: Pegem Yayıncılık.
Field, A. (2009). Discovering statistics using SPSS. Thousand Oaks, CA: Sage.
Güriş, S., & Astar, M. (2015). Bilimsel araştırmalarda SPSS ile istatistik. İstanbul: Der Yayınları.
Huck, S. W. (2012). Reading statistics and research. New York, NY: Pearson.
Howell, D. C. (2016). Fundamental statistics for the behavioral sciences. Boston: Nelson Education.
Kalaycı, Ş. (2010). SPSS uygulamalı çok değişkenli istatistik teknikleri. Ankara: Asil Yayın Dağıtım.
Özdamar, K. (2013). Paket programlar ile istatistiksel veri analizi-1: SPSS-MINITAB. Eskişehir: Nisan Kitapevi.
Salkind, N. (2015). İstatistikten nefret edenler için istatistik. Ankara: Pegem Akademi.
Thompson, B. (2008). Foundations of behavioral statistics: An insight-based approach. New York, NY: Guilford Press.





En küçük kareler yöntemine ait bir simulasyon


Bu metine atıfta bulunmak için: Karakaya Özyer, K. (2019). Basit Doğrusal Regresyon [Blog]. Retrieved 24 June 2022, from https://nicelanalizlericindesteksistemi.blogspot.com/.