Basit Doğrusal Regresyon (Simple Linear
Regression)
Bu bölümde neler var?
1. Bölüm: Basit doğrusal regresyon nedir?
2. Bölüm: Basit doğrusal regresyonun amaçları
3. Bölüm: Basit doğrusal regresyonun varsayımları
4. Bölüm: En küçük kareler yöntemi ile basit regresyon analizi nasıl hesaplanır?
5. Bölüm: Basit doğrusal regresyonun denklemi
6. Bölüm: Basit doğrusal regresyon doğrusu
7. Bölüm: Yordamanız ne kadar iyi? İyi bir tahminci misiniz?
8. Bölüm: Determinasyon katsayısı nedir?
9. Bölüm: Regresyon analizini kullanabileceğimiz bir araştırma için amaç cümlesi
10. Bölüm: SPSS Uygulaması
11. Bölüm: Sonuçların Yorumlanması
12. Bölüm: Sonuçların Raporlanması
13. Bölüm: Özet
14. Bölüm: Kaynakça
1. Bölüm: Basit doğrusal regresyon nedir?
2. Bölüm: Basit doğrusal regresyonun amaçları
3. Bölüm: Basit doğrusal regresyonun varsayımları
4. Bölüm: En küçük kareler yöntemi ile basit regresyon analizi nasıl hesaplanır?
5. Bölüm: Basit doğrusal regresyonun denklemi
6. Bölüm: Basit doğrusal regresyon doğrusu
7. Bölüm: Yordamanız ne kadar iyi? İyi bir tahminci misiniz?
8. Bölüm: Determinasyon katsayısı nedir?
9. Bölüm: Regresyon analizini kullanabileceğimiz bir araştırma için amaç cümlesi
10. Bölüm: SPSS Uygulaması
11. Bölüm: Sonuçların Yorumlanması
12. Bölüm: Sonuçların Raporlanması
13. Bölüm: Özet
14. Bölüm: Kaynakça
Aralarında doğrusal
bir ilişki bulunan biri bağımsız (yordayan, açıklayan, açıklayıcı) diğeri ise
bağımlı değişken (yordanan, açıklanan) olan iki değişkenin ilişkilerinin
regresyon denklemi ile açıklanabildiği analiz yöntemine basit doğrusal
regresyon analizi denir (Güriş ve Astar, 2015, s. 295). Bağımlı değişkenin
bağımsız değişken tarafından tahminlenmesine regresyon analizi denir (Field,
2009, s. 198). Korelasyondan farklı olarak regresyon analizinde değişkenlerin
bağımlı ve bağımsız olarak tanımlanması önemlidir. Etkisi
araştırılan değişkene bağımsız değişken, etkilendiği düşünülen değişkene ise
bağımlı değişken adı verilir (Huck, 2012, s. 369).
Bu analizi yapmanın farklı amaçları vardır
ve bu amaçlar aşağıda verilmiştir.
1. Bağımlı
ve bağımsız değişken arasındaki doğrusal ilişkiyi matematiksel bir denklem
yardımıyla açıklamak (Büyüköztürk, 2015, s. 91),
2. Modeldeki
parametreler tahmin edilerek oluşturulan regresyon denklemin yardımıyla
bağımsız değişkenin değerleri için bağımlı değişkenin alabileceği değerleri
tahmin etmek/kestirmek (Alpar, 2016, s. 449; Büyüköztürk, 2015, s. 91; Can,
2018, s. 264; Huck, 2012, s. 368; Howell, 2008, s. 212; Thompson, 2008, s. 217)
(Örnek: Eğitim bilimleri enstitüsüne lisansüstü öğrenci alırken kullanılan ALES
puanı öğrencilerin mezuniyet puanlarının iyi bir tahmincisi midir?),
3. Determinasyon
katsayısı vesilesiyle bağımsız değişkenin bağımlı değişkendeki varyansın ne
kadarını açıkladığını tespit etmek (Büyüköztürk, 2015, s. 91; Can, 2018, s.
264; Huck, 2012, s. 368; Thompson, 2008, s. 217),
4. Bağımsız
değişkenin bağımlı değişkeni yordayıp yordamadığını göstermek (Büyüköztürk,
2015, s. 91),
5. Bağımsız
değişkenin bağımlı değişeni nasıl etkilediğini göstermek (Can, 2018, s. 264),
6. Toplanan
veriyi özetlemektir (Alpar, 2016, s. 455).
Regresyon analizi
korelasyon analizi ile iç içedir. Bu sebepten değişkenler arasında hesaplanan
korelasyon katsayısının değeri büyüdükçe yordama düzeyi de artmaktadır
(Salkind, 2015, s. 268). Mükemmel ilişkinin olduğu durumlarda (r = +1,0 veya
-1,0) yordama işlemi de hatadan arınık biçimde olacaktır (Salkind, 2015, s.
268).
Basit doğrusal
regresyon analizi yapmanın en bilindik yollarından biri de en küçük kareler
yöntemidir. En küçük kareler tahminleme yöntemi için varsayımlar aşağıda
sıralanmıştır.
· Bağımlı ve bağımsız değişkenler sayısal
(en az eşit aralık ölçeğinde) değişkenler olmalıdır (Büyüköztürk, 2015, s. 92).
· Hata terimlerinin normal dağılım
göstermesi gerekmektedir (Güriş ve Astar, 2015, s. 297; Özdamar, 2013, s.
168; Thompson, 2008, s. 232).
· Bağımsız değişken hatasız ölçümlerden elde
edilmelidir (Özdamar, 2013, s. 168). Sosyal bilimlerde bu mümkün olmadığı için
bu varsayım güvenirliği ve geçerliliği kanıtlanmış ölçme araçları vasıtasıyla
bağımsız değişkene ait verileri elde etmek böylece hatayı en aza indirgemektir.
· Hata terimleri dağılımının aritmetik
ortalaması sıfır değerini alır (Güriş ve Astar, 2015, s. 297).
· Hata terimleri arasında otokorelasyon
olmamalıdır (Güriş ve Astar, 2015, s. 297).
· Bağımlı ve bağımsız değişkenler arasındaki
ilişki doğrusal olmalıdır (Can, 2018, s. 264). Bu ilişkinin doğrusallığını
kontrol etmek için saçılım grafiği (scatter plot) çizilebilir. SPSS’de
saçılım/serpilme grafiği çizimi için tıklayınız.
· Modele girecek olan değişkenlerin (bağımlı
ve bağımsız değişkenlerin) normal dağılım göstermesi gerekmektedir (Özdamar,
2013, s. 168). Normal dağılım varsayımının tespiti için gerekli olan adımlara
tıklayınız.
o Ortalama, ortanca ve tepe değerler birbirine yakın
olmalıdır.
o Kolmogorov-Smirnov veya Shapiro-Wilks test sonuçları
anlamlılık düzeyleri alfa (0,05) değerinden büyük olmalıdır.
· Verilerde uç değerler kontrolü yapılarak
tespit edilen uç değerler veri setinden atılabilir. Ancak uç değerlerin önemli
olduğu düşünülen veriler için transformasyon (dönüşüm) yapılarak veriler
normalleştirilir (Büyüköztürk, 2015, s. 93).
Regresyon analizine
başlarken öncelikle yapılması gerekenler varsayım kontrolleridir. Bağımsız
değişken değerleri yardımıyla bağımlı değişken değerlerini tahmin etmek için
ilk yapılması gereken korelasyon katsayısının hesaplanmasıdır (Salkind, 2015, s.
269). Regresyon analizinde parametre tahmini momentler yöntemi, en küçük
kareler yöntemi (Least Squares Methods) veya
maksimum benzerlik (Maximum Likelihood) yardımıyla
hesaplanabilmektedir (Akın, 2013, s. 229; Güriş ve Astar, 2015, s. 296;
Kalaycı, 2010, s. 199). Bu yöntemler hakkında daha fazla bilgiye ulaşmak için
tıklayınız. En çok kullanılan ve bilinen yöntem en küçük kareler yöntemidir
(Alpar, 2016, s. 457; Güriş ve Astar, 2015, s. 296).
Y=α + βX + ε
Örneklem üzerinden gözlemlenen regresyon
denklemi ise;
Y= a + bX
X: bağımsız (yordayıcı, açıklayıcı,
etkileyen) değişken
Y: bağımlı (yordanan, açıklanan,
etkilenen)değişken
a: sabit terim (constant); regresyon
doğrusunun Y eksenini kestiği nokta (intercept); bağımsız değişkenin(X) 0
değerini aldığı durumlarda bağımlı değişkenin (Y) ortalama değeri
b: regresyon katsayısı (regression
coefficient); bağımsız değişkendeki (X) bir birimlik değişimin (artma
veya azalma) bağımlı değişkende (Y) oluşturduğu ortalama değişim miktarı
Regresyon denkleminde
bulunan a ve b bilinmeyenlerine parametre denir. a ve b parametreleri
yukarıdaki formüller yardımıyla hesaplandıktan sonra regresyon eşitliğinde
yerlerine konularak denklem doğrunun denklemi oluşturulur. Parametreler tespit
edildikten sonra bu katsayıların istatistiksel olarak anlamlılığı da t-testi
yardımıyla test edilir (Field, 2009, s. 204; Howell, 2008, s. 229). Test sonucu
parametrelerden herhangi birinin istatistiksel olarak anlamlı çıkmadığı
durumlarda regresyon modelinin kullanımı mantıksız olur (Güriş ve Astar, 2015,
s. 297). Böyle bir durumda anlamlı sonuçlar çıkaran farklı regresyon
modellerinin oluşturulması tavsiye edilir.
Uyarı: Regresyon denklemindeki a ve b
parametreleri standardize edilmemiş regresyon katsayıları olarak bilinmektedir.
Bazı çalışmalarda bu katsayılar yerine “standardize edilmiş” değerler olan β
(beta) değerleri verilir. Basit doğrusal regresyon denklemlerindeki beta değeri
korelasyon değerine eşittir (Howell, 2008, s. 219). Çoklu regresyon
analizlerinde ise bağımsız değişkenlerin birbiriyle karşılaştırılmasında
kullanılır (Akbulut, 2010, s. 66; Howell, 2008, s. 219).
Güven aralıkları
Sabit için güven aralığı
a-t(n-2;α/2) S(a)
≤ α ≤ a+t(n-2;α/2) S(a)
Regresyon katsayısı için güven aralığı
b-t(n-2;α/2) S(b)
≤ β ≤ b+t(n-2;α/2) S(b)
Regresyon eşitliği
belirlendikten sonra regresyon doğrusunu çizmek kaçınılmazdır. Bu regresyon
doğrusu bağımsız değişken değerlerini kullanarak yordanılan bağımlı değişken
değerlerinin birlikte görünümünü verir (Salkind, 2015, s. 269) ve Ayrıca
verileri özetlemek için de kullanılabilir (Field, 2009, s. 198). Bağımsız
değişken X ekseninde ve bağımlı değişken Y ekseninde olacak şekilde çizilir
(Akbulut, 2010, s. 63; Thompson, 2008, s. 222). En iyi uyum doğrusu olarak da
adlandırılan bu doğru araştırma verilerine en uygun doğru olarak bilinir (Huck,
2012, s. 373). Her bir noktanın bu doğruya uzaklığı en az olması beklenir
(Salkind, 2015, s. 271). Bu doğrunun eğimi regresyon denklemindeki b katsayını
göstermektedir. Ayrıca, regresyon doğrusunun Y eksenini kestiği nokta a sabiti
ile temsil edilir. Son olarak, denklemdeki hata terimleri (e) grafikteki
noktaların doğruya dikey uzaklıklarıdır (Thompson, 2008, s. 230).
Araştırmaların çoğunda regresyon doğrusu yerine regresyon denklemi
verilmektedir (Huck, 2012, s. 374).
Bilinmeyen
parametreleri hesaplayıp regresyon modeline ait denklemi oluşturdunuz. Peki, bu
denklem yardımıyla ne kadar iyi yordamalar yapabilirsiniz? Ölçme teoristleri
her yapılan ölçme işlemine hatanın karıştığını iddia etmektedirler. Denklem
yardımıyla tahminlenen değerler ile bağımlı değişkenin toplanan değerleri
arasındaki fark yordama hatası olarak bilinmektedir ve mümkün mertebe en aza
indirmek gerekmektedir (Salkind, 2015, s. 275). Yordama hatasının
standartlaştırılması ile elde edilen standart yordama hatası yordamanın ne
kadar hatalı olduğunu göstermektedir (Salkind, 2015, s. 275). Ayrıca iki
değişken arasındaki korelasyon katsayısının mükemmele (+1 veya -1’e) yaklaşması
standart yordama hatasının sıfıra yaklaşması demektir.
Determinasyon katsayısı: Hipotetik modelin bağımlı
değişkendeki değişimin ne kadarını açıkladığını tespit etmek için determinasyon
katsayısına başvurulur. Eldeki verilerin regresyon doğrusuna uyumunu gösteren
özet bir ölçü olarak da kullanılır (Akın, 2013, s. 237; Huck, 2012, s. 377).
Ayrıca, Bağımsız değişkenin bağımlı değişkende açıkladığı varyans olarak
tanımlanır (Büyüköztürk, 2015, s. 92). Basit doğrusal regresyon için “R2 “veya “r2“olarak
gösterilir ve 0 ile 1 arasında değerler alır. r2 değeri 0 olduğunda veriler ile regresyon
doğrusunun uyumunun olmadığını gösterir. Diğer taraftan, determinasyon
katsayının 1 olduğu durumlarda mükemmel uyum vardır. Bu sebepten,
analizlerde toplam değişmenin açıklama oranının büyük olması beklenir (Güriş ve
Astar, 2015, s. 300). Genellikle yüzde olarak ifade edildiğinden araştırmalarda
sıkça bahsedilir ve bazı dergiler tarafından rapor edilmesi önerilir (Akbulut,
2010, s. 62).
Öğrencilerin istatistik dersine geç kalma
süreleri (ortalama dakika olarak), bu öğrencilerin istatistik dersi final
puanlarının anlamlı bir yordayıcı mıdır? Bu çalışmada bağımsız değişken derse
geç kalma süreleri ve bağımlı değişken final puanlarıdır.
Varsayımların sağlandığı düşünülsün. Basit doğrusal regresyon analizi yapmak
için SPSS in Analyze kısmındaki “regression” sekmesi üzerine gelinir. Açılan
listeden linear regression a tıklanır. Ekrana çıkan
pencerede bağımlı (final notu) dependent kutusuna
ve bağımsız değişken (derse geç kalma) independent kutusuna
atılır. Analiz yöntemi için “methods” kısmından “enter” tercih edilerek OK tuşuna
basılır.
SPSS
analiz sonuçları: SPSS basit doğrusal regresyon analizi için üç farklı tablo
çıkarmaktadır. Bunlardan ilki Model summary adında oluşturulan modelin
doğruluğunu gösteren bir tablodur. Bu tabloda iki değişken arasındaki doğrusal
korelasyon değeri olan R, determinasyon katsayısı olarak bilinen R-kare, hatalardan
arındırılmış hali olan düzeltilmiş R-kare ve son olarak standart yordama (kestirim)
hatası olan Std. Error of the Estimate bulunur. SPSS çıktılarında bulunan
ikinci sıradaki tablo ANOVA tablosudur. Bu tabloda oluşturulan regresyon
modelinin anlamlılığının varyans analizi yardımıyla sınanmasının sonuçları
vardır (Can, 2018, s. 270). F ve significant değerlerine bakılarak modelin
regresyon analizine uygunluğu tespit edilir. Eğer ki p (significant) değeri 0,05’ten
küçük çıkmış ise modelindeki bağımlı ve bağımsız değişken için hesaplanan R
değerinin anlamlı olduğu sonucu söylenebilir. SPSS çıktılarının sonuncusu
regresyon denklemindeki katsayı ve sabitin tablosudur. Coefficient tablosu
yardımıyla sabit ve katsayının istatistiksel manada anlamlı olup olmadıkları
tespit edilebilir. Ayrıca bu tablo da standardize edilmiş katsayılar olan beta
katsayıları da verilir.
SPSS çıktıları yardımıyla bilinmeyen
parametreler hesaplanır ve regresyon denklemi oluşturulur. Bu sayede X bağımsız
değişkeni kullanılarak Y bağımlı değişkeni yordanabilir. Ayrıca bulguların
yorumlanmasında iki değişken arasındaki korelasyon değeri de ifade edilerek
vurgulanabilir.
Öğrencilerin istatistik dersine geç kalma
süreleri, öğrencilerin bu dersten aldıkları puanlarını ne şekilde yordadığını
ortaya koymak için yapılan basit doğrusal regresyon analizi yapılmıştır. Bu
analiz sonuçlarına göre öğrencilerin geç kalma süreleri ile ders başarıları
arasında anlamlı bir ilişki bulunmuştur (R= ,97 , R2=
,94). Ayrıca derse geç kalma süreleri istatistik dersi puanlarının anlamlı bir
yordayıcı olarak gözlenmiştir (F =118,209 , p < 0,05). Ek olarak,
öğrencilerin derse geç kalma sürelerinin ders başarı puanlarındaki değişimin
%94’ünü açıkladığı tespit edilmiştir.
Regresyon denklemi : Y = a +bX olarak verildiğinden
elde edilen katsayıları denkleme yerleştirirsek;
İstatistik başarı = 94,86 + (-2,43 x Geç kalma süresi)
Buradaki a katsayısı
istatistik dersine hiç geç kalmayan bir öğrencinin o dersten aldığı final
puanının tahmini değerini gösterir. Yani, derse geç kalmayan bir öğrencinin
final puanı 94,86 olarak tahminlenmiştir. Öte yandan b parametresi ise geç kalma süresi “1” dakika
arttığında istatistik başarısının azalma miktarını temsil eder. Bir dakika geç kalan öğrencinin istatistik
dersinden alacağı final notu 2,43 puan azalmaktadır.
Basit doğrusal regresyon analizi sonuçlarını aşağıdaki
tabloda özetleyebiliriz.
Tablo
İstatistik
Dersine Ait Final Sınavı Puanlarını Yordayan Derse Geç Kalma
Değişken
|
B
|
SE B
|
β
|
t
|
p
|
Sabit
|
94,86
|
1,07
|
88,71
|
,000
|
|
Derse geç kalma
|
-2,43
|
,22
|
-,97
|
-10,87
|
,000
|
Not. Yukarıdaki tablo APA 6
stiline göre hazırlanmıştır. Bu tablonun Word formatına buradan
ulaşabilirsiniz.
Regresyon yapma aşamaları
(Güriş ve Astar, 2015, s. 306):
1.
Araştırmanın
amacı netleştirilir.
2.
Kavramsal ve
kuramsal temellere dayanarak bağımlı ve bağımsız değişken belirlenir.
3.
İstenilen
veriler toplanır.
4.
Varsayımlar
test edilir.
5.
Uç değerlerin
kontrolü saçılım grafikleri yardımıyla sağlanır. Uç değerler varsa ya değerler
veri setinden çıkartılır ya da veriler dönüştürülür.
a.
Varsayımlar
sağlanıyorsa regresyon denklemi için parametre tahminleri hesaplanır.
i.
Regresyon
modelinin istatistiksel anlamlılığı test edilir.
ii.
Parametre
tahminlerinin istatistiksel anlamlılığı test edilir.
b.
Varsayımlar
sağlanmıyorsa gerekli dönüşümler yapılır (varsayımların sağlanmadığı durumlarda
kullanılan kareli model, tam logaritmik model vd. regresyon modelleri için
Güriş ve Astar’ın (2015, s. 313-325) kitabına başvurabilirsiniz.)
c.
Regresyon
doğrusu çizilir.
6.
Regresyon
modelinin yeterliği ve geçerliği saptanma sürecine tabi tutulmalıdır.
Akın, F. (2009). Sosyal bilimlerde istatistik. İzmir:
Ekin Kitabevi.
Akbulut, Y. (2010). Sosyal bilimlerde SPSS
uygulamaları: Sık kullanılan istatistiksel analizler ve açıklamalı SPSS
çözümleri. İstanbul: İdeal Kültür Yayıncılık.
Alpar, R. (2016). Uygulamalı çok değişkenli
istatistiksel yöntemler. Ankara: Detay Yayıncılık.
Büyüköztürk, Ş. (2015). Sosyal
bilimler için veri analizi el kitabı: İstatistik, araştırma deseni. Ankara: Pegem Yayıncılık.
Can, A. (2018). SPSS
ile bilimsel araştırma sürecinde nicel veri analizi. Ankara: Pegem Yayıncılık.
Field, A. (2009). Discovering statistics using SPSS.
Thousand Oaks, CA: Sage.
Güriş, S., & Astar, M. (2015). Bilimsel araştırmalarda SPSS ile istatistik. İstanbul: Der
Yayınları.
Huck, S.
W. (2012). Reading statistics and
research. New York, NY: Pearson.
Howell, D. C. (2016). Fundamental statistics for the
behavioral sciences. Boston: Nelson Education.
Kalaycı, Ş. (2010). SPSS uygulamalı çok değişkenli
istatistik teknikleri. Ankara: Asil Yayın Dağıtım.
Özdamar, K. (2013). Paket programlar ile
istatistiksel veri analizi-1: SPSS-MINITAB. Eskişehir: Nisan Kitapevi.
Salkind, N. (2015). İstatistikten nefret edenler için
istatistik. Ankara: Pegem Akademi.
Thompson, B. (2008). Foundations of behavioral
statistics: An insight-based approach. New York, NY: Guilford Press.
En küçük kareler yöntemine ait bir simulasyon