Apa artinya regresi linier menjadi signifikan secara statistik tetapi memiliki r kuadrat yang sangat rendah?

14

Saya mengerti artinya bahwa model tersebut buruk dalam memprediksi titik data individu tetapi telah membentuk tren yang kuat (misalnya, y naik ketika x naik).

PaperRockBazooka
sumber
9
Ini dapat menyarankan ukuran sampel yang sangat besar
Henry
2
R-squared memiliki beberapa bagasi. stats.stackexchange.com/questions/13314/…
Reinstate Monica

Jawaban:

27

Ini berarti bahwa Anda dapat menjelaskan sebagian kecil dari varians dalam data. Misalnya, Anda dapat menetapkan bahwa gelar sarjana berdampak pada gaji, tetapi pada saat yang sama itu hanya faktor kecil. Ada banyak faktor lain yang mempengaruhi gaji Anda, dan kontribusi dari gelar sarjana sangat kecil, tetapi dapat dideteksi.

Dalam istilah praktis, ini bisa berarti bahwa secara rata-rata gelar sarjana menaikkan gaji $ 500 per tahun, sedangkan standar deviasi gaji orang adalah $ 10 ribu. Jadi, banyak orang berpendidikan tinggi memiliki gaji lebih rendah daripada tidak berpendidikan, dan nilai model prediksi Anda rendah.

Aksakal
sumber
11

Ini berarti "kesalahan tak tereduksi tinggi", yaitu, hal terbaik yang dapat kita lakukan (dengan model linier) terbatas. Misalnya, kumpulan data berikut:

data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)

Catatan, trik dalam kumpulan data ini adalah bahwa dengan memberikan satu nilai , ada terlalu banyak nilai y yang berbeda , sehingga kita tidak dapat membuat prediksi yang baik untuk memuaskan semuanya. Pada saat yang sama, ada korelasi linear "kuat" antara x dan y . Jika kita cocok dengan model linier, kita akan mendapatkan koefisien yang signifikan, tetapi R kuadrat rendah.xyxy

fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)

Call:
lm(formula = data[, 2] ~ data[, 1])

Residuals:
     Min       1Q   Median       3Q      Max 
-203.331  -59.647   -1.252   68.103  195.669 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  123.910      8.428   14.70   <2e-16 ***
data[, 1]     80.421      4.858   16.56   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared:  0.2814,    Adjusted R-squared:  0.2804 
F-statistic: 274.1 on 1 and 700 DF,  p-value: < 2.2e-16

masukkan deskripsi gambar di sini

Haitao Du
sumber
3

Apa artinya regresi linier menjadi signifikan secara statistik tetapi memiliki r kuadrat yang sangat rendah?

Ini berarti bahwa ada hubungan linier antara variabel independen dan dependen, tetapi hubungan ini mungkin tidak layak untuk dibicarakan.

Namun, kebermaknaan hubungan itu sangat bergantung pada apa yang Anda periksa, tetapi secara umum, Anda dapat mengartikannya bahwa signifikansi statistik tidak boleh dikacaukan dengan relevansi.

Dengan ukuran sampel yang cukup besar, bahkan hubungan yang paling sepele dapat ditemukan signifikan secara statistik.

faustus
sumber
1
Sebenarnya regresi linier berarti linier dalam parameter. Variabel dependen mentah dapat ditransformasikan dan Anda masih memiliki regresi linier. Saya sedikit bingung dengan apa yang menurut Anda signifikansi statistik. Bagi saya itu berarti bahwa estimasi parameternya besar.
Michael R. Chernick
Signifikansi mengacu pada probabilitas bahwa hasilnya murni secara kebetulan dan bahwa tidak ada hubungan antara prediktor dan variabel dependen. jika Anda memiliki ukuran sampel kecil dan hasilnya signifikan, maka ya, estimasi parameter akan besar. namun, dengan sampel yang sangat besar, Anda bisa mendapatkan hasil yang signifikan bahkan dengan estimasi parameter yang sangat kecil. mencobanya di sini: danielsoper.com/statcalc/calculator.aspx
Faustus
Apa yang Anda katakan terdengar seperti gambaran umum tentang apa kesimpulan itu. Tetapi signifikansi statistik adalah istilah khusus yang berkaitan dengan melebihi nilai kritis di mana nilai kritis bergantung pada tingkat signifikansi tertentu yang dipilih analis (mis. 0,05. 0,01 dll). Ukuran sampel adalah faktor lain. Dalam regresi Anda menguji beberapa hipotesis (signifikansi koefisien regresi individu serta tes bahwa tidak ada hubungan. Ini juga dapat menjadi rumit dengan melakukan prosedur bertahap yang memilih antara beberapa model yang mungkin.
Michael R. Chernick
1
Statistik adalah bagian ilmu pengetahuan dan seni bagian tetapi didasarkan pada prinsip-prinsip matematika.
Michael R. Chernick
2
@MichaelChernik Bisakah Anda menguraikan sedikit? Saya setuju dengan faustus (sebenarnya saya kebetulan memberikan jawaban yang sama) dan saya gagal memahami maksud Anda. Dalam regresi linier, signifikansi ((apakah signifikansi koefisien regresi individu atau keseluruhan regresi) diuji terhadap hipotesis tidak ada hubungan (koefisien tepat 0). Dengan data yang cukup Anda mungkin dapat mengatakan bahwa koefisien bukan nol, namun sangat kecil. (lanjutan)
Luca Citi
2

Cara lain untuk mengutarakan ini adalah bahwa itu berarti Anda dapat dengan yakin memprediksi perubahan pada tingkat populasi tetapi tidak pada tingkat individu. yaitu ada varians yang tinggi dalam data individu, tetapi ketika sampel yang cukup besar digunakan, efek yang mendasarinya dapat dilihat secara keseluruhan. Ini adalah salah satu alasan mengapa beberapa saran kesehatan pemerintah tidak membantu individu. Pemerintah kadang merasa perlu untuk bertindak karena mereka dapat melihat bahwa lebih banyak kegiatan menyebabkan lebih banyak kematian secara keseluruhan dalam populasi. Mereka menghasilkan saran atau kebijakan yang 'menyelamatkan' nyawa ini. Namun, karena varians yang tinggi dalam respon individu, seorang individu mungkin sangat tidak mungkin untuk melihat manfaat secara pribadi (atau, lebih buruk lagi, karena kondisi genetik tertentu, kesehatan mereka sendiri sebenarnya akan meningkat dari mematuhi saran yang berlawanan, tetapi ini tersembunyi dalam agregasi populasi). Jika individu memperoleh manfaat (misalnya kesenangan) dari aktivitas 'tidak sehat', mengikuti saran dapat berarti mereka melupakan kesenangan yang pasti ini sepanjang hidup mereka, namun sebenarnya tidak secara pribadi mengubah apakah mereka akan atau tidak akan menderita dari kondisi tersebut.

sinis kesehatan
sumber
Contoh yang sangat bagus!
kjetil b halvorsen
R2