Bisakah lebih besar dari 1?

8

The Wikipedia halaman di R2 kata dapat mengambil lebih besar nilai dari 1. Saya tidak melihat bagaimana hal ini mungkin.R2

Nilai luar rentang 0 hingga 1 dapat terjadi di mana ia digunakan untuk mengukur kesepakatan antara nilai yang diamati dan yang dimodelkan dan di mana nilai "yang dimodelkan" tidak diperoleh dengan regresi linier dan tergantung pada formulasi mana yang digunakan. . Jika rumus pertama di atas digunakan, nilainya bisa kurang dari nol. Jika ekspresi kedua digunakan, nilai bisa lebih besar dari satu.R2R2

Kutipan itu merujuk pada "ekspresi kedua" tetapi saya tidak melihat ekspresi kedua pada halaman.

Apakah ada skenario di mana bisa lebih besar dari 1? Saya sedang memikirkan pertanyaan ini untuk regresi nonlinier, tetapi ingin mendapatkan jawaban umum.R2

[Untuk seseorang yang melihat halaman ini dengan pertanyaan yang berlawanan: Ya; bisa negatif. Ini terjadi ketika Anda memasukkan model yang sesuai dengan data lebih buruk daripada garis horizontal. Ini biasanya disebabkan oleh kesalahan dalam memilih model atau kendala.]R2

Harvey Motulsky
sumber
6
Masalah ini telah ditangani setidaknya satu kali di situs web ini stats.stackexchange.com/questions/251337 dan saya membayangkan bahwa ada lebih banyak pertanyaan yang berkaitan dengan itu atau sepenuhnya menjelaskannya. , ini hanya berlaku secara umum jika model menyertakan intersep dan jika rata-rata kesalahan / residu adalah 0. Jika berhubungan, paling sederhana , untuk korelasi, dan tidak ada koreksi, maka memang harus tidak lebih dari 1. Hanya saja itu tidak selalu dihitung dengan cara yang sama dengan korelasi.
SST(total)=RSS(model)+SSE(error)
SSt>SSeR2
Sextus Empiricus
1
Jadi, Anda memiliki dua ekspresi:
R2=1SSe/SSt=SSm/SSt
mungkin saja itu SSm>SSt
Sextus Empiricus
Saya menghitung R-kuadrat sebagai "1.0 - (absolute_error_variance / depend_data_variance)" dan karena varians kesalahan absolut tidak boleh kurang dari nol, dalam perhitungan saya nilai maksimum R-squared adalah 1,0
James Phillips
2
Keanehan seperti inilah yang membuat saya berpikir demikian R2sebaiknya diambil secara umum untuk menjadi kuadrat dari korelasi antara yang diamati dan yang diprediksi.
Nick Cox
Jika R kuadrat lebih dari satu itu berarti 1 +1 lebih dari 2
Ibrahim

Jawaban:

8

Saya menemukan jawabannya, sehingga akan memposting jawaban untuk pertanyaan saya. Seperti yang ditunjukkan Martijn, dengan regresi linier Anda dapat menghitungR2 oleh dua ekspresi yang setara:

R2=1SSe/SSt=SSm/SSt

Dengan regresi nonlinier, Anda tidak dapat menjumlahkan jumlah kuadrat dari residu dan jumlah kuadrat dari regresi untuk mendapatkan jumlah total kuadrat. Persamaan itu tidak benar. Jadi persamaan di atas tidak benar. Dua pengalaman itu menghitung dua nilai berbeda untukR2.

Satu-satunya persamaan yang masuk akal dan (saya pikir) digunakan secara universal adalah:

R2=1SSe/SSt

Nilainya tidak pernah lebih besar dari 1,0, tetapi bisa negatif ketika Anda cocok dengan model yang salah (atau kendala yang salah) sehingga SSe (jumlah kuadrat residu) lebih besar dari SSt (jumlah kuadrat dari perbedaan antara nilai Y aktual dan rata-rata).

Persamaan lainnya tidak digunakan dengan regresi nonlinear:

R2=SSm/SSt

Tetapi jika persamaan ini digunakan, itu menghasilkan R2 lebih besar dari 1,0 dalam kasus di mana model cocok dengan data yang sangat buruk SSm lebih besar dari SSt. Ini terjadi ketika kesesuaian model lebih buruk daripada kesesuaian garis horizontal, kasus yang sama yang menyebabkanR2<0 dengan persamaan lainnya.

Intinya: R2 bisa lebih besar dari 1,0 hanya ketika persamaan yang tidak valid (atau tidak standar) digunakan untuk menghitung R2 dan ketika model yang dipilih (dengan kendala, jika ada) cocok dengan data yang sangat buruk, lebih buruk daripada kecocokan garis horizontal.

Harvey Motulsky
sumber
Apakah poin terakhir itu benar? Pertimbangkan data dalam garis yang sempurna. Sekarang perhatikan model yang tepat sesuai dengan garis ini. Ini memiliki SS_m / SS_t = 1. Sekarang pertimbangkan model yang sama tetapi dengan gradien yang sedikit lebih curam. Sekarang SS_m sedikit lebih besar dan SS_m / SS_t> 1. Modelnya sedikit lebih buruk tetapi masih cocok dengan data dengan baik, bukan "benar-benar buruk".
Denziloe
@Denziloe. Data Anda sempurna atau hampir sempurna dengan kemiringan positif. Sekarang paskan garis regresi linier dengan batasan bahwa kemiringan negatif dengan kemiringan kurang dari -100. Model fit akan lebih buruk daripada garis horizontal, jadi SSe lebih besar dari SSt. Dengan persamaan pertama, R2 akan negatif. Dengan persamaan kedua, R2 akan lebih besar dari 1. Tidak, itu bukan situasi yang realistis atau umum.
Harvey Motulsky
@Denziloe. Model ini akan cocok dengan data yang benar-benar buruk (lebih buruk daripada hipotesis nol dari garis horizontal), hanya jika Anda membatasi kemiringan atau memotong ke nilai yang tidak masuk akal. Dalam contoh Anda, model cocok dengan data baik, lebih baik daripada cocok garis horizontal.
Harvey Motulsky
Maaf, saya tidak benar-benar mengikuti itu sebagai tanggapan. Dalam contoh saya, SS_m / SS_t> +1 - apakah Anda setuju? Dan modelnya cocok - lagi Anda setuju? Ini tampaknya bertentangan dengan pernyataan Anda, "R2 bisa lebih besar dari 1 hanya ketika ... model yang dipilih cocok dengan data yang sangat buruk".
Denziloe
@Denziloe Silakan kirim beberapa data aktual dan cocok, sehingga saya / kita dapat melihat apa yang Anda maksud.
Harvey Motulsky
4

Menurut definisi, R2=1SSe/SStdi mana kedua istilah SS adalah jumlah kuadrat dan dengan demikian tidak negatif. Maksimum dicapai padaSSe=0 yang menghasilkan R2=1.

AlexR
sumber
1
Ini tidak benar secara umum, dan hanya berlaku ketika varians model kurang dari varians kesalahan. Sebagai contoh, ambil regresi linier tanpa koefisien intersep.
Alex R.
@AlexR. Lihat Jawaban Harveys (jauh lebih baik daripada milik saya) - ini hanya berlaku jika Anda menggunakan definisi lain dariR2.
AlexR