Saya telah menjalankan regresi linear sederhana log natural dari 2 variabel untuk menentukan apakah mereka berkorelasi. Output saya adalah ini:
R^2 = 0.0893
slope = 0.851
p < 0.001
Saya bingung. Melihat nilai , saya akan mengatakan bahwa dua variabel tidak berkorelasi, karena sangat dekat dengan . Namun, kemiringan garis regresi hampir (meskipun tampak seolah-olah hampir horisontal dalam plot), dan nilai-p menunjukkan bahwa regresi sangat signifikan.
Apakah ini berarti bahwa kedua variabel tersebut sangat berkorelasi? Jika demikian, apa fungsinyaditunjukkan oleh nilai R 2 ?
Saya harus menambahkan bahwa statistik Durbin-Watson diuji dalam perangkat lunak saya, dan tidak menolak hipotesis nol (sama dengan ). Saya pikir ini menguji independensi antara variabel. Dalam hal ini, saya berharap variabel menjadi tergantung, karena mereka adalah pengukuran seekor burung. Saya melakukan regresi ini sebagai bagian dari metode yang diterbitkan untuk menentukan kondisi tubuh seseorang, jadi saya berasumsi bahwa menggunakan regresi dengan cara ini masuk akal. Namun, mengingat hasil ini, saya berpikir bahwa mungkin untuk burung-burung ini, metode ini tidak cocok. Apakah ini tampaknya kesimpulan yang masuk akal?
Jawaban:
Nilai perkiraan lereng tidak dengan sendirinya memberi tahu Anda kekuatan hubungan. Kekuatan hubungan tergantung pada ukuran varians kesalahan, dan rentang prediktor. Juga, nilai- signifikan tidak memberi tahu Anda bahwa ada hubungan yang kuat; nilai p hanya menguji apakah kemiringan tepat 0. Untuk ukuran sampel yang cukup besar, bahkan keberangkatan kecil dari hipotesis itu (misalnya yang tidak penting secara praktis) akan menghasilkan nilai p yang signifikan .p p p
Dari tiga jumlah yang Anda sajikan, , koefisien determinasi , memberikan indikasi terbesar dari kekuatan hubungan. Dalam kasus Anda, R 2 = 0,089 , berarti bahwa 8,9 % variasi dalam variabel respons Anda dapat dijelaskan hubungan linier dengan prediktor. Apa yang merupakan "besar" R 2 tergantung disiplin. Misalnya, dalam ilmu sosial R 2 = .2 mungkin "besar" tetapi dalam lingkungan yang terkendali seperti pengaturan pabrik, R 2 > .9R2 R2=.089 8.9% R2 R2=.2 R2>.9 mungkin diminta untuk mengatakan ada hubungan "kuat". Dalam sebagian besar situasi, adalah R 2 yang sangat kecil , jadi kesimpulan Anda bahwa ada hubungan linier yang lemah mungkin masuk akal..089 R2
sumber
The memberitahu Anda berapa banyak variasi dari variabel dependen dijelaskan oleh model. Namun, salah satu dapat menafsirkan R 2 serta korelasi antara nilai-nilai asli dari variabel dependen dan nilai-nilai dipasang. Penafsiran yang tepat dan derivasi dari koefisien determinasi R 2 dapat ditemukan disiniR2 R2 R2 .
Bukti bahwa koefisien determinasi adalah setara dengan Koefisien Korelasi Squared Pearson antara nilai-nilai yang diamati dan nilai-nilai pas y saya dapat ditemukan di siniyi y^i .
The atau koefisien determinasi menunjukkan kekuatan model Anda di menjelaskan variabel dependen. Dalam kasus Anda, R 2 = 0,089 . Ini bahwa model Anda dapat menjelaskan 8,9% variasi variabel dependen Anda. Atau, koefisien korelasi antara Anda y i dan nilai-nilai pas Anda y i adalah 0,089. Apa yang merupakan R 2 yang baikR2 R2=0.089 yi y^i R2 yang baik tergantung pada disiplin.
Akhirnya, ke bagian terakhir dari pertanyaan Anda. Anda tidak bisa mendapatkan tes Durbin-Watson untuk mengatakan sesuatu tentang korelasi antara Anda variabel dependen dan independen. Tes Durbin-Watson menguji korelasi serial. Ini dilakukan untuk memeriksa apakah istilah kesalahan Anda saling terkait.
sumber
Nilai memberi tahu Anda berapa banyak variasi dalam data yang dijelaskan oleh model pas.R2
Nilai rendah dalam penelitian Anda menunjukkan bahwa data Anda mungkin tersebar luas di sekitar garis regresi, yang berarti bahwa model regresi hanya dapat menjelaskan (sangat sedikit) 8,9% dari variasi dalam data.R2
Sudahkah Anda memeriksa untuk melihat apakah model linear sesuai? Lihatlah distribusi residu Anda, karena Anda dapat menggunakan ini untuk menilai kesesuaian model dengan data Anda. Idealnya, residu Anda tidak boleh menunjukkan hubungan dengan nilai Anda , dan jika ya, Anda mungkin ingin memikirkan untuk mengubah skala variabel Anda dengan cara yang sesuai, atau menyesuaikan model yang lebih tepat.x
sumber
Singkatnya, kemiringan bukan indikator yang baik untuk model 'fit' kecuali Anda yakin bahwa skala variabel dependen dan independen harus sama satu sama lain.
sumber
Saya suka jawaban yang sudah diberikan, tetapi izinkan saya melengkapi mereka dengan pendekatan yang berbeda (dan lebih banyak bicara).
Misalkan kita mengumpulkan banyak pengamatan dari 1000 orang acak yang berusaha mencari tahu apakah pukulan di wajah terkait dengan sakit kepala:
Secara grafis, ini mungkin terlihat seperti lereng curam tetapi dengan variasi yang sangat besar di sekitar lereng ini.
sumber
@ Macro punya jawaban yang bagus.
Saya hanya ingin menambahkan contoh numerik untuk menunjukkan seperti apa kasus OP yang dijelaskan.
Kemiringan dekat dengan1.0
sumber