Melaporkan hasil regresi linier sederhana: informasi apa yang harus dimasukkan?

11

Saya baru saja melakukan beberapa regresi linier sederhana (sangat) di Genstat dan ingin menyertakan ringkasan keluaran yang ringkas dan bermakna dalam laporan saya. Saya tidak yakin persis apa atau berapa banyak informasi yang harus saya sertakan.

Bit utama dari output Genstat saya terlihat seperti ini:

Summary of analysis 
Source      d.f.    s.s.       m.s.       v.r.    F pr.
Regression    1   8128935.   8128935.    814.41   <.001
Residual     53    529015.      9981.        
Total        54   8657950.    160332.        

Percentage variance accounted for 93.8
Standard error of observations is estimated to be 99.9.

Estimates of parameters 
Parameter    estimate    s.e.     t(53)   t pr.
Constant      41.5      30.7       1.35   0.182
UKHR_Ref       0.8659    0.0303   28.54   <.001

Saya bermaksud melaporkan ini hanya sebagai:

Adjusted R2 = 0.94 (slope = 0.87, p < 0.001; intercept not significantly different from 0).

tetapi seorang kolega telah menyarankan bahwa saya juga harus memasukkan setidaknya root mean squared error(yang saya percaya dalam kasus ini sama dengan kesalahan standar pengamatan yaitu 99,9?).

Apakah termasuk RMSE memberikan informasi berguna tambahan, atau apakah goodness of fit sudah cukup dijelaskan oleh nilai adjusted-R2?

Apakah ada aturan yang keras dan cepat untuk berapa banyak informasi yang harus dilaporkan, atau apakah itu cukup subjektif?

Terima kasih banyak!

JamesS
sumber
1
"Apakah ada aturan keras dan cepat untuk berapa banyak informasi yang harus dilaporkan" - itu benar-benar tergantung pada apa yang ingin Anda lakukan setelah regresi. Orang mungkin senang hanya dengan koefisien korelasi; satu mungkin memerlukan nilai Durbin-Watson di atas itu, dan yang lain mungkin ingin melihat diagonal dari matriks topi ... itu benar-benar tergantung.
JM bukan ahli statistik
2
Beberapa organisasi memang memiliki aturan. Lihat pedoman APA misalnya.
whuber

Jawaban:

6

Untuk regresi linier sederhana, saya akan selalu menghasilkan plot variabel x terhadap variabel y, dengan garis regresi super-dipaksakan pada plot (selalu plot data Anda kapan pun memungkinkan!). Ini akan memberi tahu Anda dengan mudah seberapa cocok model Anda, dan mudah dibaca untuk 1 regresi variabel. Menambahkan itu ke apa yang sudah Anda miliki mungkin sudah cukup, meskipun Anda mungkin ingin memasukkan beberapa plot diagnostik (leverage, jarak memasak, residu, dll.). Itu tergantung pada seberapa baik plot xy itu, dan pada audiens yang Anda tuju, dan protokol apa pun yang diharapkan audiens Anda.

R2 vs RMSE

± ± 2 R 2R2 adalah ukuran relatif, sedangkan RMSE lebih merupakan ukuran absolut, seperti yang Anda harapkan sebagian besar pengamatan berada dalam RMSE dari garis pas, dan hampir semua berada dalam RMSE. Jika Anda ingin menyampaikan "kekuatan jelas" mungkin lebih baik, dan jika Anda ingin menyampaikan "kekuatan prediktif", RMSE mungkin lebih baik.±±2R2

probabilityislogic
sumber
Terima kasih @probabilityislogic. Saya telah memasukkan plot dalam laporan saya, dan itu terdengar seperti ditambah kalimat asli saya harus cukup dalam kasus ini. Saya pikir memasukkan plot diagnostik mungkin tidak diperlukan untuk pemirsa ini, meskipun saya sudah memeriksanya sendiri dan terlihat masuk akal. Terima kasih juga untuk penjelasan R2 vs RMSE - ini sangat membantu.
JamesS
Bagaimana dengan nilai-t dan df? Kapan ini harus dimasukkan? Apakah masuk akal untuk memasukkan keduanya atau tidak?
gila tentang natty
1

Saya gunakan untuk melaporkan koefisien β ditambah CI 95%, nilai p dan Rsquared yang disesuaikan. Ex:

(β = 1,46, 95% CI [1,19, 1,8], p = 0,001 **, R2 yang disesuaikan = 0,48)

Jika melaporkan regresi berganda atau regresi dengan variabel faktor, saya melaporkan koefisien, CI 95%, nilai p dan kemudian secara terpisah statistik F (derajat kebebasan), R2 yang disesuaikan dan nilai p dari model.

Bakaburg
sumber