Kapan menggunakan regresi non-parametrik?

9

Saya menggunakan PROC GLM di SAS agar sesuai dengan persamaan regresi dari bentuk berikut

Y=b0+b1X1+b2X2+b3X3+b4t

Plot QQ dari redsidual yang dihasilkan menunjukkan penyimpangan dari normalitas. Setiap transformasi tidak berguna dalam membuat residu menjadi normal.Y

Pada titik ini, dapatkah saya beralih dengan aman ke metode non-parametrik seperti PROC LOESS.

Saya sudah menggunakan PROC LOESS, dan cocok terlihat lebih baik daripada PROC GLM. Tetapi saya tidak memiliki banyak pengetahuan dalam regresi non-parametrik. Saya tidak tahu kapan harus memilih regresi non-parametrik daripada regresi parametrik.

Adakah yang bisa membantu saya dengan ini?

Saya akan melanjutkan dan menambahkan pertanyaan lain. Berikut ini adalah deskripsi variabel saya dalam model. Kadang-kadang saya mendapat perkiraan biaya negatif. Ini tidak masuk akal. Bagaimana saya bisa mengatasi masalah ini?

Y=cost of medical careX1=number of injectionsX2=number of surgeriesX3=number of physical therapiest=time
ann
sumber
2
Tentu saja Anda dapat menghindari memprediksi biaya negatif dengan memodelkan lognya:log(Y)=b0+b1X1+b2X2+b3X3+b4t
Dirk Horsten

Jawaban:

10

Sebelum melihat QQplot residual, Anda harus menilai kualitas kecocokan, dengan memplot residual terhadap prediktor dalam model (dan mungkin, juga terhadap variabel lain yang Anda miliki yang tidak Anda gunakan). Non-linearitas akan muncul di plot ini. Jika efek variabel benar-benar linier, Anda mengharapkan plot residual terhadap menjadi "horizontal", tanpa struktur yang terlihat:xxx

                                                                   *
*                 *
      *                               *
        *   
                                                  *
--------------------------------------*------------------------------x
   *     
           *

                                     *
       *                                                    *
                                *

Artinya, "gumpalan" horizontal acak dari titik-titik, berpusat di sekitar garis residu = 0.

Jika efeknya non-linear, Anda berharap akan melihat beberapa kelengkungan di plot ini. (dan, tolong, abaikan plot QQ sampai Anda menyelesaikan non-linearitas, menggunakan plot seperti di atas!)

Anda juga harus memikirkan kemungkinan interaksi (dimodelkan biasanya berdasarkan istilah produk), yaitu efek dari satu variabel tergantung pada level variabel lainnya, (Jika ketiga variabel Anda memiliki nilai tinggi pada saat yang sama, mungkin itu menunjukkan beberapa hal yang sangat sulit). bersabar? Jika demikian, interaksi dapat diperlukan).

Jika Anda menggunakan beberapa model non-linear, setelah mencoba interaksi dan transformasi (apakah Anda mencoba log(Cost)?) Apakah Anda mencoba beberapa transformasi box-cox? Karena Anda memiliki beberapa regresi, saya tidak berpikir itu loessyang Anda butuhkan, Anda harus mencari gam(model aditif umum, SAS seharusnya memilikinya, dalam R itu dalam paket mgcv).

kjetil b halvorsen
sumber
1
Terimakasih atas informasi berharganya. Saya memang mencoba log (biaya) dengan regresi linier, tetapi tidak banyak membantu. Saya akan menambahkan efek interaksi dan mengamati apa yang terjadi. Saya juga akan bereksperimen dengan transformasi lagi. Saya akan membuat semua orang diposting dengan perkembangan dan temuan saya.
ann
6

Sebuah LOESS akan selalu memberikan kecocokan yang lebih baik daripada regresi, kecuali jika data benar-benar berada di sepanjang garis lurus. LOESS adalah pendekatan linier lokal yang dirancang untuk mendekati data. Metode-metode ini pada dasarnya bersifat eksplorasi. Dan meskipun berbahaya untuk memperkirakan model linier di luar batas kecocokan, ekstrapolasi akan menjadi gegabah dalam kasus LOESS.

Jika model Anda memberi Anda biaya negatif, itu pertanda cukup baik bahwa regresi linier tidak sesuai pada variabel yang Anda miliki. Anda mengatakan bahwa Anda mencoba transformasi. Apakah Anda mengambil log biaya terhadap prediktor Anda?

Dalam sifat hal-hal, tidak mungkin ada hubungan sederhana antara biaya dan variabel yang Anda sebutkan. Kadang-kadang tujuan dari regresi linier hanyalah untuk menunjukkan bahwa ada semacam korelasi, dan mungkin untuk memilih serangkaian prediktor yang masuk akal.

Placidia
sumber
1
Sangat masuk akal ketika Anda menyebutkan bahwa biaya negatif menunjukkan bahwa regresi linier mungkin tidak sesuai. Saya akan melanjutkan analisis saya dan menambahkan beberapa interaksi. Terima kasih.
ann
3

Bravo untuk melakukan analisis residu. Menempatkan Anda jauh di depan analis biasa. (Deskripsi Anda tentang model kurang dalam tidak menggambarkan struktur kesalahan, meskipun.) Anda harus mempertimbangkan transformasi dari X serta melihat transformasi dari Y. Saya menyadari bahwa SAS berada di belakang R dalam pemodelan dengan spline cocok tetapi saya mengerti bahwa versi terbaru telah menawarkan kapasitas itu. Pertimbangkan untuk menambahkan spline kubik terbatas yang cocok untuk persyaratan X. Sebagai referensi teks Frank Harrell "Strategi Pemodelan Regresi" sulit dikalahkan. Ini memiliki argumen statistik yang kuat untuk pendekatan ini. Ini adalah pendekatan parametrik yang memungkinkan penemuan struktur dalam data yang akan dilewatkan.

DWIN
sumber
YX
log(Y)=b0+b1log(X1)+b2log(X2)X1X2
Dirk Horsten
Komentar Anda tampaknya agak tangensial terhadap tanggapan saya (dan untuk pertanyaan karena partisi injeksi dengan lengan tidak pernah disebutkan) Saya harap Anda tidak berpikir bahwa fungsi spline setara dengan transformasi log. Transformasi log Y menciptakan model di mana model itu multiplikatif dalam prediktor ketika diubah kembali ke skala biaya. Itu adalah perubahan yang cukup besar dan masalah yang belum Anda uraikan secara memadai kepada si penanya.
DWin
2

Saya pikir kjetil telah memberi Anda beberapa saran bagus. Saya akan menambahkan bahwa residu non-normal tidak berarti Anda harus beralih dari regresi linier atau nonlinier ke regresi nonparametrik. Dengan pergi ke regresi nonparametrik Anda menyerah struktur bentuk fungsional. Ada alternatif regresi kuat untuk regresi OLS yang bisa Anda masuki terlebih dahulu. Kemudian model linier umum dan model aditif umum jika langkah selanjutnya diperlukan. LOESS menurut saya menjadi pilihan terakhir Anda. Saya pikir saya setuju dengan kjetil tentang itu.

Michael R. Chernick
sumber