Apakah menyesuaikan nilai-p dalam regresi berganda untuk beberapa perbandingan adalah ide yang bagus?

54

Mari kita asumsikan bahwa Anda adalah seorang peneliti ilmu sosial / ekonometrik yang mencoba menemukan prediktor yang relevan dari permintaan layanan. Anda memiliki 2 variabel hasil / dependen yang menggambarkan permintaan (menggunakan layanan ya / tidak, dan jumlah kesempatan). Anda memiliki 10 variabel prediktor / independen yang secara teoritis dapat menjelaskan permintaan (misalnya, usia, jenis kelamin, pendapatan, harga, ras, dll). Menjalankan dua regresi berganda yang terpisah akan menghasilkan 20 estimasi koefisien dan nilai-p mereka. Dengan variabel independen yang cukup dalam regresi Anda, cepat atau lambat Anda akan menemukan setidaknya satu variabel dengan korelasi yang signifikan secara statistik antara variabel dependen dan independen.

Pertanyaan saya: apakah ide yang baik untuk memperbaiki nilai-p untuk beberapa tes jika saya ingin memasukkan semua variabel independen dalam regresi? Referensi apa pun untuk pekerjaan sebelumnya sangat dihargai.

Mikael M
sumber
hmmm ... masalah yang menarik - regresi bivariat dengan satu variabel [semacam] kontinu dan satu dikotomis. Teori regresi MVN biasa mengatakan melakukan regresi terpisah pada masing-masing dari dua respon normal bivariat - dan kemudian mengumpulkan hasilnya bersama-sama - adalah analisis yang benar - dalam arti gauss-markov dalam meminimalkan matriks vc dari estimator regresi di antara semua estimator linier yang tidak bias - dan dalam kasus MVN, di antara semua penaksir yang tidak bias]. Apakah 'terpisah regresi' masih yang terbaik yang bisa dilakukan ketika satu regresi adalah logistik? [
ketidakberpihakan

Jawaban:

48

Tampaknya pertanyaan Anda lebih umum membahas masalah mengidentifikasi prediktor yang baik. Dalam hal ini, Anda harus mempertimbangkan untuk menggunakan semacam regresi yang dihukum (metode yang berhubungan dengan pemilihan variabel atau fitur juga relevan), dengan misalnya hukuman L1, L2 (atau kombinasi keduanya, yang disebut elasticnet ) (lihat pertanyaan terkait pada situs ini, atau paket R yang dikenakan sanksi dan elasticnet , antara lain).

Sekarang, tentang mengoreksi nilai-p untuk koefisien regresi Anda (atau ekuivalen koefisien korelasi parsial Anda) untuk melindungi terhadap optimisme berlebihan (misalnya dengan Bonferroni atau, lebih baik, metode step-down), sepertinya ini hanya akan relevan jika Anda mempertimbangkan satu model dan cari prediktor yang menyumbang sebagian besar varian yang dijelaskan, yaitu jika Anda tidak melakukan pemilihan model (dengan pemilihan bertahap, atau pengujian hierarkis). Artikel ini mungkin awal yang baik: Penyesuaian Bonferroni dalam Tes untuk Koefisien Koefisien . Ketahuilah bahwa koreksi semacam itu tidak akan melindungi Anda dari masalah multikolinieritas, yang memengaruhi nilai-p yang dilaporkan.

Mengingat data Anda, saya akan merekomendasikan menggunakan beberapa jenis teknik pemilihan model iteratif. Dalam R misalnya, stepAICfungsi memungkinkan untuk melakukan pemilihan model bertahap dengan AIC yang tepat. Anda juga dapat memperkirakan tingkat kepentingan relatif dari prediktor Anda berdasarkan kontribusi mereka pada menggunakan boostrap (lihat paket relaimpo ). Saya pikir melaporkan ukuran ukuran efek atau% dari varians yang dijelaskan lebih informatif daripada nilai-p, terutama dalam model konfirmasi.R2

Perlu dicatat bahwa pendekatan bertahap juga memiliki kelemahannya (misalnya, uji Wald tidak disesuaikan dengan hipotesis bersyarat seperti yang diinduksi oleh prosedur bertahap), atau seperti yang ditunjukkan oleh Frank Harrell pada email , "pemilihan variabel bertahap berdasarkan AIC memiliki semua masalah pemilihan variabel bertahap berdasarkan nilai-P. AIC hanyalah penyajian kembali Nilai-P "(tetapi AIC tetap berguna jika rangkaian prediktor sudah ditentukan); pertanyaan terkait - Apakah variabel signifikan dalam model regresi linier? - Mengangkat komentar menarik ( @Rob , antara lain) tentang penggunaan AIC untuk pemilihan variabel. Saya menambahkan beberapa referensi di bagian akhir (termasuk makalah yang disediakan oleh @Stephan); ada juga banyak referensi lain tentang P.Mean .

Frank Harrell menulis buku tentang Strategi Pemodelan Regresi yang mencakup banyak diskusi dan saran tentang masalah ini (§4.3, hal. 56-60). Ia juga mengembangkan rutin R yang efisien untuk menangani model linier umum (Lihat paket Desain atau rms ). Jadi, saya pikir Anda harus melihatnya ( handout -nya tersedia di beranda).

Referensi

  1. Whittingham, MJ, Stephens, P, Bradbury, RB, dan Freckleton, RP (2006). Mengapa kita masih menggunakan pemodelan bertahap dalam ekologi dan perilaku? Jurnal Ekologi Hewan , 75 , 1182-1189.
  2. Austin, PC (2008). Pemilihan model Bootstrap memiliki kinerja yang sama untuk memilih variabel asli dan kebisingan dibandingkan dengan penghapusan variabel mundur: studi simulasi . Jurnal Epidemiologi Klinik , 61 (10) , 1009-1017.
  3. Austin, PC dan Tu, JV (2004). Metode pemilihan variabel otomatis untuk regresi logistik menghasilkan model yang tidak stabil untuk memprediksi mortalitas infark miokard akut . Jurnal Epidemiologi Klinik , 57 , 1138-1146.
  4. Greenland, S (1994). Regresi hierarkis untuk analisis epidemiologi dari berbagai pajanan . Perspektif Kesehatan Lingkungan , 102 (Suppl 8) , 33–39.
  5. Greenland, S (2008). Berbagai perbandingan dan pemilihan asosiasi dalam epidemiologi umum . International Journal of Epidemiology , 37 (3) , 430-434.
  6. Beyene, J, Atenafu, EG, Hamid, JS, To, T, dan Sung L (2009). Menentukan kepentingan relatif variabel dalam mengembangkan dan memvalidasi model prediksi . Metodologi Penelitian Medis BMC , 9 , 64.
  7. Bursac, Z, Gauss, CH, Williams, DK, dan Hosmer, DW (2008). Pemilihan variabel secara sengaja dalam regresi logistik . Kode Sumber untuk Biologi dan Kedokteran , 3 , 17.
  8. Brombin, C, Finos, L, dan Salmaso, L (2007). Menyesuaikan nilai p bertahap dalam model linier umum . Konferensi Internasional tentang Berbagai Prosedur Perbandingan . - lihat step.adj()di paket R someMTP .
  9. Wiegand, RE (2010). Kinerja menggunakan beberapa algoritma bertahap untuk pemilihan variabel . Statistik dalam Kedokteran , 29 (15), 1647–1659.
  10. Moons KG, Donders AR, Steyerberg EW, dan Harrell FE (2004). Estimasi Kemungkinan Maksimum yang Dihukum untuk memprediksi hasil biner. Jurnal Epidemiologi Klinik , 57 (12) , 1262-1270.
  11. Tibshirani, R (1996). Penyusutan regresi dan seleksi melalui laso . Jurnal The Royal Statistics Society B , 58 (1) , 267–288.
  12. Efron, B, Hastie, T, Johnstone, I, dan Tibshirani, R (2004). Regresi Sudut Paling Rendah . Annals of Statistics , 32 (2) , 407-499.
  13. Flom, PL dan Cassell, DL (2007). Menghentikan Stepwise: Mengapa stepwise dan metode seleksi serupa itu buruk, dan apa yang harus Anda gunakan . Prosiding NESUG 2007 .
  14. Shtatland, ES, Cain, E., dan Barton, MB (2001). Bahaya regresi logistik bertahap dan cara menghindarinya menggunakan kriteria informasi dan Sistem Pengiriman Keluaran . SUGI 26 Prosiding (hlm. 222–226).
chl
sumber
10
Saya tidak keberatan downvote, tetapi komentar akan dihargai (sehingga saya bisa belajar sendiri, memahami apa yang salah, dan meningkatkan tanggapan masa depan saya).
chl
3
+1, jawaban yang bagus dan juga komentar chl tentang meninggalkan penjelasan untuk downvotes untuk membantu penulis dan pembaca memahami apa yang kurang. Terima kasih.
ars
Saya merekomendasikan chl kedua untuk menggunakan semacam regresi dihukum (misalnya, Lasso).
S. Kolassa - Reinstate Monica
10
@ chl: Saya tidak senang dengan merekomendasikan pemilihan prediktor bertahap. Biasanya, ini didasarkan pada nilai-p ("mengecualikan prediktor dengan p> .15, termasuk jika p <.05") dan mengarah pada estimasi bias dan kinerja prediksi buruk (Whittingham et al., 2006, Mengapa kita masih gunakan pemodelan bertahap dalam ekologi dan perilaku? J Anim Ecol, 75, 1182-1189). Namun, pendekatan bertahap berbasis AIC memiliki kelemahan yang sama - Frank Harrell membahas hal ini dalam pos ke R-help on Mon, 09 Agu 2010 16:34:19 -0500 (CDT) pada utas "Regresi Logistik dalam R (SAS - seperti keluaran) ".
S. Kolassa - Reinstate Monica
Apakah ada cara untuk memasukkan tautan dalam komentar?
S. Kolassa - Reinstate Monica
25

Untuk tingkat yang besar Anda dapat melakukan apa pun yang Anda suka asalkan Anda menyimpan cukup data secara acak untuk menguji model apa pun yang Anda buat berdasarkan pada data yang disimpan. Pemisahan 50% bisa menjadi ide yang bagus. Ya, Anda kehilangan beberapa kemampuan untuk mendeteksi hubungan, tetapi apa yang Anda peroleh sangat besar; yaitu, kemampuan untuk mereplikasi pekerjaan Anda sebelum dipublikasikan. Tidak peduli seberapa canggih teknik statistik yang Anda bawa, Anda akan terkejut melihat berapa banyak "signifikan" prediktor akhirnya menjadi sama sekali tidak berguna ketika diterapkan pada data konfirmasi.

Ingatlah juga bahwa "relevan" untuk prediksi berarti lebih dari nilai p yang rendah. Lagipula, itu hanya berarti kemungkinan hubungan yang ditemukan dalam dataset khusus ini bukan karena kebetulan. Untuk prediksi, sebenarnya lebih penting untuk menemukan variabel yang memberikan pengaruh besar pada prediksi dan (tanpa model yang terlalu pas); yaitu, untuk menemukan variabel yang cenderung "nyata" dan, ketika bervariasi di seluruh rentang nilai yang wajar (bukan hanya nilai-nilai yang mungkin terjadi dalam sampel Anda!), menyebabkan prediksi dan sangat bervariasi. Saat Anda memiliki data penahan untuk mengonfirmasi model, Anda bisa lebih nyaman mempertahankan variabel "signifikan" yang mungkin tidak memiliki nilai p yang rendah.

Untuk alasan ini (dan membangun jawaban chl), meskipun saya telah menemukan model bertahap, perbandingan AIC, dan koreksi Bonferroni cukup berguna (terutama dengan ratusan atau ribuan kemungkinan prediktor dalam permainan), ini tidak boleh menjadi penentu tunggal variabel mana masukkan model Anda. Jangan lupa petunjuk yang diberikan oleh teori, baik: variabel yang memiliki justifikasi teoritis yang kuat untuk menjadi model biasanya harus disimpan, bahkan ketika mereka tidak signifikan, asalkan mereka tidak membuat persamaan yang dikondisikan dengan buruk ( misalnya, collinearity) .

NB : Setelah Anda menentukan model dan mengkonfirmasi kegunaannya dengan data hold-out, tidak apa-apa untuk menggabungkan kembali data yang disimpan dengan data hold-out untuk estimasi akhir. Dengan demikian, tidak ada yang hilang dalam hal presisi yang dengannya Anda dapat memperkirakan koefisien model.

whuber
sumber
Terima kasih! Jika Anda tidak memiliki akses ke data asli tetapi hanya tabel koefisien regresi, apakah penyesuaian Bonferroni satu-satunya pilihan Anda?
Mikael M
4
Agaknya Anda juga memiliki nilai-p :-). Tetapi hanya dengan itu dan koefisien, sulit untuk membayangkan apa lagi yang mungkin Anda lakukan selain penyesuaian Bonferroni. (Saya selalu melakukan penyesuaian seperti itu setiap kali membaca makalah dengan beberapa tes: ini adalah cara cepat untuk menolak hasil yang cenderung menjadi sampah.) Kebanyakan orang juga menyediakan statistik ringkasan untuk variabel: Anda dapat menggunakan rentang atau sds bersama dengan koefisien untuk memperkirakan seberapa besar pengaruh masing-masing variabel penjelas mungkin terhadap prediksi dan.
whuber
Terima kasih atas penjelasan Anda, khususnya. pada validasi silang. Saya menghargai argumen terakhir Anda, yaitu bahwa kita juga harus mencari relevansi teoretis (di luar nilai-p).
chl
19

Saya pikir ini adalah pertanyaan yang sangat bagus; itu sampai ke jantung "pengujian" beberapa masalah kontroversial yang mengganggu bidang mulai dari epidemiologi ke ekonometrik. Lagi pula, bagaimana kita bisa tahu apakah makna yang kita temukan itu palsu atau tidak? Seberapa benar model multivariabel kami?

Dalam hal pendekatan teknis untuk mengimbangi kemungkinan penerbitan variabel kebisingan, saya sepenuh hati setuju dengan 'whuber' yang menggunakan bagian dari sampel Anda sebagai data pelatihan dan sisanya sebagai data uji adalah ide yang bagus. Ini adalah pendekatan yang dibahas dalam literatur teknis, jadi jika Anda meluangkan waktu, Anda mungkin dapat menemukan beberapa panduan yang baik untuk kapan dan bagaimana menggunakannya.

Tetapi untuk lebih memahami filosofi pengujian berganda, saya sarankan Anda membaca artikel yang saya rujuk di bawah ini, beberapa di antaranya mendukung posisi bahwa penyesuaian untuk beberapa pengujian sering kali berbahaya (biaya daya), tidak perlu, dan bahkan mungkin merupakan kesalahan logis . I untuk satu tidak secara otomatis menerima klaim bahwa kemampuan kita untuk menyelidiki satu prediktor potensial berkurang dengan penyelidikan yang lain. Tingkat kesalahan Tipe 1 yang bijaksana keluarga dapat meningkat karena kami menyertakan lebih banyak prediktor dalam model yang diberikan, tetapi selama kami tidak melampaui batas ukuran sampel kami, probabilitas kesalahan Tipe 1 untuk setiap individuprediktor konstan; dan mengendalikan kesalahan keluarga tidak menjelaskan variabel spesifik mana yang berisik dan mana yang tidak. Tentu saja, ada juga kontra-argumen yang meyakinkan.

Jadi, selama Anda membatasi daftar variabel potensial Anda ke variabel yang masuk akal (yaitu, akan mengetahui jalur menuju hasilnya) maka risiko keburukan sudah ditangani dengan cukup baik.

Namun, saya ingin menambahkan bahwa model prediktif tidak terlalu peduli dengan "nilai kebenaran" dari prediktornya sebagai model kausal ; mungkin ada banyak perancu dalam model, tetapi selama kita menjelaskan sebagian besar varian maka kita tidak terlalu khawatir. Ini membuat pekerjaan lebih mudah, setidaknya dalam satu hal.

Tepuk tangan,

Brenden, Konsultan Biostatistik

PS: Anda mungkin ingin melakukan regresi Poisson nol-meningkat untuk data yang Anda gambarkan, bukan dua regresi terpisah.

  1. Perneger, TV. Apa yang salah dengan penyesuaian Bonferroni . BMJ 1998; 316: 1236
  2. Cook, RJ & Perpisahan, VT Pertimbangan multiplisitas dalam desain dan analisis uji klinis . Jurnal Masyarakat Statistik Kerajaan , Seri A 1996; Vol. 159, No. 1: 93-110
  3. Rothman, KJ Tidak diperlukan penyesuaian untuk beberapa perbandingan . Epidemiologi 1990; Vol. 1, No. 1: 43-46
  4. Marshall, JR pengerukan Data dan noteworthiness . Epidemiologi 1990; Vol. 1, No. 1: 5-7
  5. Greenland, S. & Robins, JM penyesuaian Empiris-Bayes untuk beberapa perbandingan kadang-kadang berguna . Epidemiologi 1991; Vol. 2, No. 4: 244-251
Brenden
sumber
Lanjutan: 2. Memasak pertimbangan perpisahan RJ dan perpisahan VT dalam desain dan analisis uji klinis. Jurnal Masyarakat Statistik Kerajaan, Seri A 1996; Vol. 159, No. 1: 93-110
Brenden
Terima kasih atas komentar Anda, Brenden, terutama yang terakhir tentang prediksi vs penjelasan kausal. Dan selamat datang di situs ini! Saya berharap dapat melihat lebih banyak lagi kontribusi Anda di masa depan.
whuber
Lanjutan: 3. Rothman KJ Tidak diperlukan penyesuaian untuk beberapa perbandingan. Epidemiologi 1990; Vol. 1, No. 1: 43-46 4. Pengerukan dan pemberitahuan data Marshall JR. Epidemiologi 1990; Vol. 1, No. 1: 5-7 5. Greenland S. dan Robins JM Empirical-Bayes penyesuaian untuk beberapa perbandingan kadang berguna. Epidemiologi 1991; Vol. 2, No. 4: 244-251
Brenden
(+1) Anda mungkin tertarik pada utas berikut: stats.stackexchange.com/questions/3252/… . Tampaknya kami memiliki banyak tautan yang sama :-)
chl
6

Ada jawaban yang bagus di sini. Biarkan saya menambahkan beberapa poin kecil yang saya tidak lihat dibahas di tempat lain.

Pertama, apa sifat dari variabel respons Anda? Lebih khusus lagi, apakah mereka dipahami sebagai terkait satu sama lain? Anda hanya harus melakukan dua regresi berganda yang terpisah jika mereka dianggap independen (secara teoritis) / jika residu dari dua model independen (secara empiris). Jika tidak, Anda harus mempertimbangkan regresi multivariat. ('Multivarian' berarti> 1 variabel respons; 'beberapa' berarti> 1 variabel prediktor.)

F

gung - Reinstate Monica
sumber
0

Anda dapat melakukan regresi yang tampaknya tidak berhubungan dan menggunakan uji F. Masukkan data Anda dalam bentuk seperti ini:

Out1 1 P11 P12 0  0   0
Out2 0 0   0   1  P21 P22

sehingga prediktor untuk hasil pertama Anda memiliki nilai ketika hasil itu adalah variabel y dan 0 sebaliknya dan sebaliknya. Jadi, y Anda adalah daftar dari kedua hasil. P11 dan P12 adalah dua prediktor untuk hasil pertama dan P21 dan P22 adalah dua prediktor untuk hasil kedua. Jika seks, katakanlah, merupakan prediktor untuk kedua hasil, penggunaannya untuk memprediksi hasil 1 harus dalam variabel / kolom terpisah ketika memprediksi hasil 2. Ini memungkinkan regresi Anda memiliki kemiringan / dampak berbeda untuk seks untuk setiap hasil.

Dalam kerangka kerja ini, Anda dapat menggunakan prosedur pengujian F standar.

Charlie
sumber