Mari kita asumsikan bahwa Anda adalah seorang peneliti ilmu sosial / ekonometrik yang mencoba menemukan prediktor yang relevan dari permintaan layanan. Anda memiliki 2 variabel hasil / dependen yang menggambarkan permintaan (menggunakan layanan ya / tidak, dan jumlah kesempatan). Anda memiliki 10 variabel prediktor / independen yang secara teoritis dapat menjelaskan permintaan (misalnya, usia, jenis kelamin, pendapatan, harga, ras, dll). Menjalankan dua regresi berganda yang terpisah akan menghasilkan 20 estimasi koefisien dan nilai-p mereka. Dengan variabel independen yang cukup dalam regresi Anda, cepat atau lambat Anda akan menemukan setidaknya satu variabel dengan korelasi yang signifikan secara statistik antara variabel dependen dan independen.
Pertanyaan saya: apakah ide yang baik untuk memperbaiki nilai-p untuk beberapa tes jika saya ingin memasukkan semua variabel independen dalam regresi? Referensi apa pun untuk pekerjaan sebelumnya sangat dihargai.
sumber
Jawaban:
Tampaknya pertanyaan Anda lebih umum membahas masalah mengidentifikasi prediktor yang baik. Dalam hal ini, Anda harus mempertimbangkan untuk menggunakan semacam regresi yang dihukum (metode yang berhubungan dengan pemilihan variabel atau fitur juga relevan), dengan misalnya hukuman L1, L2 (atau kombinasi keduanya, yang disebut elasticnet ) (lihat pertanyaan terkait pada situs ini, atau paket R yang dikenakan sanksi dan elasticnet , antara lain).
Sekarang, tentang mengoreksi nilai-p untuk koefisien regresi Anda (atau ekuivalen koefisien korelasi parsial Anda) untuk melindungi terhadap optimisme berlebihan (misalnya dengan Bonferroni atau, lebih baik, metode step-down), sepertinya ini hanya akan relevan jika Anda mempertimbangkan satu model dan cari prediktor yang menyumbang sebagian besar varian yang dijelaskan, yaitu jika Anda tidak melakukan pemilihan model (dengan pemilihan bertahap, atau pengujian hierarkis). Artikel ini mungkin awal yang baik: Penyesuaian Bonferroni dalam Tes untuk Koefisien Koefisien . Ketahuilah bahwa koreksi semacam itu tidak akan melindungi Anda dari masalah multikolinieritas, yang memengaruhi nilai-p yang dilaporkan.
Mengingat data Anda, saya akan merekomendasikan menggunakan beberapa jenis teknik pemilihan model iteratif. Dalam R misalnya,R2
stepAIC
fungsi memungkinkan untuk melakukan pemilihan model bertahap dengan AIC yang tepat. Anda juga dapat memperkirakan tingkat kepentingan relatif dari prediktor Anda berdasarkan kontribusi mereka pada menggunakan boostrap (lihat paket relaimpo ). Saya pikir melaporkan ukuran ukuran efek atau% dari varians yang dijelaskan lebih informatif daripada nilai-p, terutama dalam model konfirmasi.Perlu dicatat bahwa pendekatan bertahap juga memiliki kelemahannya (misalnya, uji Wald tidak disesuaikan dengan hipotesis bersyarat seperti yang diinduksi oleh prosedur bertahap), atau seperti yang ditunjukkan oleh Frank Harrell pada email , "pemilihan variabel bertahap berdasarkan AIC memiliki semua masalah pemilihan variabel bertahap berdasarkan nilai-P. AIC hanyalah penyajian kembali Nilai-P "(tetapi AIC tetap berguna jika rangkaian prediktor sudah ditentukan); pertanyaan terkait - Apakah variabel signifikan dalam model regresi linier? - Mengangkat komentar menarik ( @Rob , antara lain) tentang penggunaan AIC untuk pemilihan variabel. Saya menambahkan beberapa referensi di bagian akhir (termasuk makalah yang disediakan oleh @Stephan); ada juga banyak referensi lain tentang P.Mean .
Frank Harrell menulis buku tentang Strategi Pemodelan Regresi yang mencakup banyak diskusi dan saran tentang masalah ini (§4.3, hal. 56-60). Ia juga mengembangkan rutin R yang efisien untuk menangani model linier umum (Lihat paket Desain atau rms ). Jadi, saya pikir Anda harus melihatnya ( handout -nya tersedia di beranda).
Referensi
step.adj()
di paket R someMTP .sumber
Untuk tingkat yang besar Anda dapat melakukan apa pun yang Anda suka asalkan Anda menyimpan cukup data secara acak untuk menguji model apa pun yang Anda buat berdasarkan pada data yang disimpan. Pemisahan 50% bisa menjadi ide yang bagus. Ya, Anda kehilangan beberapa kemampuan untuk mendeteksi hubungan, tetapi apa yang Anda peroleh sangat besar; yaitu, kemampuan untuk mereplikasi pekerjaan Anda sebelum dipublikasikan. Tidak peduli seberapa canggih teknik statistik yang Anda bawa, Anda akan terkejut melihat berapa banyak "signifikan" prediktor akhirnya menjadi sama sekali tidak berguna ketika diterapkan pada data konfirmasi.
Ingatlah juga bahwa "relevan" untuk prediksi berarti lebih dari nilai p yang rendah. Lagipula, itu hanya berarti kemungkinan hubungan yang ditemukan dalam dataset khusus ini bukan karena kebetulan. Untuk prediksi, sebenarnya lebih penting untuk menemukan variabel yang memberikan pengaruh besar pada prediksi dan (tanpa model yang terlalu pas); yaitu, untuk menemukan variabel yang cenderung "nyata" dan, ketika bervariasi di seluruh rentang nilai yang wajar (bukan hanya nilai-nilai yang mungkin terjadi dalam sampel Anda!), menyebabkan prediksi dan sangat bervariasi. Saat Anda memiliki data penahan untuk mengonfirmasi model, Anda bisa lebih nyaman mempertahankan variabel "signifikan" yang mungkin tidak memiliki nilai p yang rendah.
Untuk alasan ini (dan membangun jawaban chl), meskipun saya telah menemukan model bertahap, perbandingan AIC, dan koreksi Bonferroni cukup berguna (terutama dengan ratusan atau ribuan kemungkinan prediktor dalam permainan), ini tidak boleh menjadi penentu tunggal variabel mana masukkan model Anda. Jangan lupa petunjuk yang diberikan oleh teori, baik: variabel yang memiliki justifikasi teoritis yang kuat untuk menjadi model biasanya harus disimpan, bahkan ketika mereka tidak signifikan, asalkan mereka tidak membuat persamaan yang dikondisikan dengan buruk ( misalnya, collinearity) .
NB : Setelah Anda menentukan model dan mengkonfirmasi kegunaannya dengan data hold-out, tidak apa-apa untuk menggabungkan kembali data yang disimpan dengan data hold-out untuk estimasi akhir. Dengan demikian, tidak ada yang hilang dalam hal presisi yang dengannya Anda dapat memperkirakan koefisien model.
sumber
Saya pikir ini adalah pertanyaan yang sangat bagus; itu sampai ke jantung "pengujian" beberapa masalah kontroversial yang mengganggu bidang mulai dari epidemiologi ke ekonometrik. Lagi pula, bagaimana kita bisa tahu apakah makna yang kita temukan itu palsu atau tidak? Seberapa benar model multivariabel kami?
Dalam hal pendekatan teknis untuk mengimbangi kemungkinan penerbitan variabel kebisingan, saya sepenuh hati setuju dengan 'whuber' yang menggunakan bagian dari sampel Anda sebagai data pelatihan dan sisanya sebagai data uji adalah ide yang bagus. Ini adalah pendekatan yang dibahas dalam literatur teknis, jadi jika Anda meluangkan waktu, Anda mungkin dapat menemukan beberapa panduan yang baik untuk kapan dan bagaimana menggunakannya.
Tetapi untuk lebih memahami filosofi pengujian berganda, saya sarankan Anda membaca artikel yang saya rujuk di bawah ini, beberapa di antaranya mendukung posisi bahwa penyesuaian untuk beberapa pengujian sering kali berbahaya (biaya daya), tidak perlu, dan bahkan mungkin merupakan kesalahan logis . I untuk satu tidak secara otomatis menerima klaim bahwa kemampuan kita untuk menyelidiki satu prediktor potensial berkurang dengan penyelidikan yang lain. Tingkat kesalahan Tipe 1 yang bijaksana keluarga dapat meningkat karena kami menyertakan lebih banyak prediktor dalam model yang diberikan, tetapi selama kami tidak melampaui batas ukuran sampel kami, probabilitas kesalahan Tipe 1 untuk setiap individuprediktor konstan; dan mengendalikan kesalahan keluarga tidak menjelaskan variabel spesifik mana yang berisik dan mana yang tidak. Tentu saja, ada juga kontra-argumen yang meyakinkan.
Jadi, selama Anda membatasi daftar variabel potensial Anda ke variabel yang masuk akal (yaitu, akan mengetahui jalur menuju hasilnya) maka risiko keburukan sudah ditangani dengan cukup baik.
Namun, saya ingin menambahkan bahwa model prediktif tidak terlalu peduli dengan "nilai kebenaran" dari prediktornya sebagai model kausal ; mungkin ada banyak perancu dalam model, tetapi selama kita menjelaskan sebagian besar varian maka kita tidak terlalu khawatir. Ini membuat pekerjaan lebih mudah, setidaknya dalam satu hal.
Tepuk tangan,
Brenden, Konsultan Biostatistik
PS: Anda mungkin ingin melakukan regresi Poisson nol-meningkat untuk data yang Anda gambarkan, bukan dua regresi terpisah.
sumber
Ada jawaban yang bagus di sini. Biarkan saya menambahkan beberapa poin kecil yang saya tidak lihat dibahas di tempat lain.
Pertama, apa sifat dari variabel respons Anda? Lebih khusus lagi, apakah mereka dipahami sebagai terkait satu sama lain? Anda hanya harus melakukan dua regresi berganda yang terpisah jika mereka dianggap independen (secara teoritis) / jika residu dari dua model independen (secara empiris). Jika tidak, Anda harus mempertimbangkan regresi multivariat. ('Multivarian' berarti> 1 variabel respons; 'beberapa' berarti> 1 variabel prediktor.)
sumber
Anda dapat melakukan regresi yang tampaknya tidak berhubungan dan menggunakan uji F. Masukkan data Anda dalam bentuk seperti ini:
sehingga prediktor untuk hasil pertama Anda memiliki nilai ketika hasil itu adalah variabel y dan 0 sebaliknya dan sebaliknya. Jadi, y Anda adalah daftar dari kedua hasil. P11 dan P12 adalah dua prediktor untuk hasil pertama dan P21 dan P22 adalah dua prediktor untuk hasil kedua. Jika seks, katakanlah, merupakan prediktor untuk kedua hasil, penggunaannya untuk memprediksi hasil 1 harus dalam variabel / kolom terpisah ketika memprediksi hasil 2. Ini memungkinkan regresi Anda memiliki kemiringan / dampak berbeda untuk seks untuk setiap hasil.
Dalam kerangka kerja ini, Anda dapat menggunakan prosedur pengujian F standar.
sumber