Katakanlah saya cocok dengan regresi berganda p variabel penjelas. Uji-t akan memungkinkan saya untuk memeriksa apakah ada satu yang signifikan ( ). Saya dapat melakukan uji F parsial untuk memeriksa apakah beberapa bagian dari mereka signifikan ( ).H 0 : β i = β j = . . . = β k = 0
Yang sering saya lihat adalah seseorang mendapat nilai 5 dari 5 uji-t (dengan asumsi mereka memiliki 5 kovariat) dan hanya menyimpan nilai-nilai p <0,05. Tampaknya agak salah karena memang harus ada beberapa perbandingan perbandingan bukan? Benarkah adil mengatakan sesuatu seperti dan penting tetapi , dan tidak?β 2 β 3 β 4 β 5
Pada catatan terkait, katakan saya menjalankan 2 regresi pada 2 model terpisah (hasil berbeda). Apakah perlu ada pemeriksaan perbandingan berganda untuk parameter signifikan antara kedua hasil?
Sunting: Untuk membedakan dari pertanyaan yang serupa, apakah ada interpretasi lain terhadap nilai-p selain: "B_i signifikan, ketika menyesuaikan untuk semua kovariat lainnya"? Tampaknya interpretasi ini tidak memungkinkan saya untuk melihat setiap B_i dan menjatuhkan yang kurang dari 0,5 (yang mirip dengan posting lainnya).
Tampak bagi saya bahwa cara yang pasti untuk menguji apakah B_i dan Y memiliki hubungan adalah untuk mendapatkan koefisien korelasi p-nilai untuk setiap kovariat dan kemudian melakukan multcomp (meskipun itu pasti akan kehilangan sinyal).
Akhirnya, katakan saya menghitung korelasi antara B1 / Y1, B2 / Y1 dan B3 / Y1 (dengan demikian tiga nilai-p). Tidak terkait, saya juga melakukan korelasi antara T1 / Y2, T2 / Y2, T3 / Y2. Saya mengasumsikan penyesuaian Bonferroni yang benar akan menjadi 6 untuk semua 6 tes bersama-sama (daripada 3 untuk kelompok pertama dan 3 untuk kelompok kedua - dan dengan demikian mendapatkan 2 nilai semi-disesuaikan semi-disesuaikan).
sumber
Jawaban:
Kamu benar. Masalah beberapa perbandingan ada di mana-mana, tetapi, karena cara itu biasanya diajarkan, orang hanya berpikir itu berkaitan dengan membandingkan banyak kelompok terhadap satu sama lain melalui sejumlah besar -tests. Pada kenyataannya, ada banyak contoh di mana masalah beberapa perbandingan ada, tetapi di mana itu tidak terlihat seperti banyak perbandingan berpasangan; misalnya, jika Anda memiliki banyak variabel kontinu dan Anda bertanya-tanya apakah ada yang berkorelasi, Anda akan memiliki beberapa masalah perbandingan (lihat di sini: Lihat dan Anda akan menemukan korelasi ).t
Contoh lain adalah yang Anda ajukan. Jika Anda menjalankan regresi berganda dengan 20 variabel, dan Anda menggunakan sebagai ambang Anda, Anda akan mengharapkan salah satu variabel Anda menjadi 'signifikan' secara kebetulan saja, bahkan jika semua nol benar. Masalah beberapa perbandingan hanya berasal dari matematika menjalankan banyak analisis. Jika semua hipotesis nol adalah benar dan variabel-variabelnya benar-benar tidak berkorelasi, probabilitas untuk tidak secara palsu menolak setiap null sejati adalah (misalnya, dengan , ini adalah ).α = .05 1 - ( 1 - α ) p p = 5 .231 - ( 1 - α )hal p = 5 .23
Strategi pertama untuk memitigasi hal ini adalah dengan melakukan uji simultan terhadap model Anda. Jika Anda menggunakan regresi OLS, sebagian besar perangkat lunak akan memberi Anda uji global sebagai bagian default dari output Anda. Jika Anda menjalankan model linier umum, sebagian besar perangkat lunak akan memberi Anda tes rasio kemungkinan global yang analog. Tes ini akan memberi Anda perlindungan terhadap inflasi kesalahan tipe I karena masalah beberapa perbandingan (lih., Jawaban saya di sini: Signifikansi koefisien dalam regresi linier: t-test signifikan vs F-statistik tidak signifikan ). Kasus serupa adalah ketika Anda memiliki variabel kategori yang diwakili dengan beberapa kode dummy; Anda tidak ingin menafsirkanF tt -menguji, tetapi akan menjatuhkan semua kode dummy dan melakukan tes model bersarang sebagai gantinya.
Strategi lain yang mungkin adalah dengan menggunakan prosedur penyesuaian alfa, seperti koreksi Bonferroni. Anda harus menyadari bahwa melakukan hal ini akan mengurangi kekuatan Anda serta mengurangi tingkat kesalahan tipe I keluarga Anda. Apakah pengorbanan ini bermanfaat atau tidak, Anda harus membuat penilaian. (FWIW, saya biasanya tidak menggunakan koreksi alfa dalam regresi berganda.)
Mengenai masalah menggunakan nilai- untuk melakukan pemilihan model, saya pikir ini adalah ide yang sangat buruk. Saya tidak akan pindah dari model dengan 5 variabel ke satu dengan hanya 2 karena yang lain 'tidak signifikan'. Ketika orang melakukan ini, mereka bias model mereka. Ini dapat membantu Anda membaca jawaban saya di sini: algoritma untuk pemilihan model otomatis untuk memahami ini dengan lebih baik.hal
Mengenai pembaruan Anda, saya tidak akan menyarankan Anda menilai korelasi univariat terlebih dahulu untuk memutuskan variabel mana yang akan digunakan dalam model regresi berganda akhir. Melakukan hal ini akan menimbulkan masalah dengan endogenitas kecuali variabel-variabelnya tidak saling berkorelasi satu sama lain. Saya membahas masalah ini dalam jawaban saya di sini: Memperkirakan alih-alihb1x1+ b2x2 b1x1+ b2x2+ b3x3 .
Sehubungan dengan pertanyaan tentang bagaimana menangani analisis dengan variabel dependen yang berbeda, apakah Anda ingin menggunakan semacam penyesuaian didasarkan pada bagaimana Anda melihat analisis relatif satu sama lain. Gagasan tradisional adalah untuk menentukan apakah mereka secara bermakna dianggap sebagai 'keluarga'. Ini dibahas di sini: Apa yang mungkin menjadi definisi yang jelas dan praktis untuk "keluarga hipotesis"? Anda mungkin juga ingin membaca utas ini: Metode untuk memprediksi beberapa variabel dependen .
sumber
Pada tingkat praktis, saya pikir orang perlu juga mempertimbangkan apakah Betas mencerminkan tingkat variabel kategori (mis. Boneka). Dalam keadaan ini masuk akal untuk tertarik mengetahui apakah Beta yang diberikan berbeda dibandingkan dengan Beta referensi (bermakna). Tetapi bahkan sebelum melakukan perbandingan berpasangan, orang perlu mengetahui apakah secara keseluruhan tingkat variabel kategorikal itu penting (menggunakan uji F bersama atau uji rasio kemungkinan). Melakukan ini memiliki keuntungan menggunakan lebih sedikit df
sumber