Ketika saya melakukan regresi linier di beberapa paket perangkat lunak (misalnya Mathematica), saya mendapatkan nilai-p yang terkait dengan parameter individu dalam model. Misalnya, hasil dari regresi linier yang menghasilkan hasil akan memiliki nilai p yang terkait dengan dan satu dengan .a b
Apa arti nilai-p ini secara individual tentang parameter tersebut?
Apakah ada cara umum untuk menghitung parameter untuk setiap model regresi?
Bisakah nilai p yang dikaitkan dengan setiap parameter digabungkan menjadi nilai p untuk seluruh model?
Untuk menjaga pertanyaan ini secara matematis, saya hanya mencari interpretasi nilai-p dalam hal probabilitas.
probability
regression
Henry B.
sumber
sumber
Jawaban:
P-nilai adalah p-nilai dalam tes hipotesis " " (biasanya 2 sisi -test). P-nilai adalah p-nilai dalam tes hipotesis " " (juga biasanya 2 sisi -test) dan juga untuk setiap koefisien lain dalam regresi. Model probabilitas untuk tes ini ditentukan oleh yang diasumsikan dalam model regresi linier. Untuk regresi linear kuadrat-terkecil, pasangan ( ) mengikuti distribusi normal bivariat yang berpusat pada nilai parameter sebenarnya ( ), dan uji hipotesis untuk setiap koefisien setara dengan menguji apakahα = 0 t b β = 0 t a , b α , β t α = 0 β = 0 a b ASebuah α=0 t b β=0 t a,b α,β t α=0 (resp. ) berdasarkan sampel dari distribusi normal yang sesuai [satu variabel, yaitu distribusi atau saja]. Rincian distribusi normal yang muncul agak rumit dan melibatkan "derajat kebebasan" dan "matriks hat" (berdasarkan notasi untuk beberapa matriks yang terus-menerus muncul dalam teori regresi OLS).β=0 a b A^
Iya nih. Biasanya ini dilakukan (dan ditentukan) dengan Estimasi Kemungkinan Maksimum . Untuk regresi linier OLS dan sejumlah kecil model lain ada rumus yang tepat untuk memperkirakan parameter dari data. Untuk regresi yang lebih umum solusinya bersifat iteratif dan numerik.
Tidak secara langsung. Nilai p dihitung secara terpisah untuk pengujian seluruh model, yaitu, uji hipotesis bahwa semua koefisien (dari variabel yang dianggap benar-benar bervariasi, jadi tidak termasuk koefisien "istilah konstan" jika ada. satu). Tetapi nilai-p ini biasanya tidak dapat dihitung dari pengetahuan tentang nilai-p dari koefisien.
sumber
wrt pertanyaan pertama Anda: ini tergantung pada perangkat lunak pilihan Anda. Sebenarnya ada dua jenis nilai-p yang sering digunakan dalam skenario ini, keduanya biasanya didasarkan pada uji rasio kemungkinan (ada yang lain tetapi ini biasanya setara atau setidaknya berbeda sedikit dalam hasilnya).
Penting untuk menyadari bahwa semua nilai-p ini tergantung pada (bagian dari) parameter lainnya. Itu berarti: Dengan asumsi (beberapa) estimasi parameter lainnya sudah benar, Anda menguji apakah koefisien untuk parameter adalah nol. Biasanya, hipotesis nol untuk tes ini adalah koefisiennya nol, jadi jika Anda memiliki nilai p yang kecil, itu berarti (secara kondisional pada nilai koefisien lainnya) bahwa koefisien itu sendiri tidak mungkin menjadi nol.
Tes tes tipe I untuk zeroness masing-masing koefisien secara kondisional pada nilai koefisien yang datang sebelumnya dalam model (kiri ke kanan). Tes Type III (tes marginal), tes untuk zeroness dari masing-masing koefisien tergantung pada nilai semua koefisien lainnya.
Alat yang berbeda menyajikan nilai p yang berbeda sebagai default, meskipun biasanya Anda memiliki cara untuk mendapatkan keduanya. Jika Anda tidak memiliki alasan di luar statistik untuk memasukkan parameter dalam beberapa urutan, Anda biasanya akan tertarik pada hasil tes tipe III.
Terakhir (lebih berkaitan dengan pertanyaan terakhir Anda), dengan uji rasio kemungkinan Anda selalu dapat membuat tes untuk setiap koefisien yang tergantung pada yang lainnya. Ini adalah cara yang harus ditempuh jika Anda ingin menguji beberapa koefisien menjadi nol pada saat yang sama (jika tidak, Anda akan mengalami beberapa masalah pengujian berganda).
sumber