Arti dari nilai-p dalam regresi

27

Ketika saya melakukan regresi linier di beberapa paket perangkat lunak (misalnya Mathematica), saya mendapatkan nilai-p yang terkait dengan parameter individu dalam model. Misalnya, hasil dari regresi linier yang menghasilkan hasil akan memiliki nilai p yang terkait dengan dan satu dengan .a bax+bab

  1. Apa arti nilai-p ini secara individual tentang parameter tersebut?

  2. Apakah ada cara umum untuk menghitung parameter untuk setiap model regresi?

  3. Bisakah nilai p yang dikaitkan dengan setiap parameter digabungkan menjadi nilai p untuk seluruh model?

Untuk menjaga pertanyaan ini secara matematis, saya hanya mencari interpretasi nilai-p dalam hal probabilitas.

Henry B.
sumber
Jawaban Gavin dalam pertanyaan @ cardinal yang ditautkan dengan mengatakannya dengan baik.
JM bukan ahli statistik
6
@ Erx, tidak ada yang maju tentang pertanyaan OP. Ini adalah pertanyaan yang sangat umum yang, menurut pendapat saya, stats.SE lebih tepat --- dan yang peserta juga lebih terbiasa. Math.SE dan MO keduanya sumber yang bagus untuk pertanyaan probabilitas, tetapi lebih sedikit untuk pertanyaan statistik. Pertanyaan OP lebih condong ke arah yang terakhir.
kardinal
@ cardinal: Saya sudah mengikuti stats.SE sejak awal beta publik. Dari 4800+ pertanyaan hingga saat ini saya tidak dapat menemukan satu yang menanyakan atau menjawab item 3 dari OP, yang aneh jika ini adalah permintaan "sangat umum". Saya juga belum melihat jawaban yang tepat secara konseptual untuk item 1 pada beberapa kali muncul. Saya pikir hal-hal ini harus diposting ke math.SE dan MO secara berkala untuk menarik perhatian audiens yang lebih besar, tidak bermigrasi dalam hitungan menit ke stats.SE. Tidak ada salahnya juga bertanya di stat.SE tetapi mengubah yang terakhir menjadi satu-satunya tempat di mana statistik dapat didiskusikan tidak membantu.
zyx
Sekarang ada utas tentang math.SE ke stats.SE migrasi di meta.math.SE.
zyx
(Beberapa komentar yang direferensikan di atas hilang dalam migrasi. Mereka terlihat pada matematika asli. Posting SE, terkait di bawah di sebelah kata "dimigrasikan dari ...")
zyx

Jawaban:

13
  1. P-nilai adalah p-nilai dalam tes hipotesis " " (biasanya 2 sisi -test). P-nilai adalah p-nilai dalam tes hipotesis " " (juga biasanya 2 sisi -test) dan juga untuk setiap koefisien lain dalam regresi. Model probabilitas untuk tes ini ditentukan oleh yang diasumsikan dalam model regresi linier. Untuk regresi linear kuadrat-terkecil, pasangan ( ) mengikuti distribusi normal bivariat yang berpusat pada nilai parameter sebenarnya ( ), dan uji hipotesis untuk setiap koefisien setara dengan menguji apakahα = 0 t b β = 0 t a , b α , β t α = 0 β = 0 a b Aaα=0tbβ=0ta,bα,βtα=0 (resp. ) berdasarkan sampel dari distribusi normal yang sesuai [satu variabel, yaitu distribusi atau saja]. Rincian distribusi normal yang muncul agak rumit dan melibatkan "derajat kebebasan" dan "matriks hat" (berdasarkan notasi untuk beberapa matriks yang terus-menerus muncul dalam teori regresi OLS).β=0abA^

  2. Iya nih. Biasanya ini dilakukan (dan ditentukan) dengan Estimasi Kemungkinan Maksimum . Untuk regresi linier OLS dan sejumlah kecil model lain ada rumus yang tepat untuk memperkirakan parameter dari data. Untuk regresi yang lebih umum solusinya bersifat iteratif dan numerik.

  3. Tidak secara langsung. Nilai p dihitung secara terpisah untuk pengujian seluruh model, yaitu, uji hipotesis bahwa semua koefisien (dari variabel yang dianggap benar-benar bervariasi, jadi tidak termasuk koefisien "istilah konstan" jika ada. satu). Tetapi nilai-p ini biasanya tidak dapat dihitung dari pengetahuan tentang nilai-p dari koefisien.

zyx
sumber
2
Dalam poin Anda (1.) tampaknya ada sedikit kebingungan antara parameter dan estimator . Nilai dikaitkan dengan estimator daripada parameter dan estimator normal bivariat, bukan parameter (yang, setidaknya, dalam statistik klasik dianggap tetap). Juga, komentar Anda dalam poin (3.) dapat menyebabkan kebingungan karena sangat mungkin (dan sangat umum) untuk beberapa nilai individu dari estimasi regresi menjadi lebih besar dan lebih kecil dari nilai gabungan dari nilai yang sesuai. -tes. p p FpppF
kardinal
@NRH: Maaf, Bisakah Anda mengklarifikasi komentar Anda sebelumnya. Saya belum cukup mengikutinya. :)
kardinal
@ cardinal: tampaknya lebih akurat untuk mengatakan bahwa nilai-p dikaitkan dengan tes hipotesis. Parameter muncul dalam hipotesis nol tes dan pasangan (nilai yang diamati dari estimator, hipotesis alternatif) kemudian tentukan nilai-p. Hipotesis nol harus dideskripsikan menggunakan parameter, seperti α = 0 daripada estimator a = 0 seperti yang dilakukan dengan sembarangan dalam jawaban asli, sekarang diedit (terima kasih telah menunjukkan kesalahannya). Namun, perbedaan yang diduga membingungkan atau hilang "penduga adalah bivariat normal, bukan parameter" dinyatakan secara eksplisit dalam jawaban.
zyx
1
Maaf, saya tidak bisa menolak. @zyx membuat komentar ke posting asli di math.SE bahwa jawaban di stat.SE sering tidak tepat. Saya menemukan bahwa banyak jawaban yang cukup akurat meskipun terkadang tidak tepat secara matematis. Itu adalah sifat dari banyak hal. Pertanyaan dan jawaban statistik tidak selalu dapat direduksi menjadi pernyataan matematika yang tepat. Khususnya bukan yang sulit. Namun, jawaban yang diberikan di sini tidak terlalu akurat atau tepat menurut saya.
NRH
3
Saya pikir akan lebih baik jika siapa pun yang turun memberikan komentar yang jelas.
kardinal
1

wrt pertanyaan pertama Anda: ini tergantung pada perangkat lunak pilihan Anda. Sebenarnya ada dua jenis nilai-p yang sering digunakan dalam skenario ini, keduanya biasanya didasarkan pada uji rasio kemungkinan (ada yang lain tetapi ini biasanya setara atau setidaknya berbeda sedikit dalam hasilnya).

Penting untuk menyadari bahwa semua nilai-p ini tergantung pada (bagian dari) parameter lainnya. Itu berarti: Dengan asumsi (beberapa) estimasi parameter lainnya sudah benar, Anda menguji apakah koefisien untuk parameter adalah nol. Biasanya, hipotesis nol untuk tes ini adalah koefisiennya nol, jadi jika Anda memiliki nilai p yang kecil, itu berarti (secara kondisional pada nilai koefisien lainnya) bahwa koefisien itu sendiri tidak mungkin menjadi nol.

Tes tes tipe I untuk zeroness masing-masing koefisien secara kondisional pada nilai koefisien yang datang sebelumnya dalam model (kiri ke kanan). Tes Type III (tes marginal), tes untuk zeroness dari masing-masing koefisien tergantung pada nilai semua koefisien lainnya.

Alat yang berbeda menyajikan nilai p yang berbeda sebagai default, meskipun biasanya Anda memiliki cara untuk mendapatkan keduanya. Jika Anda tidak memiliki alasan di luar statistik untuk memasukkan parameter dalam beberapa urutan, Anda biasanya akan tertarik pada hasil tes tipe III.

Terakhir (lebih berkaitan dengan pertanyaan terakhir Anda), dengan uji rasio kemungkinan Anda selalu dapat membuat tes untuk setiap koefisien yang tergantung pada yang lainnya. Ini adalah cara yang harus ditempuh jika Anda ingin menguji beberapa koefisien menjadi nol pada saat yang sama (jika tidak, Anda akan mengalami beberapa masalah pengujian berganda).

Nick Sabbe
sumber
Bisakah Anda menguraikan persyaratan yang Anda sebutkan? Dalam regresi univariat dengan prediktor dan intersep, pengujian hipotesis pada kombinasi linear parameter menggunakan statistik uji ...ψ = c ' β t = ψ - ψ 0pψ=cβt=ψ^ψ0σ^c(XX)1c
caracal
Di sini , dengan menjadi vektor estimasi parameter, dan vektor koefisien. adalah matriks desain, dan adalah kesalahan standar residual , di mana adalah vektor residual dari model yang disediakan. Untuk pengujian parameter tunggal menjadi 0, adalah vektor satuan ke- , dan . Saya tidak melihat di mana perbandingan model memainkan untuk roll . ψ^=cβ^β^cXσ^||e||2/(n(p+1))ejcjψ0=0t
caracal
Esensi dari masalah ditangkap misalnya di sini . Ingat bahwa anova hanyalah kasus regresi khusus. Pada dasarnya, ini turun ke ini: jika Anda melakukan tes untuk zeroness (koefisien) variabel A dalam model dengan atau tanpa variabel B, Anda mungkin mendapatkan hasil yang berbeda. Oleh karena itu, hasilnya tergantung pada model Anda, data (bahkan untuk nilai-nilai variabel B) dan dengan demikian pada koefisien tidak dalam pengujian Anda tetapi dalam model Anda. Menemukan ide itu dalam matematika mungkin agak sulit :-)
Nick Sabbe
Benar, tetapi hipotesis anova menguji apakah semua parameter efek sesuai dengan kelompok faktor secara bersamaan adalah 0. Hipotesis ini berbeda dari yang tentang (di sini parameter tunggal ), dan juga menggunakan statistik pengujian yang berbeda: mana dan adalah jumlah sisa kuadrat dan df mereka untuk model terbatas, demikian juga untuk model tidak dibatasi. Jelas, ini memang tergantung pada pilihan untuk model terbatas dan tidak terbatas. p c ' ß ß j F = ( S S e r - S S e u ) / ( d f e r - d f e u )p1pcββj SSerdfer| | er| | 2uF=(SSerSSeu)/(dferdfeu)SSeu/dfeuSSerdfer||er||2u
caracal
Kasus kontinu harus sepenuhnya sama dengan variabel dikodekan 0-1 dikotomi.
Nick Sabbe