Mengapa model berubah saat menggunakan relevel?

8

Ketika menghitung model regresi dengan R, saya secara teratur menggunakan fungsi relevel untuk mendapatkan model saya untuk memberi saya hasil untuk tingkat lain juga. Saya perhatikan bahwa kadang-kadang, tetapi tidak sering, ini mengubah model dalam arti bahwa tingkat faktor-faktor lain yang signifikan sebelum rilis tidak lagi. Apakah ini melekat pada rilis atau luar biasa dan mungkin karena beberapa masalah dengan data saya? Apakah ini menunjukkan bahwa data saya kemungkinan tidak memenuhi salah satu prasyarat model linier?

Terkait dengan itu, apakah boleh jika saya menggunakan relevel, menghitung ulang model saya, dan kemudian melaporkan nilai signifikansi dari kedua model dalam artikel saya? Jika signifikansi berbeda antara dua model untuk faktor tertentu, saya kira saya harus pergi dengan yang kurang optimis?

Saya kira pertanyaan saya mengkhianati bahwa saya tidak cukup tahu tentang saya untuk memahami kebutuhan akan tingkat dasar. Saya pikir saya memahaminya dengan cukup baik;) Entah bagaimana tidak ada perkenalan yang saya baca menjelaskan hal itu, atau saya terlalu bodoh untuk memahami itu. Jadi, jika seseorang dapat mengarahkan saya ke sebuah situs di mana titik memiliki level dasar dalam lm dijelaskan atau dijelaskan sendiri, itu akan menjadi hebat juga!

Sunting: Ini contoh minimal:

library(datasets)
sprays<-OrchardSprays
model<-lm(decrease~treatment+rowpos+colpos,data=sprays)
summary(model)

Bagian dari ringkasan mengatakan

treatmentC    20.625      9.731   2.120  0.03866 *

Jadi jika pengobatan == C ini memiliki pengaruh positif yang signifikan terhadap 'penurunan'. Sekarang saya merilis 'pengobatan' ke B untuk mengetahui apa yang mempengaruhi pengobatan == A:

sprays$treatment<-relevel(sprays$treatment,"B")
summary(model)

Dan sekarang perawatan == C tidak signifikan dalam model baru ini:

treatmentC    17.625      9.731   1.811  0.07567 .

Maaf karena memposting di tempat yang salah! Bisakah saya memindahkan pertanyaan saya ke stats statexchange atau haruskah saya membuka yang baru di sana?

robert
sumber
2
Selamat datang di SO. Apakah Anda pikir Anda dapat membuat contoh kecil yang dapat direproduksi yang menggambarkan hal ini?
Andrie
4
Sepertinya Anda tidak benar-benar tahu model apa yang pas dan bagaimana menafsirkan parameter dalam model Anda. Ini mungkin lebih tepat untuk situs statistik stackexchange.
Dason
2
Kedua komentar sebelumnya tepat sasaran. Sesuatu yang sederhana d <- data.frame(y=runif(300),f=factor(rep(LETTERS[1:3],each=100)); lm(y~f,data=d)akan memberi Anda permulaan, meskipun tentu saja tidak akan ada perubahan signifikan dalam kasus itu (meskipun estimasi parameter dan nilai-p pasti akan berubah ketika Anda merilis).
Ben Bolker
Mungkin Anda mungkin ingin melihat halaman 74-75 dari buku ini springer.com/economics/econometrics/book/978-0-387-77316-2 . Ini jelas merupakan masalah ekonometrik mengenai variabel dummy. Mengubah garis dasar Anda tidak mengubah nilai perkiraan estimasi Anda, tetapi mengubah estimasi parameter. Buku ekonometrika dasar apa pun akan membantu Anda dalam masalah ini.
2
... Ini benar-benar bukan masalah "ekonometrik" seperti halnya masalah parameterisasi model yang merupakan masalah di bidang statistik apa pun.
Dason

Jawaban:

7

Misalkan faktor conditionsmemiliki level A,B,Cdan Anda regresi variabel respons Anda ypada kondisi menggunakan mod <- lm(y ~ conditions). Sekarang summary(mod)kembali mean dari tingkat referensi dari conditions(katakanlah A) dan perbedaan berarti antara kondisi Bdan Adan perbedaan antara kondisi Cdan A(dilaporkan masing-masing sebagai (Intercept), conditions:B, dan conditions:C). Jika Anda conditions <- relevel(conditions, ref = 'B')dan menyatukan kembali model linier, sekarang Anda akan mendapatkan rata-rata B, perbedaan antara Adan B, dan perbedaan antara CdanA. Secara alami, nilai-p mungkin berubah. Itu tidak berarti ada masalah dengan data Anda. Itu tidak berarti data Anda pasti gagal dengan asumsi model linear. Kesesuaiannya sama dan Anda baru saja mengubah informasi apa yang dicetak karena Anda telah mengubah level referensi dan menggunakan kontras perawatan. Anda bisa mendapatkan tes hipotesis linier yang sama menggunakan yang asli mod.

Sejauh apa yang harus dilaporkan, di banyak bidang, adalah kebiasaan untuk melaporkan apakah ada pengaruh signifikan secara statistik conditions(menggunakan output anova(mod)) dan melaporkan ke output regresi penuh dalam tabel (menggunakan level referensi apa pun yang Anda inginkan ). Norma untuk bagaimana dan apakah melaporkan tes Avs B(misalnya) bervariasi berdasarkan bidang. Perhatikan baik-baik surat kabar di bidang Anda.

terkunci
sumber
Terima kasih, itu cukup banyak menjawab pertanyaan saya! Hanya untuk klarifikasi: Anda mengatakan itu adalah kebiasaan untuk melaporkan apakah faktor-faktor tersebut signifikan (keluaran anova) dan hasil regresi penuh, tetapi norma untuk pengujian dapat bervariasi. Tetapi output regresi penuh (dengan ringkasan) terutama mencakup tes-tes ini (selain intersep), bukan?
Ya, tetapi itu tidak berarti Anda harus melaporkannya. Tes signifikansi intersep khususnya lebih sering daripada tidak berarti ...
Ben Bolker
Saya bingung ... Jika ringkasan melaporkannya, saya kira mereka pasti berguna untuk sesuatu? Juga, alasan utama saya menghitung model adalah karena saya ingin mengetahui level mana yang dapat dikatakan memiliki pengaruh seperti apa dengan tingkat kepastian tertentu. Jadi jika mereka cenderung "tidak berarti" ada sedikit alasan bagi saya untuk melakukan ini. Atau Anda akan merekomendasikan metode lain untuk melakukan ini?