Bagaimana cara saya melakukan regresi pada data tidak normal yang tetap tidak normal ketika ditransformasikan?

15

Saya punya beberapa data (158 kasus) yang berasal dari jawaban skala likert untuk 21 item kuesioner. Saya benar-benar ingin / perlu melakukan analisis regresi untuk melihat item mana dalam kuesioner yang memprediksi respons terhadap keseluruhan item (kepuasan). Responsnya tidak terdistribusi normal (berdasarkan tes KS) dan saya telah mengubahnya dalam setiap cara yang dapat saya pikirkan (terbalik, log, log10, sqrt, kuadrat) dan keras kepala menolak untuk didistribusikan secara normal. Plot residual terlihat di semua tempat jadi saya percaya itu benar-benar tidak sah untuk melakukan regresi linier dan berpura-pura berperilaku normal (itu juga bukan distribusi Poisson). Saya pikir ini karena jawabannya sangat erat berkerumun (rata-rata 3,91, 95% CI 3,88 hingga 3,95).

Jadi, saya berpikir saya perlu cara baru untuk mengubah data saya atau memerlukan semacam regresi non-parametrik tapi saya tidak tahu apa pun yang dapat saya lakukan di SPSS.

rachel S
sumber
1
Pertimbangkan transformasi Box-Cox ( en.wikipedia.org/wiki/… ). Menambahkan plot sisa ke pertanyaan Anda mungkin bermanfaat.
M. Berk
3
Ya, tolong tunjukkan kami plot residu Anda. mungkin juga plot qq.
David Marx
5
Jika nilai-nilai Anda terpisah, terutama jika nilai-nilai tersebut dijepit satu ujung, mungkin tidak ada transformasi yang akan membuat hasilnya bahkan menjadi normal. Tetapi uji hipotesis formalitas tidak menjawab pertanyaan yang tepat, dan menyebabkan prosedur Anda yang lain dilakukan dengan syarat apakah Anda menolak normalitas tidak lagi memiliki sifat nominalnya.
Glen_b -Reinstate Monica
1
regresi logistik odds proporsional mungkin akan menjadi pendekatan yang masuk akal untuk pertanyaan ini, tapi saya tidak tahu apakah itu tersedia di SPSS.
Ben Bolker
3
Saya tidak yakin bahwa regresi adalah pendekatan yang tepat, dan bukan karena kekhawatiran normalitas. Jawaban kuesioner Anda bahkan mungkin bukan kardinal. Misalnya, jika Anda bertanya kepada seorang pria 'Apakah Anda bahagia? "Dan mendapatkan jawaban 3, sedangkan bulan lalu adalah 4, apakah ini berarti ia 25% kurang bahagia? Kemungkinan besar tidak. Jadi, bahkan sebelum mulai memikirkan normalitas, Anda perlu mencari tahu apakah Anda bahkan berurusan dengan nomor kardinal dan bukan hanya ordinal.Ada cara khusus untuk berurusan dengan berpikir seperti survei, dan regresi bukanlah pilihan default Anda harus menunjukkan itu sesuai terlebih dahulu
Aksakal

Jawaban:

32

Anda tidak perlu mengasumsikan distribusi normal untuk melakukan regresi. Regresi kuadrat terkecil adalah estimator BLUE (Linear Terbaik, Pengukur Tidak Cocok) terlepas dari distribusinya. Lihat Teorema Gauss-Markov (mis. Wikipedia) Distribusi normal hanya digunakan untuk menunjukkan bahwa estimator juga merupakan estimator kemungkinan maksimum. Ini adalah kesalahpahaman umum bahwa OLS entah bagaimana mengasumsikan data terdistribusi normal. Itu tidak. Itu jauh lebih umum.

Dave31415
sumber
2
Ini sangat benar. Bagi banyak orang sering mengabaikan FAKTA ini.
Repmat
setuju dengan @Repmat. Saya tidak yakin saya pernah lulus tes normal ... tetapi model saya berhasil.
HEITZ
5

Daripada mengandalkan tes normalitas residu, cobalah menilai normalitas dengan penilaian rasional. Tes normalitas tidak memberi tahu Anda bahwa data Anda normal, hanya saja tidak. Tetapi mengingat bahwa data tersebut adalah sampel, Anda dapat yakin bahwa mereka sebenarnya tidak normal tanpa tes. Persyaratannya kira-kira normal. Tes tidak bisa mengatakan itu kepada Anda. Tes juga menjadi sangat sensitif pada N besar atau lebih serius, bervariasi dalam kepekaan dengan N. N Anda berada dalam kisaran di mana sensitivitas mulai semakin tinggi. Jika Anda menjalankan simulasi berikut dalam R beberapa kali dan melihat plot maka Anda akan melihat bahwa tes normalitas mengatakan "tidak normal" pada sejumlah distribusi normal yang baik.

# set the plot area to show two plots side by side (make the window wide)
par(mfrow = c(1, 2)) 
n <- 158 # use the N we're concerned about

# Run this a few times to get an idea of what data from a 
# normal distribution should look like.
# especially note how variable the histograms look
y <- rnorm(n) # n numbers from normal distribution
# view the distribution
hist(y)
qqnorm(y);qqline(y)

# run this section several times to get an idea what data from a normal
# distribution that fails the normality test looks like
# the following code block generates random normal distributions until one 
# fails a normality test
p <- 1 # set p to a dummy value to start with
while(p >= 0.05) {
    y <- rnorm(n)
    p <- shapiro.test(y)$p.value }
# view the distribution that failed
hist(y)
qqnorm(y);qqline(y)

Mudah-mudahan, setelah melalui simulasi Anda dapat melihat bahwa tes normalitas dapat dengan mudah menolak data yang tampak cukup normal dan bahwa data dari distribusi normal dapat terlihat cukup jauh dari normal. Jika Anda ingin melihat nilai ekstrem dari percobaan itun <- 1000 . Distribusi semua akan terlihat normal tetapi masih gagal tes pada tingkat yang sama dengan nilai N yang lebih rendah. Dan sebaliknya, dengan distribusi N rendah yang lulus tes bisa terlihat sangat jauh dari normal.

Plot residual standar dalam SPSS tidak terlalu berguna untuk menilai normalitas. Anda dapat melihat outlier, kisaran, kebaikan, dan bahkan mungkin pengaruh. Tetapi normalitas sulit didapat darinya. Cobalah simulasi berikut yang membandingkan histogram, plot normal kuantil-kuantil, dan plot residual.

par(mfrow = c(1, 3)) # making 3 graphs in a row now

y <- rnorm(n)
hist(y)
qqnorm(y); qqline(y)
plot(y); abline(h = 0)

Sangat sulit untuk mengatakan normalitas, atau banyak hal, dari plot terakhir dan karenanya tidak terlalu diagnostik normalitas.

Singkatnya, umumnya disarankan untuk tidak bergantung pada tes normalitas melainkan plot diagnostik residu. Tanpa plot atau nilai aktual dalam pertanyaan Anda, sangat sulit bagi siapa pun untuk memberikan saran yang solid tentang apa yang dibutuhkan data Anda dalam hal analisis atau transformasi. Untuk mendapatkan bantuan terbaik, berikan data mentah.

John
sumber
Hai.Terima kasih untuk semua saran. Saya akhirnya melihat residu saya seperti yang disarankan dan menggunakan sintaks di atas dengan variabel saya. Data saya tidak separah bencana seperti yang saya kira, jadi saya telah menggunakan regresi linier parametrik saya dengan lebih banyak kepercayaan diri dan hati nurani yang jelas! Terima kasih lagi.
rachel S
4

Pertama, regresi OLS tidak membuat asumsi tentang data, ia membuat asumsi tentang kesalahan, seperti yang diperkirakan oleh residual.

Kedua, mentransformasikan data agar sesuai dengan model, menurut saya, pendekatan yang salah. Anda ingin model Anda sesuai dengan masalah Anda, bukan sebaliknya. Di masa lalu, regresi OLS adalah "satu-satunya permainan di kota" karena komputer lambat, tetapi itu tidak lagi benar.

Ketiga, saya tidak menggunakan SPSS jadi saya tidak bisa membantu di sana, tapi saya akan kagum jika tidak menawarkan beberapa bentuk regresi nonlinier. Beberapa kemungkinan adalah regresi kuantitatif, pohon regresi dan regresi kuat.

Keempat, saya sedikit khawatir dengan pernyataan Anda:

Saya benar-benar ingin / perlu melakukan analisis regresi untuk melihat item mana dalam kuesioner yang memprediksi respons terhadap keseluruhan item (kepuasan)

Jika item dijumlahkan atau digabungkan entah bagaimana untuk membuat skala keseluruhan, maka regresi bukanlah pendekatan yang tepat sama sekali. Anda mungkin menginginkan analisis faktor.

Peter Flom - Pasang kembali Monica
sumber
Anda menyarankan agar dia menginginkan analisis faktor, tetapi bukankah analisis faktor juga terpengaruh jika data tidak terdistribusi secara normal?
merampingkan
Anda dapat melakukan analisis faktor pada data yang bahkan tidak berkelanjutan. Tapi itu diskusi terpisah - dan sudah dibahas di sini.
Peter Flom - Reinstate Monica
1
Hai Peter, saya menghargai keahlian Anda dan saya sangat menghargai saran Anda. Terima kasih telah meluangkan waktu untuk menjawab. Hanya untuk mengklarifikasi, saya tahu bahwa seseorang dapat melakukan FA pada item-item yang tidak terdistribusi normal (serta diskusi tentang normalitas residual). Saya hanya ingin tahu untuk belajar (dari seseorang dengan keahlian Anda) jika OP tidak akan masuk ke dalam dilema yang sama. Tapi, saya anggap Anda sudah menjawab :)
streamline
1

Secara umum, ada dua pendekatan yang mungkin untuk masalah Anda: satu yang dibenarkan dari perspektif teoretis, tetapi berpotensi tidak mungkin untuk diterapkan dalam praktik, sementara yang lain lebih heuristik.

Pendekatan yang secara teoritis optimal (yang mungkin Anda tidak benar-benar dapat gunakan, sayangnya) adalah menghitung regresi dengan kembali ke aplikasi langsung dari apa yang disebut metode kemungkinan maksimum. Hubungan antara estimasi kemungkinan maksimum (yang benar-benar merupakan konsep matematika yang lebih mendasar dan lebih mendasar) dan regresi kuadrat terkecil (OLS) (pendekatan yang biasa, berlaku untuk kasus spesifik tetapi sangat umum di mana variabel observasi semuanya acak acak dan didistribusikan secara normal. ) dijelaskan dalam banyak buku teks tentang statistik; satu diskusi yang sangat saya sukai adalah bagian 7.1 dari "Analisis Data Statistik" oleh Glen Cowan. Dalam kasus di mana variabel pengamatan Anda tidak terdistribusi normal,

Dalam hal ini, karena Anda tampaknya tidak benar-benar mengetahui distribusi yang mendasari yang mengatur variabel pengamatan Anda (yaitu, satu-satunya hal yang diketahui pasti adalah itu jelas bukan Gaussian, tetapi bukan apa sebenarnya itu), pendekatan di atas menang ' t bekerja untukmu. Biasanya, ketika OLS gagal atau mengembalikan hasil yang gila, itu karena terlalu banyak poin outlier. Poin outlier, yang sebenarnya mematahkan asumsi variabel observasi yang terdistribusi normal, berkontribusi terlalu banyak pada fit, karena poin dalam OLS ditimbang oleh kuadrat deviasi mereka dari kurva regresi, dan untuk outlier, deviasi tersebut. besar. Pendekatan heuristik yang biasa dalam hal ini adalah untuk mengembangkan beberapa penyesuaian atau modifikasi pada OLS yang menghasilkan kontribusi dari titik outlier menjadi de-stressed atau de-weighted, relatif terhadap metode OLS dasar. Secara kolektif, ini biasanya dikenal sebagairegresi yang kuat . Daftar yang berisi beberapa contoh teknik estimasi kuat spesifik yang mungkin ingin Anda coba dapat ditemukan di sini .

stachyra
sumber