Regresi linier ketika Y dibatasi dan diskrit

13

Pertanyaannya langsung: Apakah pantas menggunakan regresi linier ketika Y dibatasi dan diskrit (misalnya skor tes 1 ~ 100, beberapa peringkat yang telah ditentukan 1 ~ 17)? Dalam hal ini, apakah "tidak baik" menggunakan regresi linier, atau benar-benar salah menggunakannya?

Tuan Shi
sumber

Jawaban:

9

Ketika respons atau hasil Y dibatasi, berbagai pertanyaan muncul dalam pemasangan suatu model, termasuk yang berikut:

  1. Model apa pun yang dapat memprediksi nilai untuk respons di luar batas itu pada prinsipnya meragukan. Oleh karena itu model linier mungkin bermasalah karena tidak ada batas pada Y = X b untuk prediktor X dan koefisien b setiap kali X itu sendiri terbatas pada satu atau kedua arah. Namun, hubungan mungkin cukup lemah untuk tidak menggigit dan / atau prediksi mungkin tetap dalam batas atas kisaran yang diprediksi atau masuk akal dari prediktor. Pada satu ekstrem, jika responsnya adalah + suara rata-rata , tidak masalah model mana yang cocok.Y^=XbXbX+

  2. Karena respons tidak dapat melebihi batasnya, hubungan nonlinier seringkali lebih masuk akal dengan respons yang diprediksi akan mendekati batas tanpa asimtotik. Kurva atau permukaan Sigmoid seperti yang diprediksi oleh model logit atau probit menarik dalam hal ini dan sekarang tidak sulit untuk disesuaikan. Respons seperti literasi (atau fraksi yang mengadopsi ide baru) sering menunjukkan kurva sigmoid dalam waktu dan masuk akal dengan hampir semua alat prediksi lainnya.

  3. Respons terbatas tidak dapat memiliki properti varians yang diharapkan dalam regresi polos atau vanila. Seharusnya sebagai respon rata-rata mendekati batas bawah dan atas, varians selalu mendekati nol.

Model harus dipilih sesuai dengan apa yang berhasil dan pengetahuan tentang proses pembuatan yang mendasarinya. Apakah klien atau audiens tahu tentang keluarga model tertentu juga dapat memandu praktik.

Perhatikan bahwa saya sengaja menghindari penilaian selimut seperti baik / tidak baik, tepat / tidak tepat, benar / salah. Semua model adalah aproksimasi terbaik dan aproksimasi menarik, atau cukup baik untuk suatu proyek, tidak begitu mudah untuk diprediksi. Saya biasanya memilih model logit sebagai pilihan pertama untuk tanggapan terbatas sendiri, tetapi bahkan preferensi itu sebagian didasarkan pada kebiasaan (misalnya model menghindari saya tanpa alasan yang sangat baik) dan sebagian di mana saya akan melaporkan hasil, biasanya untuk pembaca yang sedang, atau harus, secara statistik mendapat informasi.

Contoh skala diskrit Anda adalah untuk skor 1-100 (dalam tugas yang saya tandai, 0 tentu saja mungkin!) Atau peringkat 1-17. Untuk skala seperti itu, saya biasanya berpikir untuk memasang model kontinu ke respon yang diskalakan menjadi [0, 1]. Namun, ada praktisi model regresi ordinal yang dengan senang hati akan menyesuaikan model tersebut dengan skala dengan nilai diskrit yang cukup besar. Saya senang jika mereka menjawab jika mereka begitu berpikiran.

Nick Cox
sumber
7

Saya bekerja dalam penelitian layanan kesehatan. Kami mengumpulkan hasil yang dilaporkan pasien, misalnya fungsi fisik atau gejala depresi, dan mereka sering dinilai dalam format yang Anda sebutkan: skala 0 hingga N dihasilkan dengan menjumlahkan semua pertanyaan individu dalam skala.

Sebagian besar literatur yang telah saya ulas baru saja menggunakan model linier (atau model linier hirarkis jika datanya berasal dari pengamatan berulang). Saya belum pernah melihat orang menggunakan saran @ NickCox untuk model logit (fraksional), meskipun ini adalah model yang masuk akal.

θ

Grafik di bawah ini berasal dari karya disertasi saya yang akan datang. Di sinilah saya memasukkan model linier (merah) ke skor pertanyaan gejala depresi yang telah dikonversi ke skor Z, dan model IRT (jelas) berwarna biru untuk pertanyaan yang sama. Pada dasarnya, koefisien untuk kedua model berada pada skala yang sama (yaitu dalam standar deviasi). Sebenarnya ada sedikit kesepakatan dalam ukuran koefisien. Seperti yang disinggung oleh Nick, semua model salah. Namun model linear mungkin tidak terlalu salah untuk digunakan.

masukkan deskripsi gambar di sini

(Catatan: model di atas sesuai dengan paket Phil Chalmers mirtdi R. Graph yang diproduksi menggunakan ggplot2dan ggthemes. Skema warna diambil dari skema warna default Stata.)

Weiwen Ng
sumber
6
Hanya karena model linier banyak digunakan, tidak berarti model tersebut sesuai. Banyak orang menggunakan model linier karena hanya itulah yang mereka ketahui atau mereka sukai.
qwr
1
Literatur medis terutama penuh dengan praktik buruk yang disebarkan oleh "ini adalah apa bidang / jurnal ini" tipe ideologi. Sebagai aturan umum, saya tidak akan menggunakan atau gagal menggunakan sesuatu hanya karena penampilannya, betapapun umumnya, dalam penelitian medis.
LSC
1

Lihatlah nilai-nilai yang diprediksi dan periksa apakah mereka memiliki distribusi yang kira-kira sama dengan Ys asli. Jika ini masalahnya, regresi linier mungkin baik-baik saja. dan Anda akan mendapatkan sedikit dengan meningkatkan model Anda.

mzuba
sumber
1

Regresi linier mungkin "cukup" menggambarkan data seperti itu, tetapi tidak mungkin. Banyak asumsi regresi linier cenderung dilanggar dalam tipe data sedemikian rupa sehingga regresi linier menjadi keliru. Saya hanya akan memilih beberapa asumsi sebagai contoh,

  1. Normalitas - Bahkan mengabaikan diskresi data seperti itu, data tersebut cenderung menunjukkan pelanggaran ekstrim terhadap normalitas karena distribusi "terputus" oleh batasan.
  2. Homoscedasticity - Jenis data ini cenderung melanggar homoscedasticity. Varian cenderung lebih besar ketika rata-rata sebenarnya menuju pusat kisaran, dibandingkan dengan tepi.
  3. Linearitas - Karena rentang Y dibatasi, asumsi dilanggar secara otomatis.

Pelanggaran asumsi ini dikurangi jika data cenderung jatuh di sekitar pusat rentang, jauh dari tepi. Tapi sungguh, regresi linier bukan alat yang optimal untuk data seperti ini. Alternatif yang jauh lebih baik mungkin regresi binomial, atau regresi poisson.

Stat_Programmer
sumber
2
Sulit untuk melihat bahwa regresi Poisson adalah kandidat untuk tanggapan yang dibatasi dua kali lipat.
Nick Cox
0

Jika respons hanya mengambil beberapa kategori, Anda mungkin dapat menggunakan metode klasifikasi atau regresi ordinal jika variabel respons Anda bersifat ordinal.

Regresi linier biasa tidak akan memberi Anda kategori diskrit atau variabel respons terbatas. Yang terakhir dapat diperbaiki dengan menggunakan model logit seperti dalam regresi logistik. Untuk sesuatu seperti skor tes dengan 100 kategori 1-100, Anda mungkin juga menyederhanakan prediksi Anda dan menggunakan variabel respons terbatas.

qwr
sumber
0

menggunakan cdf (fungsi distribusi kumulatif dari statistik). jika model Anda adalah y = xb + e, kemudian ubah ke y = cdf (xb + e). Anda harus mengubah skala data variabel dependen Anda menjadi antara 0 dan 1. Jika itu adalah angka positif, bagilah dengan maksimal, dan ambil prediksi model Anda dan kalikan dengan angka yang sama. Kemudian, periksa kecocokan dan lihat apakah prediksi yang dibatasi memperbaiki keadaan.

Anda mungkin ingin menggunakan algoritme kalengan untuk mengurus statistik untuk Anda.

dougie
sumber
1
Ini kelihatannya membingungkan dua fakta: (1) respons terikat harus diskalakan ke antara 0 dan 1 untuk logit, probit dan model serupa untuk diterapkan (2) cdfs juga bervariasi antara 0 dan 1. Dalam memperlakukan respons fraksional seperti itu, Anda tidak dapat memodelkan cdf-nya.
Nick Cox