Saya memiliki persentase peringkat siswa dalam 38 ujian sebagai variabel dependen dalam penelitian saya. Persentase peringkat dihitung oleh (peringkat / jumlah siswa dalam ujian). Variabel dependen ini memiliki distribusi yang hampir seragam dan saya ingin memperkirakan efek dari beberapa variabel pada variabel dependen.
Pendekatan regresi mana yang saya gunakan?
regression
distributions
siren99
sumber
sumber
Jawaban:
Jika Anda bekerja dengan Stata lihat contoh berikut: http://www.ats.ucla.edu/stat/stata/faq/proportion.htm
Berikut ini kutipan dari halaman web ini:
sumber
Ringkasan
Hasil regresi mungkin memiliki nilai terbatas ketika ditafsirkan dengan cermat. Bentuk variasi yang tidak dapat dihindari akan menyebabkan estimasi koefisien menyusut secara substansial ke nol. Diperlukan model yang lebih baik yang menangani variasi dengan cara yang lebih tepat.
(Model kemungkinan maksimum dapat dibangun tetapi mungkin tidak praktis karena perhitungan yang diperlukan, yang melibatkan evaluasi numerik integral multidimensi. Jumlah dimensi sama dengan jumlah siswa yang terdaftar di kelas.)
pengantar
Sebagai narasi untuk menginformasikan intuisi kita, bayangkan 38 ujian ini diberikan dalam 38 kursus terpisah selama satu semester di sebuah sekolah kecil dengan pendaftaran 200 mahasiswa. Dalam situasi yang realistis para siswa akan memiliki berbagai kemampuan dan pengalaman. Sebagai ukuran pengganti dari kemampuan dan pengalaman ini, kita dapat mengambil, katakanlah, skor pada matematika SAT dan tes verbal dan tahun di perguruan tinggi (1 hingga 4).
Biasanya, siswa akan mendaftar di kursus sesuai dengan kemampuan dan minat mereka. Mahasiswa baru mengambil kursus pengantar dan kursus pengantar dihuni terutama oleh mahasiswa baru. Mahasiswa senior dan mahasiswa baru berbakat dan mahasiswa tahun kedua mengambil kursus lanjutan dan tingkat pascasarjana. Seleksi ini sebagian stratifikasi siswa sehingga kemampuan bawaan siswa dalam kelas apa pun biasanya lebih homogen daripada penyebaran kemampuan di seluruh sekolah.
Dengan demikian, siswa yang paling mampu mungkin menemukan diri mereka mencetak skor di dekat bagian bawah kelas yang sulit, maju di mana mereka mendaftar, sementara siswa yang paling tidak mampu dapat mencetak skor di dekat bagian atas kelas pengantar mudah yang mereka ambil. Ini dapat mengacaukan upaya langsung untuk menghubungkan peringkat ujian secara langsung dengan atribut siswa dan kelas.
Analisis
Buat indeks siswa dengan dan biarkan atribut siswa saya diberikan oleh vektor x i . Buat indeks kelas dengan j dan biarkan atribut kelas j diberikan oleh vektor z j . Himpunan siswa yang terdaftar di kelas j adalah A j .saya saya xsaya j j zj j SEBUAHj
Menganggap "kekuatan" dari masing-masing siswa adalah fungsi dari atribut mereka ditambah beberapa nilai acak, yang mungkin juga memiliki nol berarti:ssaya
Kami memodelkan ujian di kelas dengan menambahkan nilai acak independen pada kekuatan setiap siswa yang terdaftar di kelas dan mengubahnya menjadi peringkat. Dari mana, jika siswa i terdaftar di kelas j , peringkat relatifnya r i , j ditentukan oleh posisi mereka dalam susunan nilai yang diurutkanj saya j rsaya , j
Posisi ini dibagi oleh satu lebih dari total pendaftaran kelas untuk memberikan variabel dependen, peringkat persentase:rsaya , j
Saya mengklaim bahwa hasil regresi bergantung (sedikit) pada ukuran dan struktur nilai acak (tidak teramati) dan δ i , j .εsaya δsaya , j Hasilnya juga tergantung pada bagaimana tepatnya siswa terdaftar di kelas. Ini harus jelas secara intuitif, tetapi yang tidak begitu jelas - dan tampaknya sulit untuk dianalisis secara teoritis - adalah bagaimana dan berapa banyak nilai yang tidak teramati dan struktur kelas memengaruhi regresi.
Simulasi
Tanpa terlalu banyak upaya, kami dapat mensimulasikan situasi ini untuk membuat dan menganalisis beberapa data sampel. Salah satu keuntungan dari simulasi adalah dapat menggabungkan kekuatan sebenarnya dari siswa, yang pada kenyataannya tidak dapat diamati. Lain adalah bahwa kita dapat memvariasikan ukuran khas dari nilai yang tidak teramati serta tugas kelas. Ini memberikan "kotak pasir" untuk menilai metode analitik yang diusulkan seperti regresi.
Untuk memulai, mari atur penghasil angka acak untuk hasil yang dapat direproduksi dan tentukan ukuran masalahnya. Saya menggunakan
R
karena tersedia untuk siapa saja.Untuk memberikan realisme, buatδsaya , j j
n.classes
kelas dengan berbagai kesulitan pada dua skala (matematika dan verbal, dengan korelasi negatif), dilakukan pada berbagai tingkat akademik (mulai dari 1 = pengantar hingga 7 = penelitian), dan dengan variabel yang mudah. (Dalam kelas "mudah", perbedaan antara jumlah pembelajaran siswa mungkin besar dan / atau ujian dapat memberikan sedikit diskriminasi di antara siswa. Ini dimodelkan dengan istilah acak itu, untuk kelas j cenderung besar (Hasil ujian akan hampir tidak dapat diprediksi dari data kekuatan siswa. Ketika kelas tidak "mudah," istilah-istilah acak ini sangat kecil dan kekuatan siswa dapat dengan sempurna menentukan peringkat ujian.)Para siswa tersebar di antara empat tahun dan diberkahi dengan nilai acak atribut mereka. Tidak ada korelasi di antara atribut-atribut ini:
Modelnya adalah bahwa setiap siswa memiliki "kekuatan" yang melekat yang ditentukan sebagian oleh atribut mereka dan sebagian oleh "kemampuan" mereka, yang merupakan nilai . Koefisien kekuatan , yang menentukan kekuatan dalam hal atribut lainnya, adalah apa yang akan diestimasi oleh analisis data selanjutnya. Jika Anda ingin bermain dengan simulasi ini, lakukan dengan mengubah . Berikut ini adalah serangkaian koefisien yang menarik dan realistis yang mencerminkan kelanjutan pembelajaran siswa di seluruh perguruan tinggi (dengan jumlah besar antara tahun 2 dan 3); di mana 100 poin pada setiap bagian dari SAT bernilai sekitar satu tahun sekolah; dan di mana sekitar setengah variasi disebabkan oleh nilai "kemampuan" yang tidak ditangkap oleh nilai SAT atau tahun di sekolah.εsaya
beta
beta
students$ability
beta$ability
beta$sigma
ease
classes
spread
assignments <-...
(Sebagai contoh apa yang telah dicapai langkah ini, lihat gambar lebih lanjut di bawah ini.)
Untuk data mentah ini kami melampirkan atribut siswa dan kelas untuk membuat dataset yang cocok untuk analisis:
Mari mengarahkan diri kita dengan memeriksa sampel data secara acak:
Catatan 118, misalnya, mengatakan bahwa siswa # 28 mendaftar di kelas # 1 dan mendapat skor ke-22 (dari bawah) pada ujian dengan peringkat persentase 0,957. Tingkat kesulitan keseluruhan kelas ini adalah 0,0523 (sangat mudah). Sebanyak 22 siswa terdaftar. Siswa ini adalah mahasiswa tahun kedua (tahun 2) dengan 590 matematika, 380 skor SAT verbal. Kekuatan akademik yang melekat secara keseluruhan mereka adalah 16,9. Mereka terdaftar di empat kelas pada saat itu.
Dataset ini sesuai dengan uraian dalam pertanyaan. Misalnya, peringkat persentase memang hampir seragam (karena harus untuk setiap dataset lengkap, karena peringkat persentase untuk kelas tunggal memiliki distribusi seragam diskrit).
Ingat, berdasarkan koefisien dalam
beta
, model ini telah mengasumsikan hubungan yang kuat antara nilai ujian dan variabel yang ditunjukkan dalam dataset ini. Tetapi apa yang ditunjukkan oleh regresi? Mari kita mundur logistik peringkat persentase terhadap semua karakteristik siswa yang dapat diamati yang mungkin terkait dengan kemampuan mereka, serta indikator kesulitan kelas:Plot diagnostik (
plot(fit)
) terlihat fastastic: residualnya adalah homoscedastik dan sangat normal (walaupun sedikit berekor, yang tidak ada masalah); tidak ada pencilan; dan tidak ada pengaruh yang tidak diinginkan dalam pengamatan apa pun.level
level
(Omong-omong, menggunakan peringkat persentase yang tidak diubah dalam regresi tidak secara kualitatif mengubah hasil yang dilaporkan di bawah ini.)
spread
spread
spread
1
Kali ini R-squared jauh lebih baik (walaupun masih belum bagus). Namun, semua koefisien telah meningkat sebesar 20 - 100%. Tabel ini membandingkannya dengan beberapa simulasi tambahan:
spread
ability
ability
sigma
level
Analisis cepat ini menunjukkan bahwa regresi, setidaknya seperti yang dilakukan di sini, akan mengacaukan bentuk variasi yang tidak dapat dihindari dengan koefisien. Selanjutnya, koefisien juga tergantung (sampai batas tertentu) pada bagaimana siswa didistribusikan di antara kelas-kelas. Ini sebagian dapat ditampung dengan memasukkan atribut kelas di antara variabel independen dalam regresi, seperti yang dilakukan di sini, tetapi meskipun demikian pengaruh distribusi siswa tidak hilang.
Kurang adanya prediktabilitas kinerja siswa sejati, dan variasi dalam pembelajaran siswa dan kinerja aktual pada ujian, tampaknya menyebabkan estimasi koefisien menyusut ke nol. Mereka tampaknya melakukannya secara seragam, menunjukkan bahwa koefisien relatif mungkin masih bermakna.
sumber
keterampilan siswa yang tidak teramati dimodelkan melalui komponen acakvsaya sementara esaya j model unobservables non sistematis lainnya. Korelasi antara tanggapan (pemeriksaan) dapat ditambahkan dengan menegaskan struktur kovarian umum untukesaya j . Mengapa bukan struktur varian White (atau sandwich / robust)? Selain itu, beberapa korelasi tanggapan dapat diperhitungkan dalamμsaya j (ketergantungan bersyarat).
(Ini hanya ide dari pengalaman bias saya, komentar dan kritik lebih dari diterima.)
Kemampuan yang tidak dapat diobservasi cenderung berkorelasi dengan siswa atau ujian atribut yang dapat diobservasi di dalamnyaμsaya j . Asumsi ini menjadikan model ini RE dengan komponen kesalahan yang berkorelasi, yang dapat diperkirakan oleh ML atau penaksir dua tahap: tahap pertama: transformasi dalam (atau analog) yang menghilangkanvsaya . Tahap kedua: OLS pada model yang diubah.
sumber
Anda mungkin ingin mencoba regresi logistik. Transformasi logitdalam( hal1 - hal) akan menyebarkan variabel respons Anda ke luar garis nyata sehingga Anda tidak akan mendapatkan persentase peringkat yang diprediksi absurd seperti -3% atau + 110%.
sumber
Model yang sempurna dalam hal ini akan memetakan input (kovariat apa pun yang Anda miliki) ke output (pangkat siswa di kelas). Cara lain untuk memikirkan hal ini adalah dengan memetakan pertama ke skor, dan kemudian memetakan skor tersebut ke peringkat. Saya akan mengabaikan kesalahan untuk saat ini.
nilai tes:y= Σ ßx
pangkat:r = R ( y)
Di manaR adalah fungsi peringkat. Masalahnya adalahR adalah fungsi non-linear yang sepenuhnya bergantung pada data itu sendiri. Jika kita berasumsi bahwa kita memiliki jumlah data tak terbatas, maka kita tahu distribusi lengkapnyay , dan R ( y) pada dasarnya adalah fungsi kepadatan kumulatif. Ini memberi tahu Anda berapa persen orang yang mendapat skor lebih buruk daripada Anda dalam ujian, area di sebelah kiri skor Anda.
Ini tampaknya sangat mirip dengan bentuk fungsional dari model linier umum. Saya pikir inilah mengapa pendekatan regresi logistik diusulkan oleh @ Mike Anderson. Jika skor ujian Anda didistribusikan secara logistik, maka fungsi tautan yang akan digunakan adalah logit (kebalikannya adalah fungsi kepadatan kumulatif yang kami pedulikan). Demikian pula, jika skor didistribusikan secara normal, fungsi probit akan menjadi fungsi tautan.
Untuk regresi Anda, satu-satunya cara untuk memperkirakan peringkat adalah dengan mengatakan "mengingat bahwa data saya didistribusikan sebagai X, titik ini berada dalam persentil ke-34". Jika tidak, bagaimana Anda tahu apa artinya peningkatan skor dua poin Anda dalam hal peringkat? Peringatannya adalah Anda harus memperkirakan distribusi itu untuk memilih fungsi tautan Anda (bentuk-bentuk fungsional tertentu akan membuat hidup Anda jauh lebih mudah). Selain itu, model ini tidak akan mengatakan "Anda adalah yang terbaik ke-6 dari kelas 38", melainkan "jika skor tes dibagikan seperti yang kami pikirkan, skor Anda akan menempatkan Anda dalam persentil ke-15."
sumber