Persamaan dan perbedaan antara model IRT dan model regresi Logistik

9

Terlepas dari kesamaan mendasar seperti kedua model ini, probabilitas keberhasilan daripada memodelkan variabel respons secara langsung; Saya percaya bahwa ada jawaban yang lebih andal yang menunjukkan perbedaan dan persamaan di antara model-model ini.

Satu perbedaannya adalah, dalam logistik seseorang dapat menggunakan tipe dan jumlah variabel independen yang berbeda; sedangkan dalam model IRT kita hanya memiliki satu variabel independen yaitu kemampuan.

Satu lagi kesamaan: Untuk memperkirakan parameter dalam logistik kami menggunakan pendekatan kemungkinan maksimum. Dalam IRT juga kami menggunakan kemungkinan maksimum marginal sebagai salah satu pendekatan estimasi parameter.

Jadi, adakah yang bisa menyatakan perbedaan statistik / matematis dalam kedua model ini?

Artiga
sumber
1
IRT (alias analisis sifat laten) kadang-kadang disebut analisis faktor logistik ( lihat ). Perbedaan antara LR dan IRT secara umum paralel dengan perbedaan antara regresi linier dan analisis faktor. Dalam regresi, variabel dependen diberikan, bersama dengan variabel manifes independen. Dalam analisis Faktor dan model variabel laten lainnya, laten diekstraksi dari variabel manifes yang diberikan; selain itu, laten yang kemudian dilihat sebagai variabel independen yang "memprediksi" yang nyata.
ttnphns
@ttnphns, Terima kasih banyak atas jawabannya. Jadi saya melakukan kesalahan jika saya merujuk variabel Y sebagai respons terhadap suatu item dan kemudian memodelkan probabilitas itu benar. Dalam skenario ini, bukankah saya sudah tahu variabel dependen saya? Dan satu pertanyaan lagi, variabel manifes yang Anda maksudkan tergantung pada IRT, kan?
Artiga
Mengulang. Dalam regresi, Anda memiliki DV nyata Y dan IV nyata X. Dalam model variabel laten (analisis faktor, IRT, ...) Anda hanya memiliki X. Faktor laten F diekstraksi dari X, tetapi diekstraksi untuk mempertimbangkannya sebagai prediktor X, yaitu, mereka melayani IV untuk X yang merupakan DV. Dalam regresi logistik, DV kategori adalah fungsi logistik dari kombinasi linear dari (biasanya kontinu) IV. Dalam IRT, variabel kategori yang diamati adalah fungsi logistik dari kombinasi linear dari Fs kontinu.
ttnphns

Jawaban:

11

Lihat Bagian 1.6 ("Perspektif regresi linier") dalam De Boeck dan Wilson (2008) Model Respons Item Penjelasan ( http://www.springer.com/de/book/9780387402758 ) dan Formann, AK (2007) , (Hampir) Kesetaraan antara perkiraan kemungkinan maksimum bersyarat dan campuran untuk beberapa model dari jenis Rasch, Dalam M. von Davier & CH Carstensen (Eds.), Multivariat dan distribusi campuran, model Rasch (hal. 177-189), New York: Peloncat.

Singkatnya: model IRT adalah model efek campuran nonlinear umum :

  • skor dari siswa ke item adalah variabel dependen,Yhalsaya{0,1}halsaya
  • diberi sifat siswa yang disampel secara acak, misalnya , tanggapannya dianggap independen yang didistribusikan oleh Bernoulli,θhalN(μ,σ2)
  • diberikan , prediktor adalah kombinasi linear dari karakteristik item θhalηhalsaya=logit(P(Yhalsaya=1))
    ηhalsaya=k=0KbkXsayak+θhal+εhalsaya,
  • biarkan jika , dan , jika tidak - maka dapatkan model Rasch Xsayak=-1,saya=kXsayak=0
    P(Yhalsaya=1θhal)=exp(θhal-bsaya)1+exp(θhal-bsaya);

Perhatikan bahwa model IRT diperluas ke berbagai aspek:

  • Sehubungan dengan kekuatan diskriminatif (2PL) dan rasio menebak (3PL) dari item
    P(Yhalsaya=1θhal)=csaya+(1-csaya)exp(Sebuahsaya(θhal-bsaya))1+exp(Sebuahsaya(θhal-bsaya))
  • Sehubungan dengan skor
    P(Yhalsaya=kθhal)=exp(Sebuahsayakθhal-bsayak)k=0Kexp(Sebuahsayakθhal-bsayak)
  • Sehubungan dengan karakteristik siswa yang diketahui yang membentuk populasi (misalnya jenis kelamin, status migrasi)
    θhalN(Zβ,σ2),
  • Sehubungan dengan membangun dimensi
    P(Yhalsaya=1θhal)=exp(dSebuahsayadθhald-bsaya)1+exp(dSebuahsayadθhald-bsaya),θhalNd(μ,Σ)
  • Sehubungan dengan kelas keterampilan diskrit (distribusi kontinu dapat dengan mudah didekati dengan yang terpisah)
    P(Yhalsaya=1θhal(l))=exp(θhal(l)-bsaya(l))1+exp(θhal(l)-bsaya(l)),θhal(l){θhal(1),...,θhal(L.)}

(diambil dari useR! 2015 slide untuk paket R TAM )

Tom
sumber
3
Ada juga makalah yang tersedia secara bebas oleh de Boeck et al di jstatsoft.org/article/view/v039i12 ini ditambah statmath.wu.ac.at/courses/deboeck/materials/handouts.pdf
Tim
0

Tanggapan @ Tom sangat bagus, tetapi saya ingin menawarkan versi yang lebih heuristik dan memperkenalkan konsep tambahan.

Regresi logistik

Bayangkan kita memiliki sejumlah pertanyaan biner. Jika kami tertarik pada probabilitas untuk menjawab ya untuk salah satu pertanyaan, dan jika kami tertarik pada pengaruh beberapa variabel independen terhadap probabilitas itu, kami menggunakan regresi logistik:

P(ysaya=1)=11+exhal(Xβ)=lHaigsayat-1(Xβ)

di mana saya mengindeks pertanyaan (yaitu item), X adalah vektor karakteristik responden, dan adalah efek dari masing-masing karakteristik tersebut dalam istilah peluang log.β

IRT

Sekarang, perhatikan bahwa saya mengatakan kami memiliki sejumlah pertanyaan biner. Semua pertanyaan itu mungkin memiliki sifat laten, misalnya kemampuan verbal, tingkat depresi, tingkat extraversion. Seringkali, kita tertarik pada tingkat sifat laten itu sendiri.

Misalnya, dalam Ujian Catatan Pascasarjana, kami tertarik untuk mengkarakterisasi kemampuan verbal dan matematika berbagai pelamar. Kami ingin mengukur skor mereka. Kami jelas dapat menghitung berapa banyak pertanyaan yang dikoreksi oleh seseorang, tetapi hal itu memperlakukan semua pertanyaan dengan nilai yang sama - pertanyaan itu tidak secara eksplisit menjelaskan fakta bahwa pertanyaan mungkin berbeda dalam kesulitan. Solusinya adalah teori respons barang. Sekali lagi, kami (untuk saat ini) tidak tertarik pada X atau , tetapi kami hanya tertarik pada kemampuan verbal seseorang, yang akan kami sebut . Kami menggunakan pola tanggapan setiap orang terhadap semua pertanyaan untuk memperkirakan :βθθ

P(ysaya=1)=lHaigsayat-1[Sebuahsaya(θj-bsaya)]

di mana adalah diskriminasi item i dan adalah kesulitannya.Sebuahsayabsaya

Jadi, itulah satu perbedaan yang jelas antara regresi logistik reguler dan IRT. Dalam yang pertama, kami tertarik pada efek variabel independen pada satu variabel dependen biner. Dalam yang terakhir, kami menggunakan banyak variabel biner (atau kategorikal) untuk memprediksi beberapa sifat laten. Posting asli mengatakan bahwa adalah variabel independen kami. Dengan hormat saya tidak setuju, saya pikir ini lebih seperti ini adalah variabel dependen di IRT.θ

Saya menggunakan item biner dan regresi logistik untuk kesederhanaan, tetapi pendekatannya menggeneralisasi untuk memesan item dan memesan regresi logistik.

IRT Penjelasan

Bagaimana jika Anda tertarik pada hal-hal yang memprediksi sifat laten, yaitu X dan disebutkan sebelumnya?β

Seperti disebutkan sebelumnya, satu model untuk memperkirakan sifat laten hanya menghitung jumlah jawaban yang benar, atau menambahkan semua nilai dari item Likert Anda (yaitu kategorikal). Itu memiliki kekurangannya; Anda mengasumsikan bahwa setiap item (atau setiap level dari setiap item) bernilai jumlah yang sama dari sifat laten. Pendekatan ini cukup umum di banyak bidang.

Mungkin Anda dapat melihat ke mana saya akan pergi dengan ini: Anda dapat menggunakan IRT untuk memprediksi tingkat sifat laten, kemudian melakukan regresi linier biasa. Itu akan mengabaikan ketidakpastian dalam sifat laten setiap orang.

Pendekatan yang lebih berprinsip adalah menggunakan IRT penjelas: Anda secara simultan memperkirakan menggunakan model IRT dan Anda memperkirakan efek Xs Anda pada seolah-olah Anda menggunakan regresi linier. Anda bahkan dapat memperluas pendekatan ini untuk memasukkan efek acak untuk mewakili, misalnya, fakta bahwa siswa bersarang di sekolah.θθ

Lebih banyak bacaan tersedia di intro luar biasa Phil Chalmers untuk mirtpaketnya. Jika Anda memahami mur dan baut IRT, saya akan pergi ke bagian Efek Campuran IRT dari slide ini . Stata juga mampu memasang model-model IRT eksplanatori (walaupun saya yakin itu tidak dapat memenuhi efek acak model-model IRT eksplanatori seperti yang saya jelaskan di atas).

Weiwen Ng
sumber