Saya sedang dalam proses mengembangkan kuesioner secara empiris dan saya akan menggunakan angka acak untuk mengilustrasikannya. Untuk konteks, saya mengembangkan kuesioner psikologis yang bertujuan menilai pola pikir yang umumnya diidentifikasi pada individu yang memiliki gangguan kecemasan. Sebuah item bisa terlihat seperti "Saya perlu memeriksa oven berulang kali karena saya tidak bisa memastikannya mati ".
Saya memiliki 20 pertanyaan (Likert 5 poin) yang dapat terdiri dari satu atau dua faktor (perhatikan bahwa pada kenyataannya saya memiliki lebih dekat dengan 200 pertanyaan, terdiri dari 10 skala, dan setiap skala dapat terdiri dari dua faktor). Saya bersedia menghapus sekitar setengah item, meninggalkan 10 pertanyaan pada salah satu dari dua faktor.
Saya akrab dengan analisis faktor eksplorasi (EFA), konsistensi internal (alpha Cronbach), dan kurva karakteristik item dalam teori respons item (IRT). Saya dapat melihat bagaimana saya akan menggunakan salah satu metode ini untuk menentukan item mana yang "lebih buruk" dalam skala tunggal. Saya menghargai bahwa masing-masing metode juga menjawab pertanyaan yang berbeda, meskipun mereka mungkin mengarah pada hasil yang sama dan saya tidak yakin apa "pertanyaan" yang paling penting.
Sebelum kita mulai, mari kita pastikan saya tahu apa yang saya lakukan dengan masing-masing metode ini secara individual.
Dengan menggunakan EFA, saya akan mengidentifikasi jumlah faktor, dan menghapus item yang memuat paling sedikit (katakanlah <.30) pada faktor masing-masing atau lintas-beban secara substansial lintas faktor.
Dengan menggunakan konsistensi internal, saya akan menghapus item yang memiliki "alpha jika item dihapus" yang lebih buruk. Saya bisa melakukannya dengan asumsi satu faktor dalam skala saya, atau melakukannya setelah EFA awal untuk mengidentifikasi jumlah faktor dan kemudian menjalankan alpha saya untuk setiap faktor.
Menggunakan IRT, saya akan menghapus item yang tidak menilai faktor minat di sepanjang opsi respons (5 likert) mereka. Saya akan menjadi kurva karakteristik item eyeballing. Saya pada dasarnya akan mencari garis pada sudut 45 derajat mulai dari opsi 1 pada skala Likert hingga 5 sepanjang skor laten. Saya bisa melakukannya dengan asumsi satu faktor, atau melakukannya setelah
EFA awal untuk mengidentifikasi sejumlah faktor, dan kemudian menjalankan kurva untuk setiap faktor.
Saya tidak yakin metode mana yang digunakan untuk mengidentifikasi item mana yang "terburuk". Saya menggunakan yang terburuk dalam arti luas sehingga item tersebut akan merugikan ukuran, baik dalam hal keandalan atau validitas, yang keduanya sama pentingnya bagi saya. Mungkin saya bisa menggunakannya bersamaan, tapi saya tidak yakin bagaimana caranya.
Jika saya melanjutkan apa yang saya tahu sekarang dan memberikan yang terbaik, saya akan melakukan yang berikut:
- Lakukan PUS untuk mengidentifikasi sejumlah faktor. Hapus juga item dengan beban buruk pada faktor mereka masing-masing, karena saya tidak ingin item yang memuat buruk terlepas dari bagaimana mereka akan lakukan dalam analisis lain.
- Lakukan IRT dan hapus item buruk yang dinilai oleh analisis itu juga, jika ada yang tersisa dari EFA.
- Cukup laporkan Cronbach's Alpha dan jangan gunakan metrik itu sebagai alat untuk menghapus item.
Pedoman umum apa pun akan sangat dihargai!
Berikut ini juga daftar pertanyaan spesifik yang mungkin dapat Anda jawab:
Apa perbedaan praktis antara menghapus item berdasarkan memuat faktor dan menghapus item berdasarkan alpha Chronbach (dengan asumsi Anda menggunakan tata letak faktor yang sama untuk kedua analisis)?
Yang harus saya lakukan dulu? Dengan asumsi saya melakukan EFA dan IRT dengan satu faktor, dan keduanya mengidentifikasi item yang berbeda yang harus dihapus, analisis mana yang harus diprioritaskan?
Saya tidak sulit untuk melakukan semua analisis ini, meskipun saya akan melaporkan alpha Chronbach. Saya merasa seperti melakukan IRT saja akan meninggalkan sesuatu yang hilang, dan juga hanya untuk EFA.
Jawaban:
Saya tidak punya kutipan, tapi inilah yang saya sarankan:
Zeroth: Jika memungkinkan, bagi data menjadi pelatihan dan set tes.
Pertama lakukan EFA. Lihatlah berbagai solusi untuk melihat mana yang masuk akal, berdasarkan pengetahuan Anda tentang pertanyaan. Anda harus melakukan ini sebelum alpha Cronbach, atau Anda tidak akan tahu item mana yang menjadi faktor. (Menjalankan alpha pada SEMUA item mungkin bukan ide yang baik).
Selanjutnya, jalankan alfa dan hapus item yang memiliki korelasi jauh lebih buruk daripada yang lain di setiap faktor. Saya tidak akan membuat cutoff sewenang-wenang, saya akan mencari yang jauh lebih rendah daripada yang lain. Lihat apakah menghapus itu masuk akal.
Terakhir, pilih item dengan berbagai level "kesulitan" dari IRT.
Kemudian, jika memungkinkan, ulangi ini pada set tes, tetapi tanpa melakukan eksplorasi. Yaitu, lihat seberapa baik hasil yang ditemukan pada set pelatihan bekerja pada set tes.
sumber
Ketiga kriteria yang Anda sarankan sebenarnya dapat dilakukan dalam IRT, lebih khusus IRT multidimensi. Jika ukuran sampel Anda cukup besar mungkin akan menjadi cara yang konsisten untuk melakukannya untuk setiap subskala. Dengan cara ini Anda bisa mendapatkan manfaat IRT untuk memodelkan item secara mandiri (menggunakan model nominal untuk beberapa item, menggeneralisasi kredit parsial atau dinilai untuk yang lain, atau jika mungkin bahkan mengatur skala peringkat untuk membantu menafsirkan item-item politis dengan cara yang lebih pelit).
MIRT secara konseptual setara dengan analisis faktor tingkat item dan karenanya memiliki hubungan ekuivalen EFA linier untuk item dikotom dan politom. Saya tidak yakin apakah saya akan membeli ke dalam kriteria <0,3 untuk menjatuhkan barang, karena itu benar-benar tergantung pada konteks dan struktur faktor. Muatan kecil / lereng tidak memberikan informasi sebanyak mungkin tentang lokasi intersepsi, tetapi mungkin masih berguna karena mereka dapat menawarkan fungsi informasi yang lebih luas dan kurang memuncak di seluruh tingkat . Beberapa aplikasi dalam CAT menggunakan jenis-jenis item ini sejak awal juga karena mereka memberikan pita informasi yang lebih luas di awal pengujian.θ
Menjatuhkan item berdasarkan kriteria Cronbach kira-kira sama dengan menjatuhkan item yang memberikan keandalan marginal / empiris yang lebih baik di IRT, jadi jika perangkat lunak yang Anda gunakan mendukung statistik ini maka Anda dapat mengikuti strategi yang sama tanpa meninggalkan paradigma IRT. Saya akan lebih cenderung untuk memeriksa fungsi informasi namun untuk melihat apakah menghapus item sangat mempengaruhi pengukuran di berbagai tingkat (terkait dengan di mana penyadapan berada). Plot informasi relatif juga berguna di sini.θ
Anda dapat mencoba untuk menghapus item yang tidak sesuai dengan persyaratan unidimensional dari sebagian besar perangkat lunak IRT, tetapi saya tidak akan merekomendasikan hal ini jika mempengaruhi representasi teoritis dari konstruksi yang ada. Dalam aplikasi empiris, biasanya lebih baik untuk mencoba dan membuat model kita sesuai dengan teori kita, bukan sebaliknya. Juga, ini adalah di mana model bifactor / dua-tier cenderung sesuai karena Anda ingin memasukkan semua item yang mungkin sementara memperhitungkan multidimensi dengan cara yang sistematis dan diinginkan secara teoritis.
sumber
mirt
fscores()
sirt
TAM