Jumlah skor penilaian vs skor faktor yang diperkirakan?

12

Saya tertarik untuk menerima saran tentang kapan harus menggunakan " skor faktor " dibandingkan jumlah skor saat membuat skala. Yaitu metode "Refined" daripada "non-refined" untuk menilai suatu faktor. Dari DiStefano et al. (2009; pdf ), penekanan ditambahkan:

Ada dua kelas utama metode perhitungan skor faktor: disempurnakan dan tidak disempurnakan. Metode non-rafinasi relatif sederhana, prosedur kumulatif untuk memberikan informasi tentang penempatan individu pada distribusi faktor. Kesederhanaan cocok untuk beberapa fitur menarik, yaitu, metode non-halus keduanya mudah untuk dihitung dan mudah diinterpretasikan. Metode perhitungan yang disempurnakan menciptakan skor faktor menggunakan pendekatan yang lebih canggih dan teknis. Mereka lebih tepat dan kompleks daripada metode yang tidak disempurnakan dan memberikan perkiraan yang merupakan skor terstandarisasi.

Menurut saya, jika tujuannya adalah untuk menciptakan skala yang dapat digunakan lintas studi dan pengaturan, maka jumlah sederhana atau skor rata-rata dari semua item skala masuk akal. Tetapi katakanlah tujuannya adalah untuk mengevaluasi efek pengobatan dari suatu program dan perbedaan penting ada di dalam sampel — kelompok perlakuan vs kelompok kontrol. Apakah ada alasan mengapa kita lebih suka skor faktor daripada menghitung jumlah atau rata-rata?

Agar nyata tentang alternatif, ambil contoh sederhana ini:

library(lavaan)
library(devtools)

# read in data from gist ======================================================
# gist is at https://gist.github.com/ericpgreen/7091485
# this creates data frame mydata
  gist <- "https://gist.github.com/ericpgreen/7091485/raw/f4daec526bd69557874035b3c175b39cf6395408/simord.R"
  source_url(gist, sha1="da165a61f147592e6a25cf2f0dcaa85027605290")
  head(mydata)
# v1 v2 v3 v4 v5 v6 v7 v8 v9
# 1  3  4  3  4  3  3  4  4  3
# 2  2  1  2  2  4  3  2  1  3
# 3  1  3  4  4  4  2  1  2  2
# 4  1  2  1  2  1  2  1  3  2
# 5  3  3  4  4  1  1  2  4  1
# 6  2  2  2  2  2  2  1  1  1

# refined and non-refined factor scores =======================================
# http://pareonline.net/pdf/v14n20.pdf

# non-refined -----------------------------------------------------------------
  mydata$sumScore <- rowSums(mydata[, 1:9])
      mydata$avgScore <- rowSums(mydata[, 1:9])/9
  hist(mydata$avgScore)

# refined ---------------------------------------------------------------------
  model <- '
            tot =~ v1 + v2 + v3 + v4 + v5 + v6 + v7 + v8 + v9
           '
  fit <- sem(model, data = mydata, meanstructure = TRUE,
             missing = "pairwise", estimator = "WLSMV")
  factorScore <- predict(fit)
  hist(factorScore[,1])
Eric Green
sumber
Saya telah menghapus "intervensi" dari judul untuk membuat pertanyaan terdengar lebih umum dan karena intervensi mungkin tidak memiliki pengaruh yang unik dan spesifik pada perbedaan antara dua jenis perhitungan konstruksi. Tolong, Anda dipersilakan untuk memutar kembali edit saya jika Anda tidak setuju.
ttnphns
1
They are more exactPenekanan tambahan ini seharusnya tidak mengalihkan kita dari kenyataan bahwa bahkan skor faktor pun pasti tidak pasti ("tidak ditentukan").
ttnphns
Lihat juga pertanyaan serupa ini: stats.stackexchange.com/q/31967/3277 .
ttnphns
Saya pikir "intervensi" relevan sebagai kasus penggunaan khusus, tetapi tidak harus dalam judul. Saya telah menyoroti masalah utama dalam pertanyaan. Adapun penekanan pada "lebih tepat", saya ingin tahu tentang hal ini mengingat pengamatan yang Anda buat tentang skor faktor menjadi tak tentu. Terima kasih atas tautan ke pertanyaan lain.
Eric Green
"more exact". Di antara skor faktor yang dihitung secara linear, metode regresi adalah yang paling "tepat" dalam arti "paling berkorelasi dengan nilai-nilai faktor benar yang tidak diketahui". Jadi ya, lebih tepat (dalam pendekatan aljabar linier), tetapi tidak sepenuhnya tepat.
ttnphns

Jawaban:

6

Saya sendiri pernah bergulat dengan ide ini di beberapa proyek saat ini. Saya pikir Anda perlu bertanya pada diri sendiri apa yang diperkirakan di sini. Jika model satu faktor cocok, maka skor faktor memperkirakan faktor laten. Jumlah langsung atau rata-rata dari variabel manifes Anda memperkirakan sesuatu yang lain, kecuali jika setiap pengamatan memuat faktor yang sama, dan keunikannya juga sama. Dan sesuatu yang lain mungkin bukan jumlah yang menarik secara teoritis.

Jadi, jika model satu faktor cocok, Anda mungkin disarankan untuk menggunakan skor faktor. Saya mengambil poin Anda tentang perbandingan antar studi, tetapi dalam studi tertentu, saya pikir skor faktor memiliki banyak hal untuk mereka.

Yang menarik adalah ketika model satu faktor tidak cocok, baik karena model dua faktor berlaku (atau lebih tinggi), atau karena struktur kovarians lebih rumit daripada yang diprediksi oleh model faktor. Bagi saya, pertanyaannya adalah apakah total variabel mengacu pada sesuatu yang nyata. Ini terutama benar jika data memiliki lebih dari satu dimensi. Dalam praktiknya, yang sering terjadi adalah Anda memiliki banyak variabel terkait (item pada survei, mungkin), dengan satu atau dua di antaranya sangat berbeda dari yang lain. Anda bisa mengatakan, "Persetan dengan ini", dan ambil rata-rata dari segalanya, apa pun artinya. Atau Anda bisa mengikuti skor faktor. Jika Anda cocok dengan model satu faktor, yang biasanya akan terjadi, adalah bahwa analisis faktor akan menurunkan variabel yang kurang bermanfaat (atau setidaknya, variabel-variabel yang benar-benar berada pada skor faktor kedua). Akibatnya, ia melihat mereka sebagai milik dimensi yang berbeda dan mengabaikannya.

Jadi saya percaya bahwa skor faktor dapat memilah data untuk memberikan sesuatu yang lebih uni-dimensional daripada yang Anda mulai. Tapi saya tidak punya referensi untuk ini, dan saya masih mencoba mencari tahu dalam pekerjaan saya sendiri jika saya suka pendekatan ini. Bagi saya, bahaya besar adalah overfitting ketika Anda membajak skor ke model lain dengan data yang sama. Skor sudah menjadi jawaban untuk pertanyaan optimasi, jadi di mana itu meninggalkan sisa analisis? Aku benci berpikir.

Tetapi pada akhirnya, apakah jumlah atau total variabel benar-benar masuk akal jika sesuatu seperti model satu faktor tidak berlaku?

Banyak pertanyaan ini tidak akan muncul jika orang merancang skala yang lebih baik untuk memulai.

Placidia
sumber
Saya menghargai komentar Anda, @Placidia. Anda memberikan kejelasan sambil mengingatkan kami tentang kekacauan yang lebih besar! Saya pikir ini adalah hal yang menarik untuk dipertimbangkan: "Jika model faktor cocok, maka skor faktor memperkirakan faktor laten. Jumlah langsung atau rata-rata dari variabel manifes Anda memperkirakan sesuatu yang lain, kecuali jika setiap pengamatan memuat sama rata pada faktor, dan Keunikan juga sama. Dan sesuatu yang lain mungkin bukan kuantitas yang menarik secara teoretis. "
Eric Green
+1 untuk jawaban yang sangat bijaksana. Beberapa pemikiran untuk ditambahkan: 1) mengenai komparabilitas lintas studi, penting untuk mengenali bahwa tidak seperti pemuatan komponen - yang dapat berubah sedikit dalam menanggapi variabel yang dimasukkan / dikecualikan dari model - pemuatan faktor umum adalah perkiraan parameter. Selanjutnya, mereka harus mereplikasi (dalam kesalahan pengambilan sampel) dari penelitian ke penelitian, dan dengan demikian, demikian juga skor faktor. 2) Jika Anda khawatir tentang menggunakan skor faktor, Anda mungkin melihat indeks determinasi dan seberapa baik korelasi skor faktor Anda mencerminkan korelasi laten ...
jsakaluk
1
... karena saya pikir ini adalah strategi yang dibahas dalam DiStefanno et. Al. kertas untuk mengevaluasi apakah skor faktor dapat "dipercaya". Dan akhirnya 3) jika tujuan Anda, seperti yang dijelaskan Placidia, adalah untuk menganalisis sesuatu yang sebagian besar unidimensional, Anda mungkin mempertimbangkan pendekatan analisis bifactor, yang seperti yang saya pahami, pertama-tama mengekstrak faktor umum yang menjadi dasar setiap variabel dimuat, kemudian orthogonal berikutnya faktor diekstraksi untuk himpunan bagian dari variabel, yang seolah-olah mencerminkan faktor yang paling penting yang dapat dibedakan, di luar dimensi umum yang mengikat semua variabel bersama-sama.
jsakaluk
Placidia, dalam pengeditan terakhir jawaban Anda, Anda berulang kali membatasi diri dengan ekspresi one-factor model. Saya hanya ingin tahu mengapa. Apakah Anda mengatakan bahwa dalam model 2-faktor, skor faktor tidak estimate the latent factorlagi? Kenapa begitu? Dan juga, bagaimana Anda mendefinisikan "model satu faktor" dalam konteks kuesioner yang sedang dikembangkan (konteks kemungkinan Q): adalah bahwa kuesioner tersebut merupakan faktor tunggal / skala atau bahwa setiap item yang dimasukkan dihitung dengan ketat hanya dimiliki oleh satu faktor /skala? Tolong, maukah Anda membuatnya lebih jelas?
ttnphns
Saya ingin menghindari potensi kesalahpahaman. Jika Anda percaya pada model dua faktor, mungkin menggunakan total ringkasan akan di luar meja. Anda membutuhkan dua ringkasan untuk dua dimensi dalam data. Saya ingin mengklarifikasi bahwa jawaban saya adalah tentang memilih antara statistik ringkasan dan skor faktor dari model satu faktor. Saya mengklaim bahwa skor satu faktor dapat berguna bahkan jika modelnya salah. Saran @ jsakaluk tentang pemasangan model multi-faktor dan memilih faktor pertama juga dimungkinkan, dan mungkin lebih baik dalam beberapa kasus.
Placidia
4

Penjumlahan atau rata-rata item yang dimuat oleh faktor umum adalah cara tradisional untuk memperhitungkan skor konstrust (konstruk yang mewakili faktor tha). Ini adalah versi paling sederhana dari "metode kasar" skor faktor komputasi ; Poin utama metode ini adalah menggunakan pemuatan faktor sebagai bobot skor. Sementara metode yang disempurnakan untuk menghitung skor menggunakan koefisien skor yang diperkirakan secara khusus (dihitung dari beban) sebagai bobot.

Jawaban ini tidak secara universal "menyarankan tentang kapan harus menggunakan skor faktor [disempurnakan] dibandingkan jumlah skor item biasa", yang merupakan domain luas, tetapi berfokus pada menunjukkan beberapa implikasi nyata yang konkret terjadi dengan memilih satu cara untuk memperhitungkan konstruksi di atas yang lain cara.

Pertimbangkan situasi sederhana dengan beberapa faktor dan dua item dimuat olehnya. Menurut Catatan Kaki 1 di sini menjelaskan bagaimana skor faktor dihitung, koefisien skor faktor dan untuk menghitung skor faktor berasal dariFb1b2F

s1=b1r11+b2r12

s2=b1r12+b2r22

s1s2r12bbb

rr11r22

b1=s2r12s1r1221

b2=s1r12s2r1221

b1b2=(r12+1)(s1s2)r1221.

bsr12b1b2

masukkan deskripsi gambar di sini

masukkan deskripsi gambar di sini

s1s2=0bs1s2b1b2r12

b

s1=.70s2=.45.25

c. Jika mereka berkorelasi kuat, item yang dimuat lebih lemah adalah duplikat junior dari yang lainnya. Apa alasan untuk menghitung indikator / gejala yang lebih lemah dalam keberadaan pengganti yang lebih kuat? Tidak banyak alasan. Dan skor faktor menyesuaikan untuk itu (sementara penjumlahan sederhana tidak). Perhatikan bahwa dalam kuesioner multifaktor, "item dengan muatan lebih lemah" seringkali merupakan item faktor lain, dimuat lebih tinggi di sana; sementara dalam faktor sekarang, item ini ditahan, seperti yang kita lihat sekarang, dalam perhitungan skor faktor, - dan itu berfungsi dengan benar.

b. Tetapi jika barang-barang, meskipun dimuat seperti sebelumnya, tidak berkorelasi kuat, maka itu adalah indikator / gejala yang berbeda bagi kami. Dan bisa dihitung "dua kali", yaitu baru dijumlahkan. Dalam hal ini, skor faktor mencoba untuk menghormati item yang lebih lemah sejauh pemuatannya masih memungkinkan, karena itu merupakan perwujudan faktor yang berbeda.

Sebuah. Dua item juga dapat dihitung dua kali, yaitu hanya dijumlahkan, setiap kali mereka memiliki jumlah yang sama, cukup tinggi, berdasarkan faktor, apa pun korelasi antara item-item ini. (Skor faktor menambah bobot pada kedua item ketika berkorelasi tidak terlalu ketat, namun bobotnya sama.) Tampaknya tidak masuk akal bahwa kita biasanya menoleransi atau menerima item yang cukup duplikat jika semuanya dimuat dengan kuat. Jika Anda tidak suka ini (kadang-kadang Anda mungkin ingin) Anda pernah bebas untuk menghilangkan duplikat dari faktor secara manual.

masukkan deskripsi gambar di sini

Jadi, dalam perhitungan skor faktor (disempurnakan) (dengan metode regresi setidaknya) ada intrik "bergaul / mendorong" di antara variabel-variabel yang membentuk konstruk, dalam pengaruhnya terhadap skor . Indikator yang sama kuatnya saling menoleransi, sama kuatnya dengan indikator yang tidak berkorelasi kuat. "Tutup mulut" muncul dari indikator yang lebih lemah berkorelasi kuat dengan indikator yang lebih kuat. Penambahan / rata-rata sederhana tidak memiliki intrik "mendorong duplikat yang lemah".

Silakan lihat juga jawaban ini yang memperingatkan bahwa faktor secara teoritis lebih merupakan "esensi di dalam" daripada kumpulan atau tumpukan fenomena indikatif "nya". Oleh karena itu secara membuta menyimpulkan item - tidak mengambil muatan atau korelasi mereka dalam pikiran - berpotensi bermasalah. Di sisi lain, faktor, seperti yang dicetak, bisa berupa semacam jumlah barang-barangnya, dan semuanya adalah tentang konsepsi yang lebih baik dari bobot dalam jumlah.


Mari kita juga melihat kekurangan metode kasar atau penjumlahan secara lebih umum dan abstrak .

ba

F^iiFiX1X2a1a2FUb

F^i=b1X1i+b2X2i=b1(Fi+U1i)+b2(Fi+U2i)=(b1+b2)Fi+b1U1i+b2U2i

b1U1i+b2U2iF^iFiUF^Fbvar[b1U1i+b2U2i]F^FbaXF^F

abFF^

F^i=a1X1i+a2X2i= ... =(a1+a2)Fi+a1U1i+a2U2i

baaa

ttnphns
sumber
Terima kasih, @ttnphns, atas tanggapan yang bermanfaat. Masuk akal bagi saya bahwa barang dengan muatan yang kira-kira sama bisa saja dijumlahkan (a). Sayangnya, saya tidak berpikir saya pernah mengalami situasi dalam pekerjaan saya di mana, ketika menggunakan skala yang ada yang seharusnya unidimensional, saya menemukan bahwa item memiliki beban yang sama.
Eric Green
Jadi saya sangat tertarik pada penjelasan Anda tentang situasi di mana memuat berbeda dan saran untuk memeriksa korelasi antar-item. Saya tertarik untuk mengetahui apakah Anda memiliki aturan praktis untuk korelasi "kuat" (c) / "tidak kuat" (b) atau memuat "cukup tinggi" dalam (a).
Eric Green
1
Akhirnya, saya akan mencatat bahwa latar belakang pertanyaan ini adalah norma disiplin yang luar biasa (setidaknya dalam psikologi) untuk menggunakan skala "tervalidasi" yang membutuhkan jumlah sederhana (rata-rata) bahkan ketika mengelola skala untuk populasi baru yang tidak bernorma. Seringkali tujuannya adalah perbandingan sampel silang (bahkan ketika tidak beralasan), yang membuat penjumlahan sederhana sebagai pendekatan umum.
Eric Green
Studi intervensi adalah kasus penggunaan yang menarik dalam pikiran saya karena perbandingan minat ada dalam sampel. Tampak bagi saya bahwa kita lebih peduli tentang ukuran efek pengobatan daripada skor "mentah" pada kedua kelompok - terutama ketika menggunakan skala di luar populasi yang digunakan untuk mengembangkan / menormalkan skala. Jika skor faktor "lebih baik" dalam beberapa situasi, maka tampaknya layak untuk menggunakan pendekatan sederhana yang mendukung pendekatan yang lebih masuk akal karena mengetahui bahwa pada akhirnya kita hanya ingin melihat ukuran efek pengobatan.
Eric Green
1
(lanjutan) Use "validated" scalestidak dengan sendirinya memerlukan jumlah yang sederhana: jika validasi baik (sampel besar yang representatif, korelasi baik, jumlah faktor yang tepat, kecocokan bagus, dll.) skor faktor yang dihitung (koefisiennya) dapat dianggap normatif. bobot untuk digunakan dalam populasi baru. Dalam hal ini , saya tidak dapat melihat keuntungan dalam jumlah sederhana.
ttnphns