Saya menggunakan Principal Component Analysis (PCA) untuk membuat indeks yang diperlukan untuk penelitian saya. Pertanyaan saya adalah bagaimana saya harus membuat indeks tunggal dengan menggunakan komponen utama yang disimpan yang dihitung melalui PCA.
Sebagai contoh, saya memutuskan untuk mempertahankan 3 komponen utama setelah menggunakan PCA dan saya menghitung skor untuk 3 komponen utama ini. Apa cara yang tepat untuk membuat, untuk setiap responden, satu indeks dari 3 skor ini?
- Apakah relevan untuk menambahkan 3 skor yang dihitung untuk memiliki nilai gabungan?
- Atau rata-rata 3 skor untuk memiliki nilai seperti itu?
- Atau haruskah saya hanya menyimpan komponen utama pertama (yang terkuat) saja dan menggunakan nilainya sebagai indeks?
Atau, orang dapat menggunakan Analisis Faktor (FA) tetapi pertanyaan yang sama tetap: bagaimana membuat indeks tunggal berdasarkan beberapa skor faktor?
pca
factor-analysis
rating
composite
scale-construction
pengguna179313
sumber
sumber
Jawaban:
Jawaban ini sengaja non-matematis dan berorientasi pada psikolog non-statistik (katakanlah) yang menanyakan apakah ia dapat menjumlahkan / skor faktor rata-rata faktor yang berbeda untuk mendapatkan skor "indeks komposit" untuk setiap responden.
Penjumlahan atau rata-rata skor beberapa variabel mengasumsikan bahwa variabel-variabel tersebut memiliki dimensi yang sama dan merupakan ukuran yang sepadan. (Dalam pertanyaan, "variabel" adalah skor komponen atau faktor , yang tidak mengubah hal itu, karena mereka adalah contoh dari variabel.)
Benar-benar (Gbr. 1), responden 1 dan 2 dapat dilihat sebagai sama atipikal (yaitu menyimpang dari 0, lokus pusat data atau skala asal), keduanya memiliki skor rata-rata yang sama dan ( 1.2 + .4 ) / 2 = .8 . Nilai 0,8 valid, sebagai tingkat atipikalitas, untuk konstruk X + Y sesempurna untuk X dan Y(.8+.8)/2=.8 (1.2+.4)/2=.8 .8 X+Y X Y terpisah. Variabel yang berkorelasi, mewakili satu dimensi yang sama, dapat dilihat sebagai pengukuran berulang dengan karakteristik yang sama dan perbedaan atau ketidaksetaraan skor mereka sebagai kesalahan acak. Oleh karena itu diperintahkan untuk menjumlahkan / rata-rata skor karena kesalahan acak diharapkan untuk membatalkan satu sama lain dalam spe .
Itu tidak demikian jika dan Y tidak cukup berkorelasi untuk dilihat "dimensi" yang sama. Untuk saat itu, deviasi / atipikalitas responden disampaikan oleh jarak Euclidean dari titik asal (Gbr. 2).X Y
Jarak itu berbeda untuk responden 1 dan 2: dan√.82+.82−−−−−−−√≈1.13 1.22+.42−−−−−−−−√≈1.26 X= .8 Y= - .8 X=0 Y=0
(You might exclaim "I will make all data scores positive and compute sum (or average) with good conscience since I've chosen Manhatten distance", but please think - are you in right to move the origin freely? Principal components or factors, for example, are extracted under the condition the data having been centered to the mean, which makes good sense. Other origin would have produced other components/factors with other scores. No, most of the time you may not play with origin - the locus of "typical respondent" or of "zero-level trait" - as you fancy to play.)
To sum up, if the aim of the composite construct is to reflect respondent positions relative some "zero" or typical locus but the variables hardly at all correlate, some sort of spatial distance from that origin, and not mean (or sum), weighted or unweighted, should be chosen.
Well, the mean (sum) will make sense if you decide to view the (uncorrelated) variables as alternative modes to measure the same thing. This way you are deliberately ignoring the variables' different nature. In other words, you consciously leave Fig. 2 in favour of Fig. 1: you "forget" that the variables are independent. Then - do sum or average. For example, score on "material welfare" and on "emotional welfare" could be averaged, likewise scores on "spatial IQ" and on "verbal IQ". This type of purely pragmatic, not approved satistically composites are called battery indices (a collection of tests or questionnaires which measure unrelated things or correlated things whose correlations we ignore is called "battery"). Battery indices make sense only if the scores have same direction (such as both wealth and emotional health are seen as "better" pole). Their usefulness outside narrow ad hoc settings is limited.
If the variables are in-between relations - they are considerably correlated still not strongly enough to see them as duplicates, alternatives, of each other, we often sum (or average) their values in a weighted manner. Then these weights should be carefully designed and they should reflect, this or that way, the correlations. This what we do, for example, by means of PCA or factor analysis (FA) where we specially compute component/factor scores. If your variables are themselves already component or factor scores (like the OP question here says) and they are correlated (because of oblique rotation), you may subject them (or directly the loading matrix) to the second-order PCA/FA to find the weights and get the second-order PC/factor that will serve the "composite index" for you.
But if your component/factor scores were uncorrelated or weakly correlated, there is no statistical reason neither to sum them bluntly nor via inferring weights. Use some distance instead. The problem with distance is that it is always positive: you can say how much atypical a respondent is but cannot say if he is "above" or "below". But this is the price you have to pay for demanding a single index out from multi-trait space. If you want both deviation and sign in such space I would say you're too exigent.
In the last point, the OP asks whether it is right to take only the score of one, strongest variable in respect to its variance - 1st principal component in this instance - as the only proxy, for the "index". It makes sense if that PC is much stronger than the rest PCs. Though one might ask then "if it is so much stronger, why didn't you extract/retain just it sole?".
sumber
Creating composite index using PCA from time series links to http://www.cup.ualberta.ca/wp-content/uploads/2013/04/SEICUPWebsite_10April13.pdf.
In that article on page 19, the authors mention a way to create a Non-Standardised Index (NSI) by using the proportion of variation explained by each factor to the total variation explained by the chosen factors. This NSI was then normalised.
sumber