Pada utilitas korelasi intercept-slope dalam model bertingkat

8

Dalam buku mereka "Analisis Multilevel: Pengantar Pemodelan Multilevel Dasar dan Lanjutan" (1999), Snijders & Bosker (bab 8, bagian 8.2, halaman 119) mengatakan bahwa korelasi intersep-slope, dihitung sebagai kovarians intersep-slope yang dibagi oleh akar kuadrat dari produk intercept variance dan slope variance, tidak dibatasi antara -1 dan +1 dan bahkan bisa tak terbatas.

Mengingat ini, saya tidak berpikir saya harus mempercayainya. Tapi saya punya contoh untuk diilustrasikan. Dalam salah satu analisis saya, yang memiliki ras (dikotomi), usia dan ras * usia sebagai efek tetap, kohort sebagai efek acak, dan variabel dikotomi ras sebagai kemiringan acak, rangkaian scatterplot saya menunjukkan bahwa kemiringan tidak bervariasi banyak di seluruh nilai. variabel cluster saya (yaitu, kohort), dan saya tidak melihat kemiringan menjadi lebih atau lebih curam di seluruh kohort. Uji Likelihood Ratio juga menunjukkan bahwa kesesuaian antara model mencegat acak dan kemiringan acak tidak signifikan meskipun ukuran sampel total saya (N = 22.156). Namun, korelasi intersep-slope mendekati -0,80 (yang akan menyarankan konvergensi yang kuat dalam perbedaan kelompok dalam variabel Y dari waktu ke waktu, yaitu, lintas kohort).

Saya pikir itu adalah ilustrasi yang baik tentang mengapa saya tidak mempercayai korelasi intersep-slope, di atas apa yang sudah dikatakan Snijders & Bosker (1999).

Haruskah kita benar-benar mempercayai dan melaporkan korelasi intersep-slope dalam studi bertingkat? Secara khusus, apa kegunaan korelasi tersebut?

EDIT 1: Saya tidak berpikir itu akan menjawab pertanyaan saya, tetapi gung meminta saya untuk memberikan informasi lebih lanjut. Lihat di bawah, jika itu membantu.

Data berasal dari Survei Sosial Umum. Untuk sintaks, saya menggunakan Stata 12, jadi berbunyi:

xtmixed wordsum bw1 aged1 aged2 aged3 aged4 aged6 aged7 aged8 aged9 bw1aged1 bw1aged2 bw1aged3 bw1aged4 bw1aged6 bw1aged7 bw1aged8 bw1aged9 || cohort21: bw1, reml cov(un) var
  • wordsum adalah skor tes kosa kata (0-10),
  • bw1 adalah variabel etnis (hitam = 0, putih = 1),
  • aged1-aged9 adalah variabel dummy usia,
  • bw1aged1-bw1aged9 adalah interaksi antara etnis dan usia,
  • cohort21 adalah variabel kohort saya (21 kategori, kode 0 hingga 20).

Output berbunyi:

    . xtmixed wordsum bw1 aged1 aged2 aged3 aged4 aged6 aged7 aged8 aged9 bw1aged1 bw1aged2 bw1aged3 bw1aged4 bw1aged6 bw1aged7 bw1aged8 bw1aged9 || cohort21: bw1, reml 
> cov(un) var

Performing EM optimization: 

Performing gradient-based optimization: 

Iteration 0:   log restricted-likelihood = -46809.738  
Iteration 1:   log restricted-likelihood = -46809.673  
Iteration 2:   log restricted-likelihood = -46809.673  

Computing standard errors:

Mixed-effects REML regression                   Number of obs      =     22156
Group variable: cohort21                        Number of groups   =        21

                                                Obs per group: min =       307
                                                               avg =    1055.0
                                                               max =      1728


                                                Wald chi2(17)      =   1563.31
Log restricted-likelihood = -46809.673          Prob > chi2        =    0.0000

------------------------------------------------------------------------------
     wordsum |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         bw1 |   1.295614   .1030182    12.58   0.000     1.093702    1.497526
       aged1 |  -.7546665    .139246    -5.42   0.000    -1.027584   -.4817494
       aged2 |  -.3792977   .1315739    -2.88   0.004    -.6371779   -.1214175
       aged3 |  -.1504477   .1286839    -1.17   0.242    -.4026635     .101768
       aged4 |  -.1160748   .1339034    -0.87   0.386    -.3785207    .1463711
       aged6 |  -.1653243   .1365332    -1.21   0.226    -.4329245     .102276
       aged7 |  -.2355365    .143577    -1.64   0.101    -.5169423    .0458693
       aged8 |  -.2810572   .1575993    -1.78   0.075    -.5899461    .0278318
       aged9 |  -.6922531   .1690787    -4.09   0.000    -1.023641   -.3608649
    bw1aged1 |  -.2634496   .1506558    -1.75   0.080    -.5587297    .0318304
    bw1aged2 |  -.1059969   .1427813    -0.74   0.458    -.3858431    .1738493
    bw1aged3 |  -.1189573   .1410978    -0.84   0.399     -.395504    .1575893
    bw1aged4 |    .058361   .1457749     0.40   0.689    -.2273525    .3440746
    bw1aged6 |   .1909798   .1484818     1.29   0.198    -.1000393    .4819988
    bw1aged7 |   .2117798    .154987     1.37   0.172    -.0919891    .5155486
    bw1aged8 |   .3350124    .167292     2.00   0.045     .0071262    .6628987
    bw1aged9 |   .7307429   .1758304     4.16   0.000     .3861217    1.075364
       _cons |   5.208518   .1060306    49.12   0.000     5.000702    5.416334
------------------------------------------------------------------------------

------------------------------------------------------------------------------
  Random-effects Parameters  |   Estimate   Std. Err.     [95% Conf. Interval]
-----------------------------+------------------------------------------------
cohort21: Unstructured       |
                    var(bw1) |   .0049087    .010795      .0000659    .3655149
                  var(_cons) |   .0480407   .0271812      .0158491     .145618
              cov(bw1,_cons) |  -.0119882    .015875     -.0431026    .0191262
-----------------------------+------------------------------------------------
               var(Residual) |   3.988915   .0379483      3.915227     4.06399
------------------------------------------------------------------------------
LR test vs. linear regression:       chi2(3) =    85.83   Prob > chi2 = 0.0000

Note: LR test is conservative and provided only for reference.

Plot sebaran yang saya hasilkan ditunjukkan di bawah ini. Ada sembilan plot pencar, satu untuk setiap kategori variabel umur saya.

masukkan deskripsi gambar di sini

EDIT 2:

. estat recovariance

Random-effects covariance matrix for level cohort21

             |       bw1      _cons 
-------------+----------------------
         bw1 |  .0049087            
       _cons | -.0119882   .0480407

Ada hal lain yang ingin saya tambahkan: Apa yang mengganggu saya adalah, berkenaan dengan kovarians / korelasi intersep-slope, Joop J. Hox (2010, hal. 90) dalam bukunya "Teknik dan Aplikasi Analisis Bertingkat, Edisi Kedua" mengatakan bahwa:

Lebih mudah untuk menafsirkan kovarians ini jika disajikan sebagai korelasi antara intersep dan residu lereng. ... Dalam model tanpa prediktor lain kecuali variabel waktu, korelasi ini dapat diartikan sebagai korelasi biasa, tetapi dalam model 5 dan 6 itu adalah korelasi parsial, tergantung pada prediktor dalam model.

Jadi, tampaknya tidak semua orang akan setuju dengan Snijders & Bosker (1999, hal. 119) yang percaya bahwa "gagasan korelasi tidak masuk akal di sini" karena tidak dibatasi antara [-1, 1].

Meng Hu
sumber
Bisakah Anda memposting plot? Bisakah Anda menambahkan beberapa informasi lebih lanjut tentang data Anda & model Anda? Bisakah Anda memposting output dari analisis & kode yang digunakan untuk menghasilkannya?
gung - Reinstate Monica
Terima kasih atas komentar Anda. Saya tidak berpikir itu menjawab pertanyaan saya tentang utilitas "intercept-slope" korelasi "tetapi saya telah mengedit Q saya, dan menambahkan informasi yang Anda minta. Saya berharap itu akan membantu.
Meng Hu
Terima kasih, Meng Hu. Saya tidak tahu apakah itu akan membantu orang atau tidak, tetapi mungkin, & itu tidak akan sakit.
gung - Reinstate Monica
Tidak memiliki buku, saya bertanya-tanya apakah mereka mengatakan tentang kovarian lereng & mencegat, bukan korelasinya. Dengan N = 22k, Anda tidak dapat memposting BLUP, tetapi dapatkah Anda memposting matriks varians-kovariansnya? Saya mengumpulkan Anda menggunakan Stata, yang saya tidak tahu, tetapi itu harus mungkin.
gung - Reinstate Monica
Varians-kovarians dari efek acak seharusnya ditampilkan dalam output yang saya tambahkan sebelumnya. Tetapi saya mengedit pertanyaan itu lagi. Makhluk ini berkata, Saya tidak ingat Snijders & Bosker (1999) mengatakan sesuatu secara khusus tentang kovarians intersep-lereng. Mereka mengatakan kita harus selalu memasukkannya dalam model kemiringan acak. Mereka juga menjelaskan apa artinya memiliki koefisien negatif / positif untuk kovarian tersebut. Tapi itu saja, saya pikir. By the way, saya juga telah menambahkan bagian dari Hox (2010), yang percaya bahwa korelasi intersep-slope dapat diartikan sebagai korelasi biasa.
Meng Hu

Jawaban:

4

Saya telah mengirim email kepada beberapa sarjana (hampir 30 orang) beberapa minggu yang lalu. Beberapa dari mereka mengirim email mereka (selalu email kolektif). Eugene Demidenko adalah yang pertama menjawab:

cov / sqrt (var1 * var2) selalu berada dalam [-1,1] terlepas dari interpretasinya: mungkin perkiraan intersep dan kemiringan, dua lereng, dll. Fakta bahwa -1 <= cov / sqrt (var1 * var2 ) <= 1 mengikuti dari ketimpangan Cauchy dan itu selalu benar. Jadi saya menolak pernyataan Snijders & Bosker. Mungkin ada informasi lain yang hilang?

Ini diikuti oleh email dari Thomas Snijders:

Informasi yang hilang adalah apa yang sebenarnya ditulis tentang ini di halaman 122, 123, 124, 129 dari Snijders & Bosker (edisi ke-2 2012). Ini bukan tentang dua klaim yang saling bersaing yang tidak lebih dari satu dapat benar, ini tentang dua interpretasi yang berbeda.

Pada p. 123 fungsi varians kuadratik diperkenalkan, \ sigma_0 ^ 2 + 2 \ sigma_ {01} * x + \ sigma_1 ^ 2 * x ^ 2 dan komentar berikut dibuat: "Formula ini dapat digunakan tanpa interpretasi yang \ sigma_0 ^ 2 dan \ sigma_1 ^ 2 adalah varian dan \ sigma_ {01} kovarians; parameter ini mungkin angka apa saja. Rumus ini hanya menyiratkan bahwa varian residual adalah fungsi kuadratik dari x.

Biarkan saya kutip paragraf penuh hal. 129, tentang fungsi varians kuadrat pada level dua; perhatikan bahwa ONE MIGHT INTERPRET bahwa \ tau_0 ^ 2 dan \ tau_1 ^ 2 adalah varian level-dua dari random intercept dan slope acak, dan \ tau_ {01} adalah kovarians mereka, tetapi ini secara eksplisit diletakkan di belakang cakrawala:

"Parameter \ tau_0 ^ 2, \ tau_1 ^ 2, dan \ tau_ {01} adalah, seperti pada bagian sebelumnya, tidak ditafsirkan sebagai varian dan kovarian yang sesuai. Penafsirannya adalah melalui fungsi varians (8.7 ) [note ts: dalam buku ini secara keliru dilaporkan sebagai 8.8]. Oleh karena itu tidak diperlukan bahwa \ tau_ {01} ^ 2 <= \ tau_0 ^ 2 * \ tau_1 ^ 2. Dengan kata lain, 'korelasi' didefinisikan secara formal oleh \ tau_ {01} / (\ tau_0 * \ tau_1) mungkin lebih besar dari 1 atau lebih kecil dari -1, bahkan tak terbatas, karena ide korelasional tidak masuk akal di sini. Contoh ini diberikan oleh fungsi varians linier yang digunakan \ tau_1 ^ 2 = 0 dan hanya parameter \ tau_0 ^ 2 dan \ tau_ {01}. "

Fungsi varians adalah fungsi kuadratik x (variabel "dengan kemiringan acak"), dan varian hasilnya adalah ini ditambah varian level-1. Selama ini positif untuk semua x, varians yang dimodelkan adalah positif. (Persyaratan tambahan adalah bahwa matriks kovarian yang sesuai adalah positif pasti.)

Beberapa latar belakang lebih lanjut dari ini adalah adanya perbedaan dalam algoritma estimasi parameter dalam perangkat lunak. Dalam beberapa perangkat lunak multilevel (efek acak), persyaratan dibuat bahwa matriks kovarians dari efek acak adalah semi-pasti positif pada semua tingkatan. Dalam perangkat lunak lain, persyaratan dibuat hanya bahwa matriks kovarian estimasi yang dihasilkan untuk data yang diamati adalah semi-pasti positif. Ini menyiratkan bahwa gagasan koefisien acak variabel laten dilepaskan, dan model menentukan struktur kovarians tertentu untuk data yang diamati; tidak lebih, tidak kurang; dalam hal itu interpretasi yang dikutip dari Joop Hox tidak berlaku. Perhatikan bahwa Harvey Goldstein sudah lama menggunakan fungsi varians linier di level satu, diwakili oleh varians kemiringan nol dan korelasi intersep lereng bukan nol di level satu; ini dulu dan disebut "variasi kompleks"; lihat, misalnya, http://www.bristol.ac.uk/media-library/sites/cmm/migrated/documents/modelling-complex-variation.pdf

Dan kemudian, Joop Hox menjawab:

Dalam perangkat lunak MLwiN sebenarnya mungkin untuk memperkirakan istilah kovarian dan pada saat yang sama membatasi salah satu varian menjadi nol, yang akan membuat "korelasi" menjadi tak terbatas. Dan ya, beberapa perangkat lunak akan memungkinkan perkiraan seperti varian negatif (perangkat lunak SEM biasanya memungkinkan ini). Jadi pernyataan saya tidak sepenuhnya akurat. Saya merujuk pada struktur acak "normal" tidak terstruktur. Izinkan saya menambahkan bahwa jika Anda mengubah skala variabel dengan kemiringan acak untuk memiliki titik nol yang berbeda, varian dan kovarian umumnya berubah. Jadi korelasi hanya dapat ditafsirkan jika variabel prediktor memiliki titik nol tetap, yaitu diukur pada skala rasio. Ini berlaku untuk model kurva pertumbuhan, di mana korelasi antara status awal dan laju pertumbuhan kadang-kadang ditafsirkan. Dalam hal ini nilai nol harus menjadi '

Dan dia mengirim surat lain:

Bagaimanapun, saya pikir penjelasan Tom di bawah ini cocok dengan gaya kolaborasi Snijders / Bosker lebih baik daripada gaya saya yang lebih informal. Saya akan menambahkan ke halaman 90 catatan kaki yang menyatakan sesuatu seperti "Perhatikan bahwa nilai-nilai parameter di bagian acak adalah perkiraan. Menafsirkan kovarian terstandarisasi sebagai korelasi biasa mengasumsikan bahwa tidak ada kendala pada varian dan bahwa perangkat lunak tidak memungkinkan perkiraan negatif. Jika bagian acak tidak terstruktur penafsiran sebagai varian biasa (co) umumnya dapat dipertahankan. "

Perhatikan bahwa saya menulis tentang interpretasi korelasi dalam bab longitudinal. Dalam pemodelan kurva pertumbuhan, sangat menggoda untuk menafsirkan korelasi ini sebagai hasil substantif, dan itu berbahaya karena nilainya tergantung pada "metrik waktu". Jika Anda tertarik pada itu saya sarankan untuk mengunjungi situs web Lesa Hoffman ( http://www.lesahoffman.com/ ).

Jadi saya pikir dalam situasi saya, di mana saya telah menetapkan kovarians tidak terstruktur untuk efek acak, saya harus menafsirkan korelasi intersep-slope sebagai korelasi biasa.

Meng Hu
sumber
FYI, apakah Anda harus merujuk seseorang sebagai a scholaratau a researcherdapat dibentuk dengan melihat CV mereka. Jika mereka mendaftar buku terlebih dahulu (dan tidak memiliki makalah di jurnal peer-review ... seperti halnya di humaniora), mereka pasti scholars. Jika mereka mendaftar kertas dan / atau hibah pertama, itu benar researchers.
Tugas
@StasK, mengapa Anda mengatakan bahwa jurnal dalam humaniora tidak ditinjau oleh rekan sejawat? Saya pikir mereka. Contoh: Filologi Klasik , Eropa Abad Pertengahan Awal - inilah yang pertama kali saya temukan mencari kata kunci acak di Google Cendekia Metrik. Saya memeriksa beberapa lagi, dan mereka semua tampak peer-review.
amoeba
Saya hanya mengatakan bahwa orang menulis buku daripada makalah untuk jurnal peer-review. Saya tidak ragu bahwa jurnal humaniora yang ditinjau secara peer memang ada.
Tugas
1

Saya hanya bisa memuji upaya Anda untuk memeriksa dengan orang-orang di lapangan. Saya hanya ingin komentar kecil mengenai kegunaan korelasi antara intersep dan lereng. Skrondal dan Rabe-Hesketh (2004) memberikan contoh sederhana dan konyol tentang bagaimana seseorang dapat memanipulasi korelasi itu dengan pergeseran / pemusatan variabel yang memasuki model dengan kemiringan acak. Lihat hal. 54 - cari "Gambar 3.1" di pratinjau Amazon. Perlu setidaknya beberapa kata.

Tugas
sumber