Membandingkan pentingnya berbagai set alat prediksi

13

Saya menasihati seorang siswa peneliti dengan masalah tertentu, dan saya ingin mendapatkan masukan dari orang lain di situs ini.

Konteks:

Peneliti memiliki tiga jenis variabel prediktor. Setiap jenis berisi jumlah variabel prediktor yang berbeda. Setiap prediktor adalah variabel kontinu:

  • Sosial: S1, S2, S3, S4 (yaitu, empat prediktor)
  • Kognitif: C1, C2 (yaitu, dua prediktor)
  • Perilaku: B1, B2, B3 (yaitu, tiga prediktor)

Variabel hasil juga kontinu. Sampel termasuk sekitar 60 peserta.

Peneliti ingin berkomentar tentang tipe prediktor mana yang lebih penting dalam menjelaskan variabel hasil. Ini terkait dengan keprihatinan teoritis yang lebih luas tentang kepentingan relatif dari jenis-jenis prediktor ini.

Pertanyaan

  • Apa cara yang baik untuk menilai kepentingan relatif dari satu set alat prediksi relatif terhadap perangkat lain?
  • Apa strategi yang baik untuk menghadapi kenyataan bahwa ada sejumlah prediktor yang berbeda di setiap set?
  • Peringatan apa dalam interpretasi yang mungkin Anda sarankan?

Setiap referensi ke contoh atau diskusi teknik juga akan sangat disambut.

Jeromy Anglim
sumber

Jawaban:

7

Misalkan set pertama dari prediktor membutuhkan derajat kebebasan ( 4 memungkinkan untuk istilah nonlinier), set kedua membutuhkan b, dan yang ketiga membutuhkan c (c 3) yang memungkinkan untuk istilah nonlinier. Menghitung rasio kemungkinan χ 2 uji untuk efek parsial gabungan dari setiap set, menghasilkan L 1 , L 2 , L 3 . Nilai yang diharapkan dari variabel acak χ 2 dengan d derajat kebebasan adalah d, jadi kurangi d untuk meratakan bidang bermain. Yaitu, hitung L 1 - a , L 2 - b , Lχ2L1,L2,L3χ2. Jika menggunakan uji-F, beberapa F dengan pembilangnya df untuk mendapatkanskala χ 2 .L1a,L2b,L3cχ2

Frank Harrell
sumber
Untuk mengkonfirmasi, pendekatan Anda adalah menghitung L1 sebagai pengurangan penyimpangan (-2 *) yang dihasilkan dari dimasukkannya empat variabel sosial, disesuaikan dengan df dari empat variabel ini? Dan juga pada gilirannya untuk L2 dan L3?
B_Miner
Saya tidak menggunakan notasi terbaik. Maksud saya rasio kemungkinan statistik, yang merupakan perubahan -2 log kemungkinan setelah menghapus set variabel yang sedang diuji. χ2
Frank Harrell
apakah Anda juga mengakui bahwa ada risiko, dalam menemukan solusi statistik murni, kehilangan kemungkinan masalah menyeluruh di mana ketiga kelompok prediktor dapat mengukur karakteristik / perilaku yang terjadi pada saat yang sama. Tanpa dasar sebab-sebab-nanti yang lebih awal untuk rantai sebab-akibat, mungkinkah mustahil untuk memisahkan hubungan-hubungan sebab akibat secara definitif dalam situasi ini - apa pun perhitungan kita? (Saya mencoba memikirkan cara James Davis dalam The Logic of Causal Order.)
rolando2
Tentunya. Rantai sebab akibat harus dipahami sebelum pemodelan dimulai.
Frank Harrell
@FrankHarrell Apakah hasil ini juga berlaku untuk kemungkinan hukuman? Apakah kemungkinan hukuman memiliki sifat yang membuatnya berbeda dari kemungkinan sehubungan dengan ukuran kepentingan-variabel ini? Bisakah Anda menyarankan makalah yang menjelaskan hal ini secara lebih rinci? Terima kasih.
julieth
7

Saran

  • Anda dapat melakukan regresi berganda individual untuk setiap jenis prediktor, dan membandingkan lintas regresi berganda, r-square yang disesuaikan, r-square yang digeneralisasi, atau beberapa ukuran varians yang disesuaikan dengan kekikiran lainnya.
  • Anda juga dapat menjelajahi literatur umum tentang kepentingan variabel ( lihat di sini untuk diskusi dengan tautan ). Ini akan mendorong fokus pada pentingnya prediksi individu.
  • Dalam beberapa situasi, regresi hierarkis dapat memberikan kerangka kerja yang bermanfaat. Anda akan memasukkan satu jenis variabel dalam satu blok (misalnya, variabel kognitif), dan di blok kedua jenis lain (misalnya, variabel sosial). Ini akan membantu menjawab pertanyaan apakah satu jenis variabel memprediksi lebih dari jenis lainnya.
  • Sebagai pemeriksaan samping, Anda bisa menjalankan analisis faktor pada variabel prediktor untuk memeriksa apakah korelasi antara variabel prediktor dipetakan ke penugasan variabel ke tipe.

Peringatan

  • Jenis variabel seperti kognitif, sosial, dan perilaku adalah kelas variabel yang luas. Sebuah studi yang diberikan akan selalu mencakup hanya sebagian dari variabel yang mungkin, dan biasanya subset tersebut kecil relatif terhadap variabel yang mungkin. Selanjutnya, variabel yang diukur mungkin bukan cara yang paling dapat diandalkan atau valid untuk mengukur konstruk yang dimaksud. Dengan demikian, Anda perlu berhati-hati ketika menarik kesimpulan yang lebih luas tentang kepentingan relatif dari jenis variabel tertentu melebihi dan melampaui apa yang sebenarnya diukur.
  • Anda juga perlu mempertimbangkan bias apa pun dalam cara variabel dependen diukur. Khususnya dalam studi psikologis, ada kecenderungan tindakan laporan diri untuk berkorelasi baik dengan laporan diri, kemampuan dengan kemampuan, laporan lain dengan laporan lain, dan sebagainya. Masalahnya adalah bahwa mode pengukuran memiliki efek besar melebihi dan melampaui konstruk minat yang sebenarnya. Dengan demikian, jika variabel dependen diukur dengan cara tertentu (misalnya, laporan diri), maka jangan menafsirkan korelasi yang lebih besar dengan satu jenis prediktor jika jenis itu juga menggunakan laporan diri.
Jeromy Anglim
sumber
Saya senang membaca respons yang jelas dan membantu ini dan saya akan membaginya dengan seorang rekan.
rolando2
6

Pentingnya

Hal pertama yang harus dilakukan adalah mengoperasionalkan 'pentingnya prediktor'. Saya akan berasumsi bahwa itu berarti sesuatu seperti 'sensitivitas hasil rata-rata terhadap perubahan nilai prediktor'. Karena prediktor Anda dikelompokkan maka sensitivitas hasil rata-rata terhadap kelompok prediktor lebih menarik daripada variabel dengan analisis variabel. Saya membiarkannya terbuka apakah sensitivitas dipahami secara kausal. Masalah itu diambil kemudian.

Tiga versi yang penting

Banyak variasi menjelaskan : Saya menduga bahwa port of call pertama psikolog mungkin adalah dekomposisi varians yang mengarah ke ukuran berapa banyak varians hasil dijelaskan oleh struktur varians-covarance dalam setiap kelompok prediktor. Bukan menjadi seorang pencoba, saya tidak bisa menyarankan banyak hal di sini, kecuali untuk mencatat bahwa seluruh konsep 'varians dijelaskan' agak tidak masuk akal untuk selera saya, bahkan tanpa masalah 'yang mana jumlah kuadratnya'. Yang lain dipersilakan untuk tidak setuju dan mengembangkannya lebih lanjut.

Koefisien standar yang besar : SPSS menawarkan beta (salah nama) untuk mengukur dampak dengan cara yang dapat dibandingkan di seluruh variabel. Ada beberapa alasan untuk tidak menggunakan ini, dibahas dalam buku pelajaran regresi Fox, di sini , dan di tempat lain. Semua berlaku di sini. Itu juga mengabaikan struktur kelompok.

Di sisi lain, saya membayangkan bahwa seseorang dapat membakukan prediktor dalam kelompok dan menggunakan informasi kovarian untuk menilai efek dari satu standar deviasi gerakan pada mereka semua. Secara pribadi moto: "jika suatu hal tidak layak dilakukan, itu tidak layak dilakukan dengan baik" mengurangi minat saya untuk melakukannya.

Efek marginal besar : Pendekatan lain adalah tetap pada skala pengukuran dan menghitung efek marginal antara titik sampel yang dipilih dengan cermat. Karena Anda tertarik pada kelompok, penting untuk memilih titik untuk memvariasikan kelompok variabel daripada yang tunggal, misalnya memanipulasi kedua variabel kognitif sekaligus. (Banyak peluang untuk plot keren di sini). Makalah dasar di sini . The effectspaket di R akan melakukan hal ini dengan baik.

Ada dua peringatan di sini:

  1. Jika Anda melakukannya, Anda harus berhati-hati bahwa Anda tidak memilih dua variabel kognitif yang secara individual masuk akal, misalnya median, secara bersama-sama jauh dari pengamatan subjek apa pun.

  2. Beberapa variabel bahkan tidak dapat dimanipulasi secara teoritis, sehingga interpretasi efek marginal sebagai kausal lebih halus, meskipun masih berguna.

Jumlah prediktor yang berbeda

Masalah muncul karena struktur kovarian variabel yang dikelompokkan, yang biasanya kami usahakan tidak perlu khawatir, tetapi untuk tugas ini harus dilakukan.

Khususnya ketika menghitung efek marginal (atau koefisien terstandarisasi dalam hal ini) pada kelompok daripada variabel tunggal kutukan dimensi akan untuk kelompok yang lebih besar memudahkan perbandingan untuk menyimpang ke daerah di mana tidak ada kasus. Semakin banyak prediktor dalam sebuah grup mengarah ke ruang yang lebih jarang penduduknya, sehingga ukuran penting akan lebih tergantung pada asumsi model dan lebih sedikit pada pengamatan (tetapi tidak akan memberi tahu Anda bahwa ...) Tapi ini adalah masalah yang sama seperti pada fase pemasangan model Betulkah. Tentu saja sama dengan yang akan muncul dalam penilaian dampak kausal berbasis model.

conjugateprior
sumber
2

Salah satu metode adalah menggabungkan set variabel menjadi variabel sheaf. Metode ini telah digunakan secara luas dalam sosiologi dan bidang terkait.

Referensi:

Whitt, Hugh P. 1986. "Koefisien Sheaf: Suatu Pendekatan Sederhana dan Perluasan." Penelitian Ilmu Sosial 15: 174-189.

GaryMarks
sumber