Contoh data yang baik diperlukan dengan kovariat yang dipengaruhi oleh perawatan

19

Saya telah melihat banyak dataset R, posting di DASL, dan di tempat lain, dan saya tidak menemukan banyak contoh bagus dari dataset menarik yang menggambarkan analisis kovarians untuk data eksperimen. Ada banyak dataset "mainan" dengan data yang dibuat di buku teks stat.

Saya ingin memiliki contoh di mana:

  • Datanya nyata, dengan cerita yang menarik
  • Setidaknya ada satu faktor pengobatan dan dua kovariat
  • Setidaknya satu kovariat dipengaruhi oleh satu atau lebih faktor perawatan, dan satu tidak terpengaruh oleh perawatan.
  • Eksperimental daripada observasional, lebih disukai

Latar Belakang

Tujuan saya yang sebenarnya adalah menemukan contoh yang baik untuk dimasukkan ke dalam sketsa untuk paket R. Tetapi tujuan yang lebih besar adalah bahwa orang perlu melihat contoh yang baik untuk menggambarkan beberapa masalah penting dalam analisis kovarians. Pertimbangkan skenario yang dibuat-buat berikut ini (dan tolong mengerti bahwa pengetahuan saya tentang pertanian paling tidak dangkal).

  • Kami melakukan percobaan di mana pupuk diacak ke plot, dan tanaman ditanam. Setelah masa tanam yang sesuai, kami memanen tanaman dan mengukur beberapa karakteristik kualitas - itu adalah variabel respons. Tapi kami juga mencatat curah hujan total selama periode pertumbuhan, dan keasaman tanah pada saat panen - dan, tentu saja, pupuk apa yang digunakan. Jadi kami memiliki dua kovariat dan perawatan.

Cara biasa untuk menganalisis data yang dihasilkan adalah menyesuaikan model linier dengan perlakuan sebagai faktor, dan efek aditif untuk kovariat. Kemudian untuk merangkum hasil, satu menghitung "cara yang disesuaikan" (AKA kuadrat berarti), yang merupakan prediksi dari model untuk setiap pupuk, pada curah hujan rata-rata dan keasaman tanah rata-rata 3. Ini menempatkan semuanya pada pijakan yang sama, karena ketika kita membandingkan hasil ini, kita menahan curah hujan dan keasaman konstan.

Tapi ini mungkin hal yang salah untuk dilakukan - karena pupuk mungkin mempengaruhi keasaman tanah serta responsnya. Ini membuat penyesuaian berarti menyesatkan, karena efek perawatan termasuk pengaruhnya terhadap keasaman. Salah satu cara untuk mengatasi hal ini adalah dengan mengambil keasaman dari model, maka cara yang disesuaikan dengan curah hujan akan memberikan perbandingan yang adil. Tetapi jika keasaman penting, keadilan ini harus dibayar mahal, dalam peningkatan variasi residu.

Ada beberapa cara untuk mengatasinya dengan menggunakan versi keasaman yang disesuaikan dalam model alih-alih nilai aslinya. Pembaruan yang akan datang untuk paket R saya berarti membuat ini benar-benar mudah. Tetapi saya ingin memiliki contoh yang baik untuk menggambarkannya. Saya akan sangat berterima kasih kepada, dan akan dengan sepatutnya mengakui, siapa saja yang dapat mengarahkan saya ke beberapa dataset ilustrasi yang bagus.

rvl
sumber
1
Meskipun ini tidak diragukan lagi merupakan pertanyaan yang penting dan menarik, sepertinya itu mungkin melanggar aturan tentang apa yang ada di topik : " Pertanyaan tentang memperoleh kumpulan data tertentu adalah di luar topik (terlalu khusus). "
Glen_b -Reinstate Monica
1
Kesan saya terhadap tanggapan sejauh ini adalah bahwa kita berhati-hati untuk memberikan pertanyaan lain seperti ini cek kosong dengan memerintah dengan tegas mendukungnya, tetapi bahwa kita sebagian besar mendukung pertanyaan khusus ini dan bahkan sedikit bersemangat untuk melihat apa macam jawaban yang mungkin Anda dapatkan (mungkin itu hanya saya). Apa yang tidak kita inginkan adalah tiruan yang ditulis dengan buruk dari pertanyaan ini yang meminta set data untuk membuktikan poin dengan statistik tetapi tidak tentang statistik. Yaitu, itu satu hal untuk meminta bantuan dalam menunjukkan prinsip statistik, tetapi akan menjadi hal lain untuk meminta dataset khusus domain ...
Nick Stauner
3
OK, sepertinya ide yang bagus. Saya telah melakukan hal-hal yang jauh lebih buruk di masa lalu untuk menurunkan reputasi saya ...
rvl
2
@SteveS Saya setuju ini adalah kandidat yang bagus untuk hadiah; memang saya hanya datang ke sini untuk mengenakannya sendiri , hanya untuk mengetahui bahwa Russ sudah melakukannya. Jika tidak ada jawaban bagus dalam seminggu, saya mungkin mempertimbangkan untuk memberikan hadiah kedua. Russ: hadiah untuk pertanyaan-pertanyaan menarik cenderung menarik cukup banyak perhatian sehingga upvote berikutnya sering hampir membayar untuk mereka, jadi kehilangan reputasi sering jauh lebih curam daripada yang terlihat pada pandangan pertama.
Glen_b -Reinstate Monica

Jawaban:

6

Anda mungkin ingin memeriksa mediationpaket R. Itu tidak termasuk data eksperimental seperti jobsdan di framingmana variabel pengobatan mempengaruhi variabel respon dan kovariat (yaitu, mediator dari efek pengobatan), bersama dengan kovariat yang tidak terpengaruh oleh pengobatan.

Saya melihat ke dalam literatur mediasi karena saya pikir Anda benar-benar menggambarkan studi mediasi: efek pupuk pada kualitas tanaman dimediasi melalui efeknya pada keasaman tanah. Bahkan jika dataset dalam mediationpaket tidak memuaskan Anda, Anda mungkin menemukan satu jika Anda melihat literatur mediasi.

Masato Nakazawa
sumber
Terima kasih. Saya menginstal paket dan akan melihatnya. Dan kesempatan untuk mempelajari sesuatu yang baru.
rvl
Menarik bahwa data pekerjaan disebutkan dalam dua dari tiga pembicaraan dalam sesi JSM yang baru saja saya hadiri ...
rvl
1
Yah, aku berharap aku bisa membagi hadiahnya entah bagaimana. Tetapi paket ini memang memiliki dataset siap yang sangat cocok dengan apa yang saya minta, jadi @MasatoNakazawa mendapatkan hadiah. Terima kasih banyak. Dengan menggunakan framingdata, plot interaksi LSmeans (berdasarkan model logistik) ketika variabel mediasi tetap secara dramatis berbeda dari yang ditetapkan untuk nilai-nilai yang diprediksi oleh perawatan dan kovariat lainnya, sehingga menunjukkan betapa pentingnya mengambil mediasi variabel ke dalam akun.
rvl
1
Terima kasih Dr. Lenth. Sebenarnya saya telah mengutip artikel Anda dalam disertasi saya. Saya merasa terhormat saya bisa membantu ahli statistik yang mapan seperti Anda.
Masato Nakazawa
4

Saya pikir saya akan menunjukkan bagaimana analisis keluar dengan salah satu dataset dalam paket mediasi . Di framing, percobaan dilakukan di mana subjek memiliki kesempatan untuk mengirim pesan ke Kongres mengenai imigrasi. Namun, beberapa subjek ( treat=1) pertama kali ditampilkan sebuah berita yang menggambarkan bahasa Latin secara negatif. Selain respon biner (apakah mereka mengirim pesan atau tidak), kami juga mengukur emp, keadaan emosi subyek setelah perawatan diterapkan. Ada berbagai variabel demografis juga.

Pertama, mari kita muat paket yang dibutuhkan dalam R, dan ganti label untuk educstring yang lebih pendek.

> library("lsmeans")
> library("mediation")
> levels(framing$educ) = c("NA","Ref","< HS", "HS", "> HS","Coll +")

Sekarang muat model regresi logistik

> framing.glm = glm(cong_mesg ~ age + income + educ + emo + gender * factor(treat),
+                   family = binomial, data = framing)

Berikut adalah tampilan dari cara disesuaikan konvensional, di mana prediksi yang dibuat dengan kovariat age, incomedan emoditetapkan pada nilai rata-rata mereka:

> lsmip(framing.glm, treat ~ educ | gender, type = "response")

(Plot interaksi "sarana yang disesuaikan" konvensional, diubah ke skala respons)

Ini adalah hasil yang aneh karena efek pengobatan yang ditampilkan adalah kebalikan untuk perempuan seperti untuk laki-laki, dan efek pendidikan tidak monoton seperti yang diharapkan.

Catatan, bagaimana pun, emoadalah pengukuran pasca perawatan. Ini berarti bahwa perawatan tersebut dapat memengaruhinya, yaitu emokovariat mediasi; dan jadi mungkin tidak bermakna untuk membandingkan prediksi dari variabel respons sambil emotetap konstan. Sebagai gantinya, mari kita lihat prediksi di mana emodiatur ke nilai prediksi yang diberikan treatdan variabel demografis.

> lsmip(framing.glm, treat ~ educ | gender, type = "response",
+       cov.reduce = emo ~ treat*gender + age + educ + income)

(Alur interaksi prediksi yang mempertimbangkan efek mediasi)

Hasil ini sangat berbeda, menunjukkan bahwa emomemainkan peran mediasi yang kuat. ( Paket mediasi memiliki fungsi untuk memperkirakan kekuatan efek-efek ini.) Prediksi di atas menunjukkan bahwa, dengan mempertimbangkan respons emosional, subjek pria yang terpapar dengan berita negatif cenderung mengirim pesan daripada wanita atau mereka yang tidak melihat pesan tersebut. berita negatif. Juga, efeknya educadalah (hampir) monoton.

Sekali lagi terima kasih kepada @MasatoNakagawa yang telah menunjukkan saya pada contoh menarik ini dan menyelaraskan saya dengan beberapa penelitian terbaru tentang kausalitas.

rvl
sumber
3

Carilah studi GWAS interaksi gen-lingkungan. Analisis statistik yang mereka lakukan pada dasarnya adalah apa yang telah Anda gambarkan. Pertanyaannya adalah apakah lingkungan Anda penting bagi fenotipe (fitur yang dapat diamati)? Satu aliran pemikiran umumnya mengabaikan semua informasi lingkungan dan mengatakan susunan genetika Anda menjelaskan fenotip Anda. Ini sangat kontras dengan studi ekologi di mana cerita adalah lingkungan adalah segalanya dan mereka mengabaikan gen. Karena kedua pihak berusaha memahami masalah yang sama, telah ada upaya terbaru untuk menyatukan keduanya.

Katakanlah kita sedang mempelajari BMI. Kami mengambil beberapa komponen utama pertama dari matriks genetik sebagai efek tetap karena gen. Kami menyesuaikan pendidikan dengan indeks 1 untuk berpendidikan baik dan 0 untuk berpendidikan rendah sebagai efek tetap. Ada korelasi yang cukup kuat antara indeks pendidikan dan kekayaan masyarakat tempat orang tersebut berasal. Jadi orang akan berpendapat bahwa masyarakat berpenghasilan rendah lebih cenderung memiliki lebih banyak restoran cepat saji. Makanan cepat saji bertindak sebagai pemicu obesogenik .. "Memicu sesuatu dalam pengaturan genetik Anda yang mendorong penumpukan lemak" sehingga akan muncul dalam susunan genetik dalam beberapa bentuk.

Mensimulasikan data seperti itu bukan masalah. Mencari

http://pngu.mgh.harvard.edu/~purcell/plink/simulate.shtml

Ini memungkinkan Anda mensimulasikan data GWAS (anggap ini sebagai unit genetik) yang bertanggung jawab atas suatu gejala. Jika tidak diinstruksikan sebaliknya akan menghasilkan 1000 dengan gejala dan 1000 kontrol. Norma dalam simulasi ini yang saya gunakan adalah 9990 SNPs tidak menyebabkan gejala dan 10 SNPs lakukan. Baca instruksi tentang bagaimana ini disimulasikan.

Output akan menjadi 1 jika orang tersebut mengalami obesitas dan 0 jika tidak. Simulasikan faktor-faktor pendidikan (menyelesaikan pendidikan di perguruan tinggi / tidak menyelesaikan pendidikan di perguruan tinggi) berdasarkan beberapa korelasi yang masuk akal dengan tingkat obesitas.

Semoga ini membantu!!!

Sid
sumber
Terima kasih. Masih bertahan untuk beberapa data nyata ... Ditambah lagi, aku tidak yakin apa itu studi GWAS. DUH, baru ketahuan dengan mengikuti tautan.
rvl
Meskipun saya memberikan hadiah kepada responden lain, saya sangat menghargai saran ini dan bermaksud untuk menindaklanjutinya. Terima kasih.
rvl
1

Saya akan merekomendasikan membaca Freakonomics, dan menemukan makalah berdasarkan pekerjaan mereka, dan melihat apakah Anda dapat mengambil data itu. Mereka memiliki beberapa pekerjaan yang sangat menarik pada kumpulan data yang sangat menarik, dan dalam beberapa kasus mereka menemukan cara yang sangat pintar untuk menguji hipotesis meskipun ada keterbatasan dalam data.

Nir Friedman
sumber