Saya telah melihat banyak dataset R, posting di DASL, dan di tempat lain, dan saya tidak menemukan banyak contoh bagus dari dataset menarik yang menggambarkan analisis kovarians untuk data eksperimen. Ada banyak dataset "mainan" dengan data yang dibuat di buku teks stat.
Saya ingin memiliki contoh di mana:
- Datanya nyata, dengan cerita yang menarik
- Setidaknya ada satu faktor pengobatan dan dua kovariat
- Setidaknya satu kovariat dipengaruhi oleh satu atau lebih faktor perawatan, dan satu tidak terpengaruh oleh perawatan.
- Eksperimental daripada observasional, lebih disukai
Latar Belakang
Tujuan saya yang sebenarnya adalah menemukan contoh yang baik untuk dimasukkan ke dalam sketsa untuk paket R. Tetapi tujuan yang lebih besar adalah bahwa orang perlu melihat contoh yang baik untuk menggambarkan beberapa masalah penting dalam analisis kovarians. Pertimbangkan skenario yang dibuat-buat berikut ini (dan tolong mengerti bahwa pengetahuan saya tentang pertanian paling tidak dangkal).
- Kami melakukan percobaan di mana pupuk diacak ke plot, dan tanaman ditanam. Setelah masa tanam yang sesuai, kami memanen tanaman dan mengukur beberapa karakteristik kualitas - itu adalah variabel respons. Tapi kami juga mencatat curah hujan total selama periode pertumbuhan, dan keasaman tanah pada saat panen - dan, tentu saja, pupuk apa yang digunakan. Jadi kami memiliki dua kovariat dan perawatan.
Cara biasa untuk menganalisis data yang dihasilkan adalah menyesuaikan model linier dengan perlakuan sebagai faktor, dan efek aditif untuk kovariat. Kemudian untuk merangkum hasil, satu menghitung "cara yang disesuaikan" (AKA kuadrat berarti), yang merupakan prediksi dari model untuk setiap pupuk, pada curah hujan rata-rata dan keasaman tanah rata-rata 3. Ini menempatkan semuanya pada pijakan yang sama, karena ketika kita membandingkan hasil ini, kita menahan curah hujan dan keasaman konstan.
Tapi ini mungkin hal yang salah untuk dilakukan - karena pupuk mungkin mempengaruhi keasaman tanah serta responsnya. Ini membuat penyesuaian berarti menyesatkan, karena efek perawatan termasuk pengaruhnya terhadap keasaman. Salah satu cara untuk mengatasi hal ini adalah dengan mengambil keasaman dari model, maka cara yang disesuaikan dengan curah hujan akan memberikan perbandingan yang adil. Tetapi jika keasaman penting, keadilan ini harus dibayar mahal, dalam peningkatan variasi residu.
Ada beberapa cara untuk mengatasinya dengan menggunakan versi keasaman yang disesuaikan dalam model alih-alih nilai aslinya. Pembaruan yang akan datang untuk paket R saya berarti membuat ini benar-benar mudah. Tetapi saya ingin memiliki contoh yang baik untuk menggambarkannya. Saya akan sangat berterima kasih kepada, dan akan dengan sepatutnya mengakui, siapa saja yang dapat mengarahkan saya ke beberapa dataset ilustrasi yang bagus.
Jawaban:
Anda mungkin ingin memeriksa
mediation
paket R. Itu tidak termasuk data eksperimental sepertijobs
dan diframing
mana variabel pengobatan mempengaruhi variabel respon dan kovariat (yaitu, mediator dari efek pengobatan), bersama dengan kovariat yang tidak terpengaruh oleh pengobatan.Saya melihat ke dalam literatur mediasi karena saya pikir Anda benar-benar menggambarkan studi mediasi: efek pupuk pada kualitas tanaman dimediasi melalui efeknya pada keasaman tanah. Bahkan jika dataset dalam
mediation
paket tidak memuaskan Anda, Anda mungkin menemukan satu jika Anda melihat literatur mediasi.sumber
framing
data, plot interaksi LSmeans (berdasarkan model logistik) ketika variabel mediasi tetap secara dramatis berbeda dari yang ditetapkan untuk nilai-nilai yang diprediksi oleh perawatan dan kovariat lainnya, sehingga menunjukkan betapa pentingnya mengambil mediasi variabel ke dalam akun.Saya pikir saya akan menunjukkan bagaimana analisis keluar dengan salah satu dataset dalam paket mediasi . Di
framing
, percobaan dilakukan di mana subjek memiliki kesempatan untuk mengirim pesan ke Kongres mengenai imigrasi. Namun, beberapa subjek (treat=1
) pertama kali ditampilkan sebuah berita yang menggambarkan bahasa Latin secara negatif. Selain respon biner (apakah mereka mengirim pesan atau tidak), kami juga mengukuremp
, keadaan emosi subyek setelah perawatan diterapkan. Ada berbagai variabel demografis juga.Pertama, mari kita muat paket yang dibutuhkan dalam R, dan ganti label untuk
educ
string yang lebih pendek.Sekarang muat model regresi logistik
Berikut adalah tampilan dari cara disesuaikan konvensional, di mana prediksi yang dibuat dengan kovariat
age
,income
danemo
ditetapkan pada nilai rata-rata mereka:Ini adalah hasil yang aneh karena efek pengobatan yang ditampilkan adalah kebalikan untuk perempuan seperti untuk laki-laki, dan efek pendidikan tidak monoton seperti yang diharapkan.
Catatan, bagaimana pun,
emo
adalah pengukuran pasca perawatan. Ini berarti bahwa perawatan tersebut dapat memengaruhinya, yaituemo
kovariat mediasi; dan jadi mungkin tidak bermakna untuk membandingkan prediksi dari variabel respons sambilemo
tetap konstan. Sebagai gantinya, mari kita lihat prediksi di manaemo
diatur ke nilai prediksi yang diberikantreat
dan variabel demografis.Hasil ini sangat berbeda, menunjukkan bahwa
emo
memainkan peran mediasi yang kuat. ( Paket mediasi memiliki fungsi untuk memperkirakan kekuatan efek-efek ini.) Prediksi di atas menunjukkan bahwa, dengan mempertimbangkan respons emosional, subjek pria yang terpapar dengan berita negatif cenderung mengirim pesan daripada wanita atau mereka yang tidak melihat pesan tersebut. berita negatif. Juga, efeknyaeduc
adalah (hampir) monoton.Sekali lagi terima kasih kepada @MasatoNakagawa yang telah menunjukkan saya pada contoh menarik ini dan menyelaraskan saya dengan beberapa penelitian terbaru tentang kausalitas.
sumber
Carilah studi GWAS interaksi gen-lingkungan. Analisis statistik yang mereka lakukan pada dasarnya adalah apa yang telah Anda gambarkan. Pertanyaannya adalah apakah lingkungan Anda penting bagi fenotipe (fitur yang dapat diamati)? Satu aliran pemikiran umumnya mengabaikan semua informasi lingkungan dan mengatakan susunan genetika Anda menjelaskan fenotip Anda. Ini sangat kontras dengan studi ekologi di mana cerita adalah lingkungan adalah segalanya dan mereka mengabaikan gen. Karena kedua pihak berusaha memahami masalah yang sama, telah ada upaya terbaru untuk menyatukan keduanya.
Katakanlah kita sedang mempelajari BMI. Kami mengambil beberapa komponen utama pertama dari matriks genetik sebagai efek tetap karena gen. Kami menyesuaikan pendidikan dengan indeks 1 untuk berpendidikan baik dan 0 untuk berpendidikan rendah sebagai efek tetap. Ada korelasi yang cukup kuat antara indeks pendidikan dan kekayaan masyarakat tempat orang tersebut berasal. Jadi orang akan berpendapat bahwa masyarakat berpenghasilan rendah lebih cenderung memiliki lebih banyak restoran cepat saji. Makanan cepat saji bertindak sebagai pemicu obesogenik .. "Memicu sesuatu dalam pengaturan genetik Anda yang mendorong penumpukan lemak" sehingga akan muncul dalam susunan genetik dalam beberapa bentuk.
Mensimulasikan data seperti itu bukan masalah. Mencari
http://pngu.mgh.harvard.edu/~purcell/plink/simulate.shtml
Ini memungkinkan Anda mensimulasikan data GWAS (anggap ini sebagai unit genetik) yang bertanggung jawab atas suatu gejala. Jika tidak diinstruksikan sebaliknya akan menghasilkan 1000 dengan gejala dan 1000 kontrol. Norma dalam simulasi ini yang saya gunakan adalah 9990 SNPs tidak menyebabkan gejala dan 10 SNPs lakukan. Baca instruksi tentang bagaimana ini disimulasikan.
Output akan menjadi 1 jika orang tersebut mengalami obesitas dan 0 jika tidak. Simulasikan faktor-faktor pendidikan (menyelesaikan pendidikan di perguruan tinggi / tidak menyelesaikan pendidikan di perguruan tinggi) berdasarkan beberapa korelasi yang masuk akal dengan tingkat obesitas.
Semoga ini membantu!!!
sumber
Saya akan merekomendasikan membaca Freakonomics, dan menemukan makalah berdasarkan pekerjaan mereka, dan melihat apakah Anda dapat mengambil data itu. Mereka memiliki beberapa pekerjaan yang sangat menarik pada kumpulan data yang sangat menarik, dan dalam beberapa kasus mereka menemukan cara yang sangat pintar untuk menguji hipotesis meskipun ada keterbatasan dalam data.
sumber