Saat ini saya sedang menyelesaikan makalah dan menemukan pertanyaan ini dari kemarin yang membuat saya mengajukan pertanyaan yang sama kepada diri saya sendiri. Apakah lebih baik menyediakan grafik saya dengan kesalahan standar aktual dari data atau yang diperkirakan dari ANOVA saya?
Karena pertanyaan dari kemarin agak tidak spesifik dan pertanyaan saya cukup spesifik, saya pikir akan pantas untuk mengajukan pertanyaan lanjutan ini.
Detail:
Saya telah menjalankan percobaan di beberapa domain psikologi kognitif (penalaran bersyarat) membandingkan dua kelompok (instruksi induktif dan deduktif, yaitu, manipulasi antar-subyek) dengan dua manipulasi dalam-subyek (tipe masalah dan isi masalah, masing-masing dengan dua tingkat faktor).
Hasilnya terlihat seperti ini (panel kiri dengan perkiraan SE dari Output ANOVA, panel kanan dengan estimasi diperkirakan dari data):
Perhatikan bahwa garis yang berbeda mewakili dua kelompok yang berbeda (yaitu, manipulasi antara subyek) dan manipulasi subyek diplot pada sumbu x (yaitu, tingkat faktor 2x2).
Dalam teks saya memberikan hasil masing-masing ANOVA dan bahkan perbandingan yang direncanakan untuk interaksi cross-over kritis di tengah. UK ada di sana untuk memberi pembaca beberapa petunjuk tentang variabilitas data. Saya lebih suka UK daripada standar deviasi dan interval kepercayaan karena tidak umum untuk merencanakan SD dan ada masalah parah ketika membandingkan CI dalam dan di antara subyek (karena hal yang sama berlaku untuk UK, tidak begitu umum untuk secara salah menyimpulkan perbedaan signifikan. dari mereka).
Untuk mengulangi pertanyaan saya: Apakah lebih baik untuk merencanakan UK yang diperkirakan dari ANOVA atau haruskah saya memplot UK yang diperkirakan dari data mentah?
Pembaruan:
Saya pikir saya harus sedikit lebih jelas dalam apa perkiraan SE. Output ANOVA di SPSS memberi saya estimated marginal means
dengan SE dan CI yang sesuai. Inilah yang diplot di grafik kiri. Sejauh yang saya mengerti ini, mereka harus menjadi SD dari residu. Tetapi, ketika menyimpan residu, SD mereka tidak mendekati perkiraan SE. Jadi pertanyaan sekunder (kemungkinan spesifik SPSS) adalah:
Apa SES ini?
UPDATE 2: Saya akhirnya berhasil menulis fungsi-R yang seharusnya bisa membuat plot karena saya akhirnya menyukainya (lihat jawaban saya yang diterima) sendiri. Jika ada yang punya waktu, saya akan sangat menghargai jika Anda bisa melihatnya. Ini dia.
Jawaban:
Sebagai konsekuensi dari jawaban dan diskusi yang menginspirasi untuk pertanyaan saya, saya membuat plot berikut yang tidak bergantung pada parameter berdasarkan model apa pun, tetapi menyajikan data yang mendasarinya.
Alasannya adalah bahwa terlepas dari kesalahan standar apa pun yang saya pilih, kesalahan standar adalah parameter berbasis model. Jadi, mengapa tidak menyajikan data yang mendasarinya dan dengan demikian mengirimkan lebih banyak informasi?
Selanjutnya, jika memilih SE dari ANOVA, dua masalah muncul untuk masalah spesifik saya.
Pertama (setidaknya bagi saya) entah bagaimana tidak jelas apa SE dari
SPSS
Output ANOVA sebenarnya ( lihat juga diskusi ini, di komentar ). Entah bagaimana mereka terkait dengan MSE tetapi bagaimana tepatnya saya tidak tahu.Kedua, mereka hanya masuk akal ketika asumsi yang mendasarinya terpenuhi. Namun, seperti yang ditunjukkan plot berikut, asumsi homogenitas varians jelas dilanggar.
Plot dengan plot kotak:
Plot dengan semua titik data:
Perhatikan bahwa kedua grup tersebut sedikit terkilir ke kiri atau kanan: deduktif ke kiri, induktif ke kanan. Berarti masih diplot dalam warna hitam dan data atau boxplots di latar belakang berwarna abu-abu. Perbedaan antara plot di sebelah kiri dan di sebelah kanan adalah jika rerata dislokasi sama dengan titik atau petak-petak atau jika disajikan secara terpusat.
Maaf untuk kualitas grafik yang tidak optimal dan label sumbu x yang hilang.
Pertanyaan yang tersisa adalah, yang mana dari plot di atas yang harus dipilih sekarang. Saya harus memikirkannya dan bertanya kepada penulis lain dari makalah kami. Tapi sekarang, saya lebih suka "poin dengan cara dislokasi". Dan saya masih akan sangat tertarik dengan komentar.
Pembaruan: Setelah beberapa pemrograman saya akhirnya berhasil menulis fungsi-R untuk secara otomatis membuat plot seperti poin dengan cara dislokasi. Lihatlah (dan kirimkan saya komentar) !
sumber
Anda tidak akan menemukan bilah kesalahan tunggal yang masuk akal untuk keperluan inferensial dengan jenis desain eksperimental ini. Ini adalah masalah lama tanpa solusi yang jelas.
Tampaknya tidak mungkin untuk memiliki perkiraan SE yang Anda miliki di sini. Ada dua jenis kesalahan utama dalam desain seperti itu, antara dan dalam kesalahan S. Mereka biasanya sangat berbeda satu sama lain dan tidak sebanding. Benar-benar tidak ada bar kesalahan tunggal yang baik untuk mewakili data Anda.
Orang mungkin berpendapat bahwa SES mentah atau SD dari data yang paling penting dalam arti deskriptif daripada inferensial. Mereka juga mengatakan tentang kualitas estimasi kecenderungan pusat (SE) atau variabilitas data (SD). Namun, meskipun demikian itu agak tidak jujur karena hal yang Anda uji dan ukur dalam S bukan nilai mentah melainkan efek dari variabel S. Oleh karena itu, pelaporan variabilitas nilai-nilai mentah tidak berarti atau menyesatkan sehubungan dengan efek S.
Saya biasanya mendukung tidak ada bar kesalahan pada grafik tersebut dan grafik efek yang berdekatan menunjukkan variabilitas efek. Seseorang mungkin memiliki CI pada grafik yang sangat masuk akal. Lihat Masson & Loftus (2003) untuk contoh grafik efek. Cukup hilangkan bilah galat ((yang sama sekali tidak berguna) di sekitar nilai rata-rata yang ditampilkan dan gunakan bilah galat efek.
Untuk studi Anda, saya pertama-tama akan mengganti data sebagai desain 2 x 2 x 2 itu (2-panel 2x2) dan kemudian memplot segera berbatasan dengan grafik dengan interval kepercayaan validitas, masuk akal, instruksi, dan efek interaksi. Masukkan SD dan SE untuk kelompok instruksi dalam sebuah tabel atau dalam teks.
(menunggu respons analisis efek campuran yang diharapkan;))
UPDATE: OK, setelah mengedit itu jelas satu-satunya hal yang Anda inginkan adalah SE untuk digunakan untuk menunjukkan kualitas estimasi nilai. Dalam hal itu gunakan nilai model Anda. Kedua nilai didasarkan pada model dan tidak ada nilai 'benar' dalam sampel Anda. Gunakan yang dari model yang Anda terapkan ke data Anda. TETAPI, pastikan Anda memperingatkan pembaca dalam keterangan gambar bahwa UK ini tidak memiliki nilai inferensial apa pun untuk efek atau interaksi S Anda.
UPDATE2: Melihat kembali data yang Anda sajikan ... yang terlihat mencurigakan seperti persentase yang seharusnya tidak dianalisis dengan ANOVA sejak awal. Apakah itu atau tidak, itu adalah variabel yang maxes pada 100 dan telah mengurangi varians pada ekstrem sehingga masih tidak harus dianalisis dengan ANOVA. Saya sangat menyukai plot rm.plot Anda. Saya masih tergoda untuk melakukan plot terpisah antara kondisi, menampilkan data mentah, dan dalam kondisi menunjukkan data dengan antara variabilitas S dihapus.
sumber
Ini terlihat seperti percobaan yang sangat bagus, jadi selamat!
Saya setuju dengan John Christie, itu adalah model campuran, tetapi asalkan itu dapat ditentukan dengan tepat dalam desain ANOVA (& seimbang) Saya tidak melihat mengapa itu tidak bisa dirumuskan. Dua faktor di dalam dan 1 faktor antara subyek, tetapi faktor antara subyek (induktif / deduktif) jelas berinteraksi (memodifikasi) efek dalam subyek. Saya menganggap rata-rata yang diplot dari model ANOVA (LHS) dan modelnya ditentukan dengan benar. Bagus sekali - ini tidak sepele!
Beberapa poin: 1) Kesalahan "perkiraan" vs "aktual" "adalah dikotomi yang salah. Keduanya mengasumsikan model yang mendasarinya dan membuat perkiraan atas dasar itu. Jika model ini masuk akal, saya berpendapat lebih baik menggunakan estimasi berbasis model (mereka didasarkan pada pengumpulan sampel yang lebih besar). Tetapi seperti yang disebutkan James, kesalahannya berbeda tergantung pada perbandingan yang Anda lakukan, jadi tidak ada representasi sederhana yang mungkin.
2) Saya lebih suka melihat plot kotak atau titik data individual diplot (jika tidak terlalu banyak), mungkin dengan beberapa jitter samping, sehingga poin dengan nilai yang sama dapat dibedakan.
http://en.wikipedia.org/wiki/Box_plot
3) Jika Anda harus memplot estimasi kesalahan rata-rata, jangan pernah memplot SD - mereka adalah estimasi standar deviasi sampel dan terkait dengan variabilitas populasi, bukan perbandingan statistik rata-rata. Biasanya lebih disukai untuk merencanakan interval kepercayaan 95% daripada UK, tetapi tidak dalam hal ini (lihat poin 1 dan John)
4) Satu masalah dengan data ini yang menjadi perhatian saya adalah asumsi varians seragam mungkin dilanggar karena data "MP Valid dan Masuk Akal" jelas dibatasi oleh batas 100%, terutama untuk orang yang deduktif. Saya berpikir sendiri betapa pentingnya masalah ini. Pindah ke logit efek campuran (probabilitas binomial) mungkin merupakan solusi yang ideal, tetapi sulit ditanyakan. Mungkin lebih baik membiarkan orang lain menjawab.
sumber
Akhir-akhir ini saya telah menggunakan analisis efek campuran, dan dalam mencoba mengembangkan pendekatan analisis data visual yang menyertainya, saya telah menggunakan bootstrap ( lihat uraian saya di sini ), yang menghasilkan interval kepercayaan yang tidak rentan terhadap masalah di dalam-di antara masalah CI konvensional.
Juga, saya akan menghindari pemetaan beberapa variabel ke estetika visual yang sama, seperti yang telah Anda lakukan pada grafik di atas; Anda memiliki 3 variabel (MP / AC, valid / tidak valid, masuk akal / tidak masuk akal) dipetakan ke sumbu x, yang membuatnya agak sulit untuk menguraikan desain dan pola. Saya akan menyarankan pemetaan, katakanlah, MP / AC ke sumbu x, valid / tidak valid ke kolom facet, dan masuk akal / tidak masuk akal untuk baris facet. Lihat ggplot2 di R untuk mencapai ini dengan mudah, misalnya:
sumber