Apa cara yang paling diterima untuk memvisualisasikan hasil uji-dua sampel independen? Apakah tabel numerik lebih sering digunakan atau semacam plot? Tujuannya adalah agar pengamat biasa melihat sosok itu dan segera melihat bahwa mereka mungkin berasal dari dua populasi yang berbeda.
data-visualization
t-test
cbake
sumber
sumber
Jawaban:
Patut diperjelas dengan maksud plot Anda. Secara umum, ada dua jenis tujuan: Anda dapat membuat plot untuk diri sendiri untuk menilai asumsi yang Anda buat dan memandu proses analisis data, atau Anda dapat membuat plot untuk mengkomunikasikan hasil kepada orang lain. Ini tidak sama; misalnya, banyak pemirsa / pembaca plot / analisis Anda mungkin secara statistik tidak canggih, dan mungkin tidak terbiasa dengan gagasan, katakanlah, varians yang sama dan perannya dalam uji-t. Anda ingin plot Anda menyampaikan informasi penting tentang data Anda, bahkan kepada konsumen seperti mereka. Mereka secara implisit percaya bahwa Anda telah melakukan sesuatu dengan benar. Dari pengaturan pertanyaan Anda, saya mengumpulkan Anda setelah jenis yang terakhir.
Secara realistis, plot yang paling umum dan diterima untuk mengkomunikasikan hasil uji-t 1 kepada orang lain (sisihkan apakah itu benar-benar paling tepat) adalah bagan batang sarana dengan bar kesalahan standar. Ini cocok dengan uji-t dengan sangat baik karena uji-t membandingkan dua cara menggunakan kesalahan standar mereka. Ketika Anda memiliki dua grup independen, ini akan menghasilkan gambar yang intuitif, bahkan untuk yang tidak canggih secara statistik, dan (orang yang bersedia) dapat "segera melihat bahwa mereka mungkin berasal dari dua populasi yang berbeda". Berikut adalah contoh sederhana menggunakan data @ Tim:
Yang mengatakan, spesialis visualisasi data biasanya meremehkan plot ini. Mereka sering dicemooh sebagai "plot dinamit" (lih, Mengapa plot dinamit buruk ). Khususnya, jika Anda hanya memiliki sedikit data, sering disarankan agar Anda hanya menampilkan data itu sendiri . Jika poin tumpang tindih, Anda dapat men-jitter mereka secara horizontal (tambahkan sedikit noise acak) sehingga tidak lagi tumpang tindih. Karena uji-t pada dasarnya tentang kesalahan rata-rata dan standar, yang terbaik adalah overlay rata-rata dan standar kesalahan ke plot tersebut. Ini adalah versi yang berbeda:
Jika Anda memiliki banyak data, boxplots mungkin merupakan pilihan yang lebih baik untuk mendapatkan gambaran umum singkat tentang distribusi, dan Anda dapat menaburkan alat dan UK di sana juga.
Plot sederhana data, dan plot box, cukup sederhana sehingga sebagian besar orang akan dapat memahaminya bahkan jika mereka tidak mengerti secara statistik. Ingatlah, bahwa tidak satu pun dari ini yang memudahkan untuk menilai validitas menggunakan uji-t untuk membandingkan grup Anda. Sasaran-sasaran itu paling baik dilayani oleh berbagai jenis plot.
1. Perhatikan bahwa diskusi ini mengasumsikan uji-t sampel independen. Plot-plot ini dapat digunakan dengan uji-t sampel dependen, tetapi juga bisa menyesatkan dalam konteks itu (lih., Apakah menggunakan bilah galat untuk sarana dalam studi subjek yang salah? ).
sumber
Cara yang paling umum digunakan untuk memvisualisasikan -test seperti perbandingan adalah dengan menggunakan boxplots . Di bawah ini saya memberikan contoh menggunakan dataset yang menggambarkan "hubungan antara merokok ganja dan defisit kinerja pada tugas mengukur memori jangka pendek" dari situs ini .t
Sebenarnya, boxplots umumnya digunakan untuk pengujian hipotesis "informal", misalnya seperti yang dijelaskan oleh Yoav Benjamini pada tahun 1988 makalah Membuka Box of a Boxplot :
Lihat juga: Uji-T hanya menggunakan data ringkasan dalam plot kotak
Plot ini tidak menunjukkan jumlah yang terlibat langsung dalam uji- , seperti yang diperhatikan oleh @NickCox . Jika Anda ingin perbandingan langsung cara dengan interval kepercayaan, Anda dapat menggunakan plot batang dengan interval kepercayaan yang ditandai. Menggunakan sarana dan interval kepercayaan juga memungkinkan Anda untuk melakukan tes hipotesis (lihat di sini atau di sini ).t
Seperti yang dapat Anda lihat dari pos dan komentar lain di bawah utas ini, plot kotak dan plot dinamit adalah pilihan yang agak kontroversial, jadi izinkan saya memberi Anda satu alternatif lagi yang belum disebutkan. Pertama, ingat bahwa uji- dan regresi terkait . Anda dapat memplot perbandingan -test-like sebagai dua poin dengan errorbar (interval kepercayaan) yang terhubung dengan garis. Kemiringan garis sebanding dengan kemiringan regresi jika Anda menggunakan regresi linier daripadat tt t t -menguji dalam situasi ini. Keuntungan utama plot tersebut adalah memungkinkan Anda untuk dengan mudah menilai besarnya perbedaan cara dengan melihat kemiringan garis. Kerugiannya mungkin menunjukkan bahwa ada beberapa "kontinuitas" antara rata-rata (yaitu bahwa Anda telah memasangkan sampel).
Boxplot tampaknya lebih umum digunakan karena mereka memberikan lebih banyak informasi tentang distribusi variabel yang divisualisasikan (membandingkan rata-rata dengan interval kepercayaan saja). Mereka juga melengkapi daripada menggandakan informasi dari uji- dan penggunaan plot seperti itu didorong oleh sebagian besar panduan gaya, misalnya oleh Manual Publikasi dari American Psychological Association :t
sumber
Ini sebagian besar merupakan variasi pada jawaban yang bermanfaat oleh @Tim dan @gung, tetapi grafik tidak dapat dimasukkan ke dalam komentar.
Poin kecil tapi mungkin berguna:
Strip plot atau dot plot seperti yang diilustrasikan oleh @gung perlu modifikasi jika ada ikatan, seperti yang ada dalam contoh data. Poin dapat ditumpuk atau dikelompokkan, atau seperti dalam contoh di bawah ini Anda dapat menggunakan plot kotak kuantil hibrida seperti yang disarankan oleh Emanuel Parzen (referensi yang paling mudah diakses mungkin 1979. Pemodelan data statistik nonparametrik. Jurnal, American Statistics Association74: 105-121). Ini juga memiliki kelebihan lain, dalam menggarisbawahi bahwa jika separuh data ada di dalam kotak, maka separuhnya juga ada di luar, dan pada dasarnya menunjukkan semua detail distribusi. Di mana hanya ada dua kelompok, seperti yang ada dalam konteks ini, jenis plot kotak yang lebih konvensional dapat menjadi tampilan yang minimal, bahkan kerangka. Beberapa akan menganggap itu sebagai kebajikan, tetapi ada ruang untuk menunjukkan lebih detail. Argumen sebaliknya adalah bahwa plot kotak menandai titik-titik tertentu, terutama yang lebih dari 1,5 IQR dari kuartil yang lebih dekat, adalah peringatan yang jelas bagi pengguna: hati-hati dengan uji-t, karena mungkin ada poin di bagian ekor yang harus Anda miliki khawatir tentang.
Anda dapat secara alami menambahkan indikasi cara ke plot kotak, yang cukup sering dilakukan. Menambahkan penanda atau simbol titik yang berbeda adalah hal biasa. Di sini kita memilih garis referensi.
Plot kotak-kuantitas untuk perokok dan non-perokok. Kotak-kotak menunjukkan median dan kuartil. Garis horizontal dalam acara biru berarti.
Catatan. Grafik dibuat di Stata. Ini adalah kode untuk mereka yang tertarik.
stripplot
harus diinstal sebelumnya denganssc inst stripplot
.EDIT. Gagasan lebih lanjut ini sebagai jawaban atas jawaban oleh @ Frank Harrell menempatkan dua plot probabilitas normal (plot kuantil-kuantil). Garis horizontal menunjukkan sarana. Beberapa ingin menambahkan garis untuk setiap kelompok yang menunjukkan kesesuaian sempurna, misalnya melalui ( , rata-rata) dan ( , rata-rata SD-nya) atau alternatif yang tahan-kuat.1 +0 1 +
sumber
Selain tujuan yang bagus untuk mempresentasikan hasil harus ada beberapa pertimbangan tentang grafik yang memeriksa asumsi dari dua sampel dengan varian yang sama -tes untuk itu untuk memiliki kinerja yang sangat baik. Itu akan menjadi fungsi terbalik normal dari dua fungsi distribusi kumulatif empiris. Untuk memenuhi asumsi pengujian, kedua kurva ini harus garis lurus paralel.t
sumber