Misalkan kita sedang melihat plot kotak-dan-kumis ini:
Antara Kamis dan Jumat, saya pikir sebagian besar akan setuju tampaknya ada perbedaan waktu tidur yang signifikan. Apakah itu dugaan yang secara statistik valid? Bisakah kita melihat perbedaan yang signifikan karena tak satu pun dari rentang kuartil dalam tumpang tindih antara Kamis dan Jumat? Bagaimana dengan fakta bahwa kumis atas dan bawah masing-masing pada hari Kamis dan Jumat saling tumpang tindih? Apakah itu memengaruhi analisis kami?
Biasanya menyertai bagan seperti ini akan menjadi semacam ANOVA, tapi saya hanya ingin tahu berapa banyak yang bisa kita katakan tentang perbedaan antar kelompok hanya dengan melihat plot .
anova
data-visualization
boxplot
situs hitam
sumber
sumber
Jawaban:
Tidak bisa. Jika Anda memiliki ukuran sampel dan banyak pengalaman, Anda mungkin dapat menebak - dan akurasi tebakan Anda akan bergantung pada (selain ukuran efek) ukuran sampel. Jika N = 1.000.000 per grup, banyak artinya. Jika N = 10 per grup, tidak terlalu banyak. Di 100 per grup, lebih sulit ditebak.
Saya berpendapat bahwa itu adalah hal yang baik . Hal yang harus dilakukan dengan plot kotak bukan untuk mencoba menebak signifikansi statistik tetapi untuk melihat apa yang terjadi dan mencoba berpikir tentang hal itu. Hmm. Lebih banyak tidur di akhir pekan. Itu menarik tetapi tidak terlalu mengejutkan. Kita bisa memodelkan jam tidur sebagai fungsi akhir pekan vs tidak. Atau kita bisa mencoba melihat apakah pola ini bervariasi. Mungkin pensiunan tidak memiliki pola ini? Bagaimana dengan pekerja shift? Orang yang bekerja di akhir pekan? Orang yang bekerja 7 hari seminggu?
Seperti profesor favorit saya di sekolah pascasarjana (Herman Friedman) yang biasa berkata: "Hentikan penelitian!"
sumber
Ya kamu bisa. Setidaknya dalam arti perkiraan.
Saya menguraikan bagaimana di bawah ini (dan memang ada hubungan dengan "kotak-tumpang tindih" seperti yang Anda sarankan) bersama dengan beberapa peringatan dan batasan. Tetapi pertama-tama mari kita bahas beberapa pendahuluan untuk latar belakang dan konteks tertentu. (Saya pikir jawaban yang tepat di sini seharusnya tidak berfokus pada rincian contoh - meskipun itu mungkin pantas disebut sebagai samping - tetapi pada masalah utama menggunakan boxplots untuk menilai apakah perbedaan yang jelas dapat dengan mudah dijelaskan sebagai variasi acak atau tidak) .)
Jika Anda memiliki akses ke data, Anda dapat menggambar plot kotak berlekuk yang dirancang untuk perbandingan visual semacam ini.
Ada diskusi tentang perhitungan boxplot berlekuk di sini . Jika interval takik tidak tumpang tindih kedua kelompok yang dibandingkan kira-kira berbeda pada level 5%; perhitungan didasarkan pada perhitungan pada normal, tetapi mereka cukup kuat dan berkinerja cukup baik di berbagai distribusi. (Jika itu diperlakukan sebagai tes formal, kekuatannya tidak terlalu tinggi pada kondisi normal, tetapi seharusnya cukup baik untuk berbagai kasus yang kurang lebih "khas" berekor lebih berat.)
Mempertimbangkan cara kerja boxplot berlekuk Anda dapat melihat aturan praktis yang akan berfungsi ketika Anda hanya memiliki tampilan seperti yang ada di pertanyaan. Ketika ukuran sampel adalah 10 dan median ditempatkan dekat dengan bagian tengah kotak, takik di petak kotak berlekuk sekitar lebar kotak, sehingga takik-ujung dan kotak berada di tempat yang kira-kira sama.
Melihat plot Anda:
Perhatikan bahwa kita dapat mengetahui dari tampilan plot dalam pertanyaan bahwa ukuran sampel minimal harus 5; jika mereka kurang dari 5 plot kotak sampel individu akan memiliki petunjuk yang berbeda bahwa mereka berasal dari ukuran sampel yang lebih rendah (seperti median yang mati pusat setiap kotak, atau kumis yang panjangnya 0 ketika ada outlier).
Atau jika kotak (menandai kuartil) tidak saling tumpang tindih dan ukuran sampel setidaknya 10, maka kedua kelompok yang dibandingkan harus memiliki median yang berbeda pada tingkat 5% (dianggap sebagai perbandingan berpasangan tunggal).
[Perhatikan, bahwa ini tidak memperhitungkan jumlah perbandingan, jadi jika Anda melakukan beberapa perbandingan, kesalahan tipe I keseluruhan Anda akan lebih besar. Ini dimaksudkan untuk inspeksi visual daripada pengujian formal; Namun demikian, ide-ide yang terlibat dapat diadaptasi ke pendekatan yang lebih formal, termasuk penyesuaian untuk beberapa perbandingan.]
Setelah menjawab apakah Anda bisa , masuk akal untuk mempertimbangkan apakah Anda harus melakukannya . Mungkin tidak; masalah potensi peretasan adalah nyata, tetapi jika Anda menggunakan ini untuk mengetahui apakah, misalnya, untuk mengejar pengumpulan data baru tentang masalah penelitian dan yang Anda miliki hanyalah sebuah kotak petak di kertas - katakan - mungkin saja cukup berguna untuk dapat membuat penilaian apakah ada lebih banyak daripada yang dapat dengan mudah dijelaskan oleh variasi karena kebisingan. Tetapi untuk mempertimbangkan masalah itu secara mendalam akan benar-benar menjawab pertanyaan yang berbeda.
sumber