Membaca plot kotak-dan-kumis: mungkin untuk mendapatkan perbedaan yang signifikan antar kelompok?

11

Misalkan kita sedang melihat plot kotak-dan-kumis ini:

merencanakan

Antara Kamis dan Jumat, saya pikir sebagian besar akan setuju tampaknya ada perbedaan waktu tidur yang signifikan. Apakah itu dugaan yang secara statistik valid? Bisakah kita melihat perbedaan yang signifikan karena tak satu pun dari rentang kuartil dalam tumpang tindih antara Kamis dan Jumat? Bagaimana dengan fakta bahwa kumis atas dan bawah masing-masing pada hari Kamis dan Jumat saling tumpang tindih? Apakah itu memengaruhi analisis kami?

Biasanya menyertai bagan seperti ini akan menjadi semacam ANOVA, tapi saya hanya ingin tahu berapa banyak yang bisa kita katakan tentang perbedaan antar kelompok hanya dengan melihat plot .

situs hitam
sumber
Lingkaran mewakili outlier.
Michael R. Chernick
3
Selama plot melewatkan indikasi ukuran sampel, itu sulit. Tetapi jika Anda memasukkan dengan interval kepercayaan plot untuk median, Anda bisa membandingkan interval kepercayaan tersebut. Mereka sepertinya tidak ada di plot Anda.
kjetil b halvorsen
@kjetilbhalvorsen ini hanya plot yang saya ambil dari Google :) ... Saya telah memasukkan, pada plot saya sendiri, persis apa yang telah Anda jelaskan, sebagai bagian dari tes HSD Tukey
blacksite
2
Tanpa CI, Anda tidak dapat berbicara tentang perbedaan "signifikan". Namun, saya akan mengatakan ada perbedaan "penting" antara Kamis dan Jumat. Atau bahkan perbedaan "yang paling menonjol" terjadi antara Kamis dan Jumat ..
Ashe
1
Lingkaran adalah poin lebih dari 1,5 IQR dari kuartil yang lebih dekat. Mereka bukan outlier dengan tegas dan objektif. Itu untuk hari Kamis tidak terlihat luar biasa dibandingkan dengan sisa distribusi. Itu untuk hari Jumat benar-benar; dan seorang peneliti atau analis harus ingin memeriksanya jika memungkinkan dan melihat apakah ada cerita untuk dijelaskan. Mungkin seseorang benar-benar tidak tidur! Menandai titik data dengan cara ini menandai mereka untuk diperiksa dan dipikirkan. Itu bukan metode statistik untuk mengidentifikasi setan yang harus diusir.
Nick Cox

Jawaban:

4

Tidak bisa. Jika Anda memiliki ukuran sampel dan banyak pengalaman, Anda mungkin dapat menebak - dan akurasi tebakan Anda akan bergantung pada (selain ukuran efek) ukuran sampel. Jika N = 1.000.000 per grup, banyak artinya. Jika N = 10 per grup, tidak terlalu banyak. Di 100 per grup, lebih sulit ditebak.

Saya berpendapat bahwa itu adalah hal yang baik . Hal yang harus dilakukan dengan plot kotak bukan untuk mencoba menebak signifikansi statistik tetapi untuk melihat apa yang terjadi dan mencoba berpikir tentang hal itu. Hmm. Lebih banyak tidur di akhir pekan. Itu menarik tetapi tidak terlalu mengejutkan. Kita bisa memodelkan jam tidur sebagai fungsi akhir pekan vs tidak. Atau kita bisa mencoba melihat apakah pola ini bervariasi. Mungkin pensiunan tidak memiliki pola ini? Bagaimana dengan pekerja shift? Orang yang bekerja di akhir pekan? Orang yang bekerja 7 hari seminggu?

Seperti profesor favorit saya di sekolah pascasarjana (Herman Friedman) yang biasa berkata: "Hentikan penelitian!"

Peter Flom - Pasang kembali Monica
sumber
1
N<5
8

Ya kamu bisa. Setidaknya dalam arti perkiraan.

Saya menguraikan bagaimana di bawah ini (dan memang ada hubungan dengan "kotak-tumpang tindih" seperti yang Anda sarankan) bersama dengan beberapa peringatan dan batasan. Tetapi pertama-tama mari kita bahas beberapa pendahuluan untuk latar belakang dan konteks tertentu. (Saya pikir jawaban yang tepat di sini seharusnya tidak berfokus pada rincian contoh - meskipun itu mungkin pantas disebut sebagai samping - tetapi pada masalah utama menggunakan boxplots untuk menilai apakah perbedaan yang jelas dapat dengan mudah dijelaskan sebagai variasi acak atau tidak) .)

Jika Anda memiliki akses ke data, Anda dapat menggambar plot kotak berlekuk yang dirancang untuk perbandingan visual semacam ini.

Gambar menampilkan plot kotak berlekuk di R

Ada diskusi tentang perhitungan boxplot berlekuk di sini . Jika interval takik tidak tumpang tindih kedua kelompok yang dibandingkan kira-kira berbeda pada level 5%; perhitungan didasarkan pada perhitungan pada normal, tetapi mereka cukup kuat dan berkinerja cukup baik di berbagai distribusi. (Jika itu diperlakukan sebagai tes formal, kekuatannya tidak terlalu tinggi pada kondisi normal, tetapi seharusnya cukup baik untuk berbagai kasus yang kurang lebih "khas" berekor lebih berat.)

Mempertimbangkan cara kerja boxplot berlekuk Anda dapat melihat aturan praktis yang akan berfungsi ketika Anda hanya memiliki tampilan seperti yang ada di pertanyaan. Ketika ukuran sampel adalah 10 dan median ditempatkan dekat dengan bagian tengah kotak, takik di petak kotak berlekuk sekitar lebar kotak, sehingga takik-ujung dan kotak berada di tempat yang kira-kira sama.

n=10

n=10

n=9n=10

n=10n=10,10n=9,9n=8,8

nnn=40

Melihat plot Anda:

Perhatikan bahwa kita dapat mengetahui dari tampilan plot dalam pertanyaan bahwa ukuran sampel minimal harus 5; jika mereka kurang dari 5 plot kotak sampel individu akan memiliki petunjuk yang berbeda bahwa mereka berasal dari ukuran sampel yang lebih rendah (seperti median yang mati pusat setiap kotak, atau kumis yang panjangnya 0 ketika ada outlier).

Atau jika kotak (menandai kuartil) tidak saling tumpang tindih dan ukuran sampel setidaknya 10, maka kedua kelompok yang dibandingkan harus memiliki median yang berbeda pada tingkat 5% (dianggap sebagai perbandingan berpasangan tunggal).

nn=5

[Perhatikan, bahwa ini tidak memperhitungkan jumlah perbandingan, jadi jika Anda melakukan beberapa perbandingan, kesalahan tipe I keseluruhan Anda akan lebih besar. Ini dimaksudkan untuk inspeksi visual daripada pengujian formal; Namun demikian, ide-ide yang terlibat dapat diadaptasi ke pendekatan yang lebih formal, termasuk penyesuaian untuk beberapa perbandingan.]

Setelah menjawab apakah Anda bisa , masuk akal untuk mempertimbangkan apakah Anda harus melakukannya . Mungkin tidak; masalah potensi peretasan adalah nyata, tetapi jika Anda menggunakan ini untuk mengetahui apakah, misalnya, untuk mengejar pengumpulan data baru tentang masalah penelitian dan yang Anda miliki hanyalah sebuah kotak petak di kertas - katakan - mungkin saja cukup berguna untuk dapat membuat penilaian apakah ada lebih banyak daripada yang dapat dengan mudah dijelaskan oleh variasi karena kebisingan. Tetapi untuk mempertimbangkan masalah itu secara mendalam akan benar-benar menjawab pertanyaan yang berbeda.

Glen_b -Reinstate Monica
sumber