Sejauh mengenai boxplot berlekuk, referensi McGill et al [1] yang disebutkan dalam pertanyaan Anda berisi perincian yang cukup lengkap (tidak semua yang saya katakan di sini disebutkan secara eksplisit di sana, namun demikian cukup terperinci untuk mengetahuinya).
Intervalnya adalah yang diperkuat tetapi berbasis Gaussian
Makalah ini mengutip interval takik berikut (di mana adalah median sampel dan adalah rentang interkuartil sampel):MR
M±1.7×1.25R/(1.35N−−√)
dimana:
1.35 adalah faktor konversi asimptotik untuk mengubah IQR menjadi perkiraan - khususnya, kira-kira perbedaan antara 0,75 kuantil dan 0,25 kuantil dari standar normal; kuartil populasi adalah sekitar 1,35 terpisah, sehingga nilai sekitar harus konsisten (asimtotik tidak bias) estimasi (lebih akurat, sekitar 1,349).σσR/1.35σ
1.25 masuk karena kita berurusan dengan kesalahan standar asimptotik dari median daripada rata-rata. Secara khusus, varians asimptotik dari median sampel adalah mana adalah kepadatan-tinggi di median. Untuk distribusi normal, adalah , sehingga kesalahan standar asimptotik dari median sampel adalah .14nf20f0f012π√σ≈0.3989σ12N√f0=π/2−−−√σ/N−−√≈1.253σ/N−−√
Seperti yang dikatakan StasK di sini , semakin kecil , semakin meragukan ini (menggantikan alasan ketiganya dengan alasan tentang kewajaran menggunakan distribusi normal di tempat pertama.N
Menggabungkan dua di atas, kami memperoleh perkiraan asimptotik dari kesalahan standar median sekitar . McGill et al memuji ini untuk Kendall dan Stuart (saya tidak ingat apakah formula tertentu terjadi di sana atau tidak, tetapi komponennya akan).1.25R/(1.35N−−√)
Jadi yang tersisa untuk dibahas adalah faktor 1,7.
Perhatikan bahwa jika kami membandingkan satu sampel dengan nilai tetap (katakanlah median yang dihipotesiskan) kami akan menggunakan 1,96 untuk tes 5%; akibatnya, jika kita memiliki dua kesalahan standar yang sangat berbeda (satu relatif besar, satu sangat kecil), itu akan menjadi faktor yang digunakan (karena jika nol itu benar, perbedaannya akan hampir seluruhnya karena variasi dalam satu dengan yang lebih besar kesalahan standar, dan kesalahan kecil dapat - kira-kira - diperlakukan secara efektif diperbaiki).
Di sisi lain, jika dua kesalahan standar adalah sama, 1,96 akan menjadi faktor yang terlalu besar, karena kedua set takik masuk ke dalamnya - untuk dua set takik gagal tumpang tindih kami menambahkan masing-masing. Ini akan membuat faktor yang tepat asimptotik.1.96/2–√≈1.386
Di antara keduanya, kita memiliki 1,7 sebagai faktor kompromi kasar. McGill et al menggambarkannya sebagai "dipilih secara empiris". Memang mendekati asumsi dengan rasio varian tertentu, jadi dugaan saya (dan tidak lebih dari itu) adalah bahwa pemilihan empiris (mungkin didasarkan pada beberapa simulasi) adalah antara serangkaian rasio nilai bulat untuk varian (seperti 1: 1, 2: 1,3: 1, ...), di mana "kompromi terbaik" dari rasio kemudian dicolokkan ke dibulatkan menjadi dua angka . Setidaknya itu adalah cara yang masuk akal untuk berakhir sangat dekat dengan 1,7.rr:11.96/1+1/r−−−−−−√
Menyatukan semuanya (1.35.1.25 dan 1.7) memberi sekitar 1.57. Beberapa sumber mendapatkan 1,58 dengan menghitung 1,35 atau 1,25 (atau keduanya) lebih akurat tetapi sebagai kompromi antara 1,386 dan 1,96, 1,7 bahkan tidak akurat untuk dua angka penting (itu hanya nilai kompromi kasarnya), sehingga presisi tambahan adalah sia-sia (mereka mungkin juga telah membulatkan semuanya menjadi 1,6 dan selesai dengan itu).
Perhatikan bahwa tidak ada penyesuaian untuk beberapa perbandingan di mana saja di sini.
Ada beberapa analogi yang berbeda dalam batas kepercayaan untuk perbedaan dalam Tukey-Kramer HSD :
y¯i∙−y¯j∙±qα;k;N−k2–√σˆε1ni+1nj−−−−−−−√
Tapi perhatikan itu
ini adalah interval gabungan, bukan dua kontribusi terpisah untuk perbedaan (jadi kami memiliki istilah dalam daripada keduanya berkontribusi secara terpisah dan dan kami mengasumsikan varian konstan (jadi kami tidak berurusan dengan kompromi dengan - ketika kita mungkin memiliki varian yang sangat berbeda - daripada kasus asimptotik )c.1ni+1nj−−−−−−√k.1ni−−√k.1nj−−√1.96 / √1.961.96/2–√
ini didasarkan pada cara, bukan median (jadi tidak ada 1,35)
ini didasarkan pada , yang pada gilirannya didasarkan pada perbedaan terbesar dalam rata-rata (jadi bahkan tidak ada bagian 1,96 dalam satu ini, bahkan satu dibagi dengan ). Sebaliknya dalam membandingkan beberapa plot kotak, tidak ada pertimbangan mendasarkan takikan pada perbedaan terbesar di median, semuanya murni berpasangan.√q2–√
Jadi, sementara beberapa ide di balik bentuk komponen agak analog, mereka sebenarnya sangat berbeda dalam apa yang mereka lakukan.
[1] McGill, R., Tukey, JW dan Larsen, WA (1978) Variasi plot kotak. The American Statistician 32, 12-16.