Saya bertanya-tanya bagaimana cara menyimpulkan varians dari variabel menggunakan boxplot. Apakah paling tidak mungkin untuk menyimpulkan jika dua variabel memiliki varians yang sama mengamati boxplot mereka?
Baru-baru ini tersandung pada artikel ini tentang topik serupa. Semoga ini akan memberi Anda wawasan.
Penguin_Knight
Jawaban:
16
Bukan tanpa banyak asumsi ketat, tidak. Jika Anda menganggap jawabannya adalah ya (alih-alih bertanya, yang saya beri tepuk tangan), saya bertaruh saya bisa membodohi Anda dengan contoh (kontra) ini:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))
Terlihat sangat mirip, bukan? Namun !σ21= 1 , σ22= 1,96
Dalam hal tidak jelas dari kode, populasi 2adalah:
Dan tidak, Anda tidak dapat menyimpulkan bahwa populasi ini normal hanya karena persis simetris. Berikut plot populasi QQ 2:
Tentu tidak terlihat normal bagi saya.
Edit - Tanggapan untuk komentar Anda:
Varians adalah statistik numerik. Jika varian dua distribusi secara harfiah sama, cukup banyak yang dapat Anda katakan tentang itu. Jika dua distribusi benar - benar normal , sekali lagi, ada definisi matematika yang cocok untuk keduanya. Jika dua distribusi tidak persis normal atau sama dalam varians, Anda tidak boleh mengatakan sebaliknya. Jika Anda ingin mengatakan mereka kira - kira sama atau normal, Anda mungkin harus mendefinisikan "perkiraan cukup" dengan cara yang disesuaikan dengan tujuan Anda, yang belum Anda tentukan di sini. Sensitivitas terhadap perbedaan distribusi sangat bervariasi di seluruh analisis yang biasanya memotivasi pertanyaan seperti milik Anda. Sebagai contoh,titu cukup kuat untuk pelanggaran yang terakhir diberikan ukuran sampel yang sama ), jadi saya tidak akan merekomendasikan tes itu untuk membandingkan populasi saya 2dengan populasi 1(distribusi normal).
Contoh yang baik. Nick menggunakan R. (Sampai semua orang menggunakan R, praktik yang baik untuk menyebutkan itu.)
Nick Cox
Mau tak mau berpikir bahwa itu akan menjadi hari yang baik untuk ilmu pengetahuan secara keseluruhan :)
Nick Stauner
Saya punya esai panjang tentang itu, tapi entah bagaimana itu tidak muat di ruang yang tersedia.
Nick Cox
Jawaban yang bagus. Dapatkah Anda menulis informasi apa yang harus kami laporkan untuk mengatakan: "Mereka normal dan variansinya sama"
Donbeo
Diedit untuk merespons.
Nick Stauner
10
Ini telah dijawab dengan baik. Komentar tambahan ini agak terlalu panjang (PEMBARUAN: sekarang terlalu lama) untuk dikomentari.
Secara ketat, semua yang dapat Anda baca dari bungkusan kotak tentang variabilitas distribusi adalah kisaran interkuartilnya (panjang atau tinggi kotak) dan kisaran (panjang atau tinggi antara ekstrem tampilan).
Sebagai perkiraan, plot kotak yang tampaknya identik cenderung memiliki varian yang sangat mirip, tetapi hati-hati. Petak kotak dengan posisi atau ekor kotak yang sangat berbeda (atau keduanya) paling tidak mungkin memiliki varian yang serupa, tetapi itu bukan tidak mungkin. Tetapi bahkan jika plot kotak terlihat identik, Anda tidak mendapatkan informasi dalam plot kotak polos atau vanila tentang variabilitas di dalam kotak atau memang variabilitas dalam kumis (garis-garis yang sering ditunjukkan antara kotak dan titik data dalam 1,5 IQR dari kuartil yang lebih dekat) . NB beberapa varian plot kotak ada; penulis sering miskin mendokumentasikan aturan yang tepat digunakan oleh perangkat lunak mereka.
Popularitas plot kotak memiliki harganya. Petak kotak bisa sangat berguna untuk menampilkan fitur-fitur kasar dari banyak grup atau variabel (katakanlah 20 atau 30, terkadang bahkan lebih). Seperti yang biasa digunakan untuk membandingkan katakanlah 2 atau 3 kelompok, mereka oversold, dalam pandangan saya, karena plot lainnya dapat menunjukkan lebih banyak detail secara cerdas dalam ruang yang sama. Secara alami, ini secara luas jika tidak dihargai secara universal, dan berbagai peningkatan plot kotak menunjukkan lebih detail.
Pekerjaan serius dengan varian memerlukan akses ke data asli.
Ini adalah sikat yang luas, dan lebih banyak detail dapat ditambahkan. Misalnya, posisi median di dalam kotak terkadang memberikan sedikit informasi lebih lanjut.
MEMPERBARUI
Saya kira lebih banyak orang yang tertarik pada penggunaan (dan keterbatasan) plot kotak pada umumnya daripada pertanyaan spesifik untuk menyimpulkan varians dari plot kotak (yang jawabannya singkat adalah "Anda tidak bisa, kecuali secara tidak langsung, kira-kira, dan kadang-kadang "), jadi saya akan menambahkan komentar lebih lanjut tentang alternatif, seperti yang diminta oleh @Christian Sauer.
Histogram yang digunakan dengan bijaksana seringkali masih kompetitif. Teks pengantar klasik modern oleh Freedman, Pisani dan Purves menggunakan semuanya.
Apa yang dikenal sebagai plot titik atau strip (grafik) (dan dengan banyak nama lain) mudah dipahami. Poin identik dapat ditumpuk, setelah binning jika diinginkan. Anda dapat menambahkan median dan kuartil, atau interval mean dan kepercayaan diri, ke isi hati Anda.
Tampaknya, plot-plot kuantitas merupakan rasa yang diperoleh tetapi dalam beberapa hal paling serbaguna. Di sini saya sertakan plot nilai-nilai yang diurutkan lagi probabilitas kumulatif (posisi plot) serta plot kuantil yang akan lurus jika data yang dianggap distribusi "nama-merek" (normal, eksponensial, gamma, apa pun). (Ucapan terima kasih kepada @Scortchi untuk referensi ke "merek-nama" seperti yang digunakan oleh CJ Geyer.)
Tetapi daftar yang komprehensif tidak mungkin. (Saya akan menambahkan, misalnya, bahwa kadang-kadang, representasi batang dan daun tepat untuk melihat detail penting dalam data, seperti ketika preferensi digit merajalela.) Prinsip utamanya adalah bahwa jenis plot distribusi terbaik memungkinkan yang tampaknya mustahil, persepsi struktur halus dalam data yang mungkin menarik atau penting (modalitas, granularitas, outlier, dll.) serta struktur kasar (level, spread, skewness, dll.).
Plot kotak tidak sama baiknya dalam menunjukkan semua jenis struktur. Mereka tidak bisa, dan tidak dimaksudkan untuk menjadi. Patut ditandai bahwa JW Tukey dalam analisis data Exploratory Reading, MA: Addison-Wesley (1977) memberikan contoh data bimodal dari Rayleigh yang plot kotak mengaburkan struktur utama sepenuhnya. Sebagai ahli statistik yang hebat, dia sangat menyadari bahwa plot kotak tidak selalu jawabannya.
Sebuah praktik aneh, tersebar luas dalam teks pengantar, sedang membahas ANOVA sambil mengundang pembaca untuk melihat plot kotak, yang menunjukkan median dan kuartil, bukan berarti dan varians (bukan SD). Tentu saja, melihat data jauh lebih baik daripada tidak melihat, tetapi meskipun demikian, representasi grafis yang lebih tepat bisa dibilang beberapa plot dari data mentah dengan sarana pas +/- beberapa kelipatan SE yang sesuai.
Nick, bisakah Anda menjelaskan alternatif plot-plot untuk sejumlah kecil variabel?
Christian Sauer
@ChristianSauer Terima kasih atas promptnya: silakan lihat pembaruan.
Nick Cox
Terima kasih atas pembaruan yang sangat bagus. Saya terutama menyukai paragraf terakhir Anda, saya menemukan plot kotak ditambah dengan ANOVA dan / atau regresi cukup membingungkan - itu seperti membandingkan apel dan jeruk.
Christian Sauer
2
Statistik, seperti halnya ilmu pengetahuan lainnya, penuh dengan terminologi yang aneh, notasi, dan kebiasaan analisis yang disalin dari yang lain.
Nick Cox
1
Saya setuju sepenuhnya - dalam tesis master saya, saya memeriksa Variabel bebas untuk distribusi normal mereka ... itu adalah bentuk terbaik dari statistik pemujaan kargo :(
Christian Sauer
6
Pendekatan naif:
0.67⋅σ1.35⋅σ
IQR=1.35⋅σσ=0.74⋅IQR
Dan tentang membandingkan varians dengan boxplot: kotak yang lebih luas berarti varian yang lebih besar, tetapi itu memberi Anda pemahaman eksplorasi, dan Anda harus memperhitungkan juga kumis dan pencilan. Untuk konfirmasi Anda harus menggunakan kontras hipotesis.
Untuk membandingkan varians kita masih harus menganggap kedua distribusi normal? Bisakah kita menyimpulkan bahwa variabel itu normal jika kotak itu menghormati pusat secara simetris?
Donbeo
1
Saya berlangganan semua yang dikatakan @Nick_Stauner. Apa yang saya paparkan adalah berasumsi bahwa populasi Anda adalah Normal, yang mengharuskan, antara lain tetapi tidak adil, simetri dan kurtosis = 0. Asumsi ini sering dilanggar.
Rufo
2
Kurtosis didefinisikan dengan berbagai cara. Pada definisi lain (lebih sederhana), yang normal (Gaussian) memiliki kurtosis 3. Anda perlu memeriksa definisi yang digunakan perangkat lunak Anda jika Anda menghitungnya dalam praktik.
Nick Cox
1
Untuk distribusi normal, itu akan menjadi kurtosis 3, kelebihan kurtosis 0 , jika saya tidak salah. Saya ingin tahu apakah ada paket perangkat lunak populer yang menghasilkan kurtosis tidak berlebih secara default. Itu mungkin akan menghasilkan banyak kebingungan (bukan untuk menyangkal bahwa orang-orang pada umumnya agak bingung dengan kelalaian "kelebihan" dalam praktik yang berlawanan) ...
Jawaban:
Bukan tanpa banyak asumsi ketat, tidak. Jika Anda menganggap jawabannya adalah ya (alih-alih bertanya, yang saya beri tepuk tangan), saya bertaruh saya bisa membodohi Anda dengan contoh (kontra) ini:
set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))
Terlihat sangat mirip, bukan? Namun !σ21= 1 , σ22= 1,96
Dalam hal tidak jelas dari kode, populasi
2
adalah:Dan tidak, Anda tidak dapat menyimpulkan bahwa populasi ini normal hanya karena persis simetris. Berikut plot populasi QQ
2
:Tentu tidak terlihat normal bagi saya.
Edit - Tanggapan untuk komentar Anda:
Varians adalah statistik numerik. Jika varian dua distribusi secara harfiah sama, cukup banyak yang dapat Anda katakan tentang itu. Jika dua distribusi benar - benar normal , sekali lagi, ada definisi matematika yang cocok untuk keduanya. Jika dua distribusi tidak persis normal atau sama dalam varians, Anda tidak boleh mengatakan sebaliknya. Jika Anda ingin mengatakan mereka kira - kira sama atau normal, Anda mungkin harus mendefinisikan "perkiraan cukup" dengan cara yang disesuaikan dengan tujuan Anda, yang belum Anda tentukan di sini. Sensitivitas terhadap perbedaan distribusi sangat bervariasi di seluruh analisis yang biasanya memotivasi pertanyaan seperti milik Anda. Sebagai contoh,t itu cukup kuat untuk pelanggaran yang terakhir diberikan ukuran sampel yang sama ), jadi saya tidak akan merekomendasikan tes itu untuk membandingkan populasi saya
2
dengan populasi1
(distribusi normal).sumber
Ini telah dijawab dengan baik. Komentar tambahan ini agak terlalu panjang (PEMBARUAN: sekarang terlalu lama) untuk dikomentari.
Secara ketat, semua yang dapat Anda baca dari bungkusan kotak tentang variabilitas distribusi adalah kisaran interkuartilnya (panjang atau tinggi kotak) dan kisaran (panjang atau tinggi antara ekstrem tampilan).
Sebagai perkiraan, plot kotak yang tampaknya identik cenderung memiliki varian yang sangat mirip, tetapi hati-hati. Petak kotak dengan posisi atau ekor kotak yang sangat berbeda (atau keduanya) paling tidak mungkin memiliki varian yang serupa, tetapi itu bukan tidak mungkin. Tetapi bahkan jika plot kotak terlihat identik, Anda tidak mendapatkan informasi dalam plot kotak polos atau vanila tentang variabilitas di dalam kotak atau memang variabilitas dalam kumis (garis-garis yang sering ditunjukkan antara kotak dan titik data dalam 1,5 IQR dari kuartil yang lebih dekat) . NB beberapa varian plot kotak ada; penulis sering miskin mendokumentasikan aturan yang tepat digunakan oleh perangkat lunak mereka.
Popularitas plot kotak memiliki harganya. Petak kotak bisa sangat berguna untuk menampilkan fitur-fitur kasar dari banyak grup atau variabel (katakanlah 20 atau 30, terkadang bahkan lebih). Seperti yang biasa digunakan untuk membandingkan katakanlah 2 atau 3 kelompok, mereka oversold, dalam pandangan saya, karena plot lainnya dapat menunjukkan lebih banyak detail secara cerdas dalam ruang yang sama. Secara alami, ini secara luas jika tidak dihargai secara universal, dan berbagai peningkatan plot kotak menunjukkan lebih detail.
Pekerjaan serius dengan varian memerlukan akses ke data asli.
Ini adalah sikat yang luas, dan lebih banyak detail dapat ditambahkan. Misalnya, posisi median di dalam kotak terkadang memberikan sedikit informasi lebih lanjut.
MEMPERBARUI
Saya kira lebih banyak orang yang tertarik pada penggunaan (dan keterbatasan) plot kotak pada umumnya daripada pertanyaan spesifik untuk menyimpulkan varians dari plot kotak (yang jawabannya singkat adalah "Anda tidak bisa, kecuali secara tidak langsung, kira-kira, dan kadang-kadang "), jadi saya akan menambahkan komentar lebih lanjut tentang alternatif, seperti yang diminta oleh @Christian Sauer.
Histogram yang digunakan dengan bijaksana seringkali masih kompetitif. Teks pengantar klasik modern oleh Freedman, Pisani dan Purves menggunakan semuanya.
Apa yang dikenal sebagai plot titik atau strip (grafik) (dan dengan banyak nama lain) mudah dipahami. Poin identik dapat ditumpuk, setelah binning jika diinginkan. Anda dapat menambahkan median dan kuartil, atau interval mean dan kepercayaan diri, ke isi hati Anda.
Tampaknya, plot-plot kuantitas merupakan rasa yang diperoleh tetapi dalam beberapa hal paling serbaguna. Di sini saya sertakan plot nilai-nilai yang diurutkan lagi probabilitas kumulatif (posisi plot) serta plot kuantil yang akan lurus jika data yang dianggap distribusi "nama-merek" (normal, eksponensial, gamma, apa pun). (Ucapan terima kasih kepada @Scortchi untuk referensi ke "merek-nama" seperti yang digunakan oleh CJ Geyer.)
Tetapi daftar yang komprehensif tidak mungkin. (Saya akan menambahkan, misalnya, bahwa kadang-kadang, representasi batang dan daun tepat untuk melihat detail penting dalam data, seperti ketika preferensi digit merajalela.) Prinsip utamanya adalah bahwa jenis plot distribusi terbaik memungkinkan yang tampaknya mustahil, persepsi struktur halus dalam data yang mungkin menarik atau penting (modalitas, granularitas, outlier, dll.) serta struktur kasar (level, spread, skewness, dll.).
Plot kotak tidak sama baiknya dalam menunjukkan semua jenis struktur. Mereka tidak bisa, dan tidak dimaksudkan untuk menjadi. Patut ditandai bahwa JW Tukey dalam analisis data Exploratory Reading, MA: Addison-Wesley (1977) memberikan contoh data bimodal dari Rayleigh yang plot kotak mengaburkan struktur utama sepenuhnya. Sebagai ahli statistik yang hebat, dia sangat menyadari bahwa plot kotak tidak selalu jawabannya.
Sebuah praktik aneh, tersebar luas dalam teks pengantar, sedang membahas ANOVA sambil mengundang pembaca untuk melihat plot kotak, yang menunjukkan median dan kuartil, bukan berarti dan varians (bukan SD). Tentu saja, melihat data jauh lebih baik daripada tidak melihat, tetapi meskipun demikian, representasi grafis yang lebih tepat bisa dibilang beberapa plot dari data mentah dengan sarana pas +/- beberapa kelipatan SE yang sesuai.
sumber
Pendekatan naif:
Dan tentang membandingkan varians dengan boxplot: kotak yang lebih luas berarti varian yang lebih besar, tetapi itu memberi Anda pemahaman eksplorasi, dan Anda harus memperhitungkan juga kumis dan pencilan. Untuk konfirmasi Anda harus menggunakan kontras hipotesis.
sumber