Manakah plot terbaik, dari sudut pandang statistik, untuk menunjukkan tabel kontingensi , yang biasanya dianalisis dengan uji chi-square? Apakah itu barplot yang dihindari, barplot yang ditumpuk, peta panas, plot kontur, scatterplot jitterred, plot beberapa baris atau yang lainnya? Haruskah seseorang menunjukkan nilai atau persentase absolut?
Sunting: Atau seperti yang @forecaster sarankan dalam komentar, tabel angka itu sendiri merupakan plot sederhana dan harus memadai.
Jawaban:
Tidak akan ada solusi satu ukuran untuk semua di sini. Jika Anda memiliki tabel yang sangat sederhana (misalnya, ), cukup menyajikan tabel mungkin adalah yang terbaik. Jika Anda menginginkan sosok yang sebenarnya, plot mosaik (seperti yang disarankan oleh @xan) mungkin merupakan tempat yang bagus untuk memulai. Ada beberapa opsi lain yang analog dengan plot mosaik, termasuk plot saringan, plot asosiasi, dan plot tekanan dinamis (lihat pertanyaan saya di sini: Alternatif untuk saringan / plot mosaik untuk tabel kontingensi ); Buku Michael Friendly, Visualisasi Data Kategori , akan menjadi sumber yang bagus (berbasis SAS) untuk topik ini dan paket vcd adalah sumber yang bagus untuk mengimplementasikan ide-ide itu di R.2 × 2
Karena tabel memiliki jumlah baris dan kolom yang lebih besar, menurut saya, ini menjadi lebih sulit untuk digunakan. Jenis opsi visualisasi yang berbeda adalah melakukan / merencanakan analisis korespondensi . Analisis korespondensi analog dengan menjalankan analisis komponen utama pada baris dan kolom tabel kontingensi. Kemudian keduanya diplot bersama dengan biplot. Berikut ini adalah contoh berbasis R yang menggunakan data dari jawaban @ xan:
Untuk menginterpretasikan plot ini, semakin dekat dua titik dengan tipe yang sama, semakin mirip kedua profil baris / kolom tersebut. Dan semakin dekat dua titik dari jenis yang berbeda, semakin besar massa probabilitasnya dalam sel yang mewakili persimpangan mereka.
Di R ada paket ca ; sketsa ini ( pdf ) dapat membantu juga.
sumber
factor(vs)
) hanya memiliki dua tingkatan; Anda membutuhkan setidaknya tiga. Cobattt = with(mtcars, table(factor(gear), factor(cyl))); plot(ca(ttt))
.ca
objek, jadi saya mengkodekannya dari awal. Kecuali saya melakukan kesalahan, Anda menyusun ulang barisc(1,3,2)
& kolomc(4,1,3,2)
. Setelah melakukan itu, saya tidak yakin apa yang seharusnya saya lihat di sini. Apa yang ada dalam pikiranmu?Visual yang berbeda akan lebih baik dalam menyoroti fitur yang berbeda, tetapi plot Mosaic bekerja dengan baik untuk tampilan umum (memeriksa untuk melihat apakah ada yang menonjol). Mungkin itu yang Anda maksudkan dengan plot bar yang dihindari. Seperti kebanyakan opsi, mereka tidak simetris karena mereka mewakili frekuensi relatif lebih baik dalam satu dimensi daripada yang lain. Fitur yang bagus adalah bahwa frekuensi marginal juga diwakili.
sumber
Saya setuju bahwa plot "terbaik" tidak ada terlepas dari set data, jumlah pembaca, dan tujuan. Untuk dua variabel terukur, sebar plot bisa dibilang merupakan desain yang membuat semua yang lain di belakangnya, kecuali untuk tujuan tertentu, tetapi tidak ada pemimpin pasar seperti itu jelas untuk data kategorikal.
Tujuan saya di sini adalah hanya untuk menyebutkan metode sederhana, sering ditemukan kembali atau diciptakan kembali, tetapi bagaimanapun juga sering diabaikan bahkan dalam monograf atau buku teks yang mencakup grafik statistik.
Contoh pertama, mencakup data yang sama seperti yang diposting oleh xan:
Jika sebuah nama dicari, seperti biasanya, ini adalah barchart dua hari (dalam hal ini). Saya tidak akan membuat katalog istilah lain di sini, kecuali beberapa barchart adalah salah satu alternatif umum dengan rasa serupa. (Keberatan kecil saya untuk "banyak barchart" adalah bahwa "beberapa" tidak mengesampingkan grafik batang yang sangat umum ditumpuk atau berdampingan, sedangkan "twoway" bagi saya lebih jelas menyiratkan tata letak baris dan kolom, meskipun pada gilirannya mungkin mengambil contoh untuk memperjelasnya.)
Plus dan minus untuk plot semacam ini juga sederhana, tetapi saya akan menjelaskannya. Karena saya menyukai desain ini (yang kembali setidaknya ke tahun 1930-an), orang lain mungkin ingin menambahkan kritik yang lebih tajam.
+1. Idenya mudah dipahami , bahkan oleh kelompok non-teknis. Tinggi batang atau panjang batang mengkodekan frekuensi dalam contoh ini. Dalam contoh lain, mereka dapat menyandikan persentase yang dihitung dengan cara apa pun yang Anda suka, residual, dll.
+2. Struktur baris-dan-kolom cocok dengan tabel . Anda dapat menambahkan nilai numerik juga. Jumlah yang sangat kecil dan bahkan nol tersirat jelas jelas, yang tidak selalu terjadi dengan desain lain (misalnya grafik batang bertumpuk, plot mosaik). Pelabelan baris dan kolom biasanya lebih efisien daripada menambahkan kunci atau legenda, dengan mental "bolak-balik" yang diperlukan. Dengan demikian, desain ini menghibridisasikan ide-ide grafik dan tabel, yang tampaknya mengganggu sebagian pembaca; sebaliknya, saya berpendapat bahwa perbedaan yang kuat antara Gambar dan Tabel hanyalah hang-over historis, usang sekarang bahwa peneliti dapat menyiapkan dokumen mereka sendiri dan tidak harus bergantung pada desainer, kompositor dan printer.
+3. Perluasan pada desain tiga arah dan lebih tinggi pada prinsipnya mudah . Letakkan dua atau lebih variabel sebagai variabel komposit pada salah satu atau kedua sumbu, atau berikan array plot tersebut. Secara alami, semakin rumit desainnya, semakin rumit interpretasinya.
+4. Desainnya jelas memungkinkan variabel ordinal pada kedua sumbu. Urutan dapat diekspresikan (misalnya) dengan naungan yang sesuai serta urutan kategori pada sumbu itu. Urutan kategori pada sumbu dapat ditentukan oleh maknanya, atau lebih baik ditentukan oleh frekuensi; urutan alfabet menurut label teks mungkin merupakan standar, tetapi tidak boleh menjadi satu-satunya pilihan yang dipertimbangkan.
-1. Dengan menjadi umum dalam desain, plot dapat menjadi kurang efisien dalam menunjukkan jenis hubungan tertentu . Secara khusus, plot mosaik dapat membuat keberangkatan dari kemerdekaan menjadi sangat jelas. Sebaliknya, ketika hubungan antara variabel kategori rumit atau tidak jelas, maka biasanya tidak ada grafik yang baik untuk menunjukkan lebih dari fakta yang lemah.
-2. Dalam beberapa hal desainnya tidak efisien dalam penggunaan ruang dengan menyisakan ruang untuk setiap kombinasi silang terlepas dari apakah atau seberapa sering itu terjadi. Ini adalah sifat buruk dari prinsip yang sama yang dianggap sebagai kebajikan. Desain khusus di atas mengkategorikan kategori secara merata terlepas dari frekuensinya; Mengorbankan yang sering mengorbankan label marjinal yang mudah dibaca, yang sangat saya hargai. Dalam contoh ini, label teks kebetulan semuanya sangat pendek, tetapi itu jauh dari tipikal.
Catatan: Data xan tampaknya hanya ditemukan, jadi saya tidak akan mencoba interpretasi seperti yang dicoba pada jawaban lain. Tetapi beberapa kearifan rumahan layak menerima kata terakhir di sini: desain terbaik untuk Anda adalah desain yang paling baik menyampaikan kepada Anda dan pembaca Anda struktur beberapa data nyata yang Anda pedulikan.
Contoh lain termasuk
Bagaimana Anda bisa memvisualisasikan hubungan antara 3 variabel kategori?
Grafik untuk hubungan antara dua variabel ordinal
sumber
tabplot
dari SSC. Ketinggian palang harus sebagian kecil dari ketinggian palang tertinggi atau terpanjang; ruang yang tersedia untuk itu ditentukan oleh berapa banyak baris yang ditampilkan. Pengguna dapat mengesampingkan ukuran celah default, tetapi kemudian berisiko bilah menyentuh atau menyumbat satu sama lain. Jika bar bisa negatif dan juga positif, semuanya tidak mudah. Saya membayangkan bahwa kendala yang sama menggigit dengan program lain. Singkatnya, batang yang tidak bersentuhan menyiratkan ruang putih!Untuk melengkapi jawaban @ gung dan @ xan, berikut adalah contoh plot mosaik dan asosiasi yang digunakan
vcd
dalam R.Untuk mendapatkan plot:
Keduanya secara intuitif menyajikan keberangkatan dari frekuensi yang diharapkan ... Defaultnya adalah model kemandirian timbal balik , tetapi dapat diubah (misalnya menjadi independensi bersama jika ada variabel respons yang jelas) melalui
expected
argumen.Lihat juga:
sumber