Saya punya beberapa data yang perlu saya visualisasikan dan tidak yakin cara terbaik untuk melakukannya. Saya memiliki beberapa set item dasar dengan frekuensi masing-masing F = { f 1 , ⋯ , f n } dan hasil O ∈ { 0 , 1 } n. Sekarang saya perlu merencanakan seberapa baik metode saya "menemukan" (yaitu, 1-hasil) item frekuensi rendah. Saya awalnya hanya memiliki sumbu x frekuensi dan ay sumbu 0-1 dengan titik-plot, tetapi tampak mengerikan (terutama ketika membandingkan data dari dua metode). Artinya, setiap item memiliki hasil (0/1) dan diurutkan berdasarkan frekuensinya.
Berikut ini adalah contoh dengan hasil metode tunggal:
Ide saya berikutnya adalah membagi data ke dalam interval dan menghitung sensitivitas lokal selama interval, tetapi masalah dengan ide itu adalah distribusi frekuensi belum tentu seragam. Jadi bagaimana sebaiknya saya memilih interval?
Adakah yang tahu cara yang lebih baik / lebih berguna untuk memvisualisasikan data semacam ini untuk menggambarkan efektivitas menemukan barang langka (yaitu, frekuensi sangat rendah)?
sumber
Jawaban:
Apa yang telah saya lakukan di masa lalu pada dasarnya adalah apa yang telah Anda lakukan dengan penambahan loess . Tergantung pada kepadatan titik, saya akan menggunakan titik tembus (alpha), seperti yang ditunjukkan di bawah ini, dan / atau simbol pipa ("|") untuk meminimalkan tumpang tindih.
(Saya tidak berpikir bar kesalahan harus melebar di tepi sini, tapi tidak ada cara mudah yang saya tahu untuk melakukan itu dengan fungsi stat_smooth internal ggplot. Jika Anda menggunakan metode ini untuk real dalam R, kita bisa melakukannya dengan memperkirakan loess dan bilah galatnya sebelum merencanakan.)
( Sunting: Dan tambah untuk komentar dari Andy W. tentang mencoba jitter vertikal jika kepadatan data membuatnya berguna dan dari Mimshot tentang interval kepercayaan yang tepat.)
sumber
geom_point(size=2, alpha=0.4)
dengangeom_jitter(size=2, alpha=0.4, position = position_jitter(height = .02))
.ggplot2
untuk memasok CI yang benar? Saya punya plot dengan CI di luar[0,1]
yang jelas berasal dari perhitungan yang salahPertimbangkan juga skala mana yang paling sesuai untuk kasus penggunaan Anda. Katakanlah Anda sedang melakukan inspeksi visual untuk keperluan pemodelan dalam regresi logistik dan ingin memvisualisasikan prediktor berkelanjutan untuk menentukan apakah Anda perlu menambahkan spline atau istilah polinomial ke model Anda. Dalam hal ini, Anda mungkin menginginkan skala dalam log-odds daripada probabilitas / proporsi.
Fungsi pada intisari di bawah ini menggunakan beberapa heuristik terbatas untuk membagi prediktor kontinu menjadi nampan, menghitung proporsi rata-rata, mengkonversi ke peluang-log, kemudian plot
geom_smooth
atas titik agregat ini.Contoh bagan ini terlihat jika kovariat memiliki hubungan kuadratik (+ noise) dengan peluang log dari target biner:
Dibuat pada 2019-02-06 oleh paket reprex (v0.2.1)
Sebagai perbandingan, di sini akan terlihat seperti apa hubungan kuadratik jika Anda baru saja merencanakan angka 1's / 0 dan menambahkan
geom_smooth
:Dibuat pada 2019-02-25 oleh paket reprex (v0.2.1)
Hubungan dengan logit kurang jelas dan penggunaan
geom_smooth
memiliki beberapa masalah.sumber
Saya setuju bahwa mem-posting hanya beberapa baris data sampel akan jauh. Jika saya mengerti pertanyaannya, saya pikir akan lebih mudah untuk merencanakan frekuensi berdasarkan proporsi yang ditemukan.
Pertama saya akan menghasilkan beberapa data sampel dalam R; tolong perbaiki saya jika saya belum mengerti Anda dengan benar.
Dan sekarang cukup plot frekuensi (
F
) denganproportion
:sumber