Kapan skala log cocok?

57

Saya pernah membaca bahwa menggunakan skala log ketika membuat grafik / grafik sesuai dalam keadaan tertentu, seperti sumbu y dalam bagan seri waktu. Namun, saya belum dapat menemukan penjelasan yang pasti mengapa itu yang terjadi, atau kapan lagi itu akan sesuai. Harap diingat, saya bukan ahli statistik jadi saya mungkin kehilangan poinnya sama sekali dan jika itu masalahnya saya akan menghargai arahan untuk sumber daya perbaikan.

dav
sumber
10
Ini bukan jawaban formal tetapi - ketika variabel mencakup beberapa urutan besarnya, seringkali lebih mudah bagi mata (dan lebih informatif) untuk memvisualisasikannya pada skala log.
Makro
Makro-yang masuk akal (terutama ketika Anda punya penonton yang bisa memahaminya!)
dav
1
Anda dapat menemukan utas terkait yang erat ini saat Anda sedang menunggu balasan spesifik: stats.stackexchange.com/questions/298 . Dalam hal pembuatan bagan, Anda dapat menafsirkan "variabel dependen" sebagai "sumbu y". Kemudian lihat banyak pertanyaan terkait erat yang telah muncul di sini.
whuber
3
Juga FYI Naomi Robbins memiliki artikel yang sangat mudah tentang topik ini dan yang harusnya menarik, Kapan Saya Harus Menggunakan Timbangan Logaritma dalam Grafik dan Grafik Saya? .
Andy W
Whuber, terima kasih telah menunjukkan tautan ekstra. Saya telah melihat beberapa di antaranya, tetapi tidak semua dan saya sedang berusaha menerimanya sekarang.
dav

Jawaban:

51

Ini adalah pertanyaan yang sangat menarik, dan satu yang terlalu sedikit dipikirkan orang. Ada beberapa cara yang berbeda agar skala log bisa sesuai. Yang pertama dan paling terkenal adalah yang disebutkan oleh Makro dalam komentarnya: skala log memungkinkan rentang besar untuk ditampilkan tanpa nilai-nilai kecil dikompresi ke bawah grafik.

Alasan berbeda untuk memilih penskalaan log adalah dalam keadaan di mana data lebih alami diungkapkan secara geometris. Contohnya adalah ketika data mewakili konsentrasi mediator biologis. Konsentrasi tidak boleh negatif dan variabilitas hampir selalu berskala dengan rata-rata (yaitu ada varians heteroscedastic). Menggunakan skala logaritmik atau, dengan kata lain, menggunakan konsentrasi log sebagai primer, ukuran 'memperbaiki' variabilitas yang tidak merata dan memberikan skala yang tidak terikat pada kedua ujungnya. Konsentrasi mungkin terdistribusi secara normal dan karenanya penskalaan log memberi kita hasil yang sangat nyaman yang bisa dibilang 'alami'. Dalam farmakologi kami menggunakan skala logaritmik untuk konsentrasi obat jauh lebih sering daripada tidak,

Alasan lain yang bagus untuk skala log, mungkin yang Anda minati untuk data deret waktu, berasal dari kemampuan skala log untuk membuat perubahan fraksional setara. Bayangkan tampilan kinerja jangka panjang dari investasi pensiun Anda. Ini (harus) tumbuh kasar secara eksponensial karena bunga besok tergantung pada investasi hari ini (secara kasar). Jadi, bahkan jika kinerja dalam persentase cukup konstan, grafik dana tampaknya akan tumbuh paling cepat di ujung kanan. Dengan skala logaritmik, perubahan persentase konstan dipandang sebagai jarak vertikal konstan sehingga laju pertumbuhan konstan dilihat sebagai garis lurus. Itu sering merupakan keuntungan besar.

Alasan lain yang sedikit lebih esoteris untuk memilih skala log datang dalam keadaan di mana nilai-nilai dapat dinyatakan secara wajar baik sebagai x atau 1 / x. Sebuah contoh dari penelitian saya sendiri adalah resistensi vaskular yang juga dapat secara wajar dinyatakan sebagai resiprokal, konduktansi vaskular. (Dalam beberapa keadaan juga masuk akal untuk memikirkan diameter pembuluh darah yang berskala sebagai kekuatan resistensi atau konduktansi.) Tak satu pun dari tindakan-tindakan itu memiliki realitas lebih dari yang lain dan keduanya dapat ditemukan dalam makalah penelitian. Jika mereka diskalakan secara logaritmik maka mereka hanyalah negatif satu sama lain dan pilihan satu atau yang lain tidak membuat perbedaan susbstantive. (Diameter vaskular akan berbeda dari resistansi dan konduktansi oleh pengganda konstan ketika semuanya diskalakan.)

Michael Lew
sumber
Terima kasih atas jawaban Anda! Bisakah Anda menguraikan "nilai bisa dinyatakan secara wajar sebagai x", meskipun?
ktdrv
4
@ ktdrv Ada beberapa hal yang masuk akal. Katakanlah Anda ingin mendokumentasikan kemampuan seorang nelayan. Anda dapat menghitung jumlah ikan yang ditangkap per hari atau Anda dapat mengukur interval antara tangkapan berturut-turut. Baik pengukuran masuk akal tetapi mereka tidak linier terkait satu sama lain. Mereka adalah skala timbal balik satu sama lain sehingga dapat dikonversi satu-ke-satu. Log interval dan log nomor per hari secara linier terkait satu sama lain dan berbeda dengan faktor konstan (negatif).
Michael Lew
1
Michael, terima kasih atas jawaban yang bagus. Harus saya akui, butuh beberapa saat untuk menyaring semua poin Anda (dan harus google beberapa istilah, seperti "heteroscedastic variance"). Saya masih menyatukan bersama apa dampak sebenarnya dari jawaban bagi pekerjaan saya, tetapi saya bersyukur atas arahan umum dan beberapa pedoman untuk mengarahkan saya sepanjang jalan.
dav
x1/xlog(x)x1/x x1/xx1/x
pH=log[H+]
29

Beberapa contoh kehidupan nyata yang harus saya berikan sebagai tambahan untuk jawaban yang sangat bagus dari @Michael Lew.

Pertama, dua plot seri waktu di bawah ini menunjukkan kedatangan pengunjung bulanan ke Selandia Baru, tersedia dari Statistik Selandia Baru . Kedua plot memiliki tujuan masing-masing, tetapi saya menemukan satu dengan sumbu vertikal pada skala logaritmik yang sangat berguna untuk banyak tujuan daripada yang pertama. Misalnya, Anda dapat melihat bahwa musim kedatangan secara kasar sebanding dengan skala kedatangan; dan Anda dapat melihat perubahan signifikan dalam tingkat pertumbuhan (misalnya selama perang dunia kedua) yang tidak terlihat pada skala aslinya.

masukkan deskripsi gambar di sini

Kedua, plot di bawah ini menunjukkan total pengeluaran terkait perjalanan oleh wisatawan ke Selandia Baru, dibandingkan dengan pengeluaran saat mereka sebenarnya di Selandia Baru. Sumbernya adalah Survei Pengunjung Internasional oleh Kementerian Pembangunan Ekonomi. Perbedaannya adalah pengeluaran sebelum perjalanan, mis. Hotel atau paket dibayar di muka. Plot pertama, pada skala asli, dapat digunakan untuk beberapa tujuan selain kesan yang sangat kasar (tetapi penting) dari data yang dikelompokkan di sudut kiri bawah. Plot kedua mengorbankan beberapa interpretabilitas langsung, terutama untuk non-statistik (karena ini, saya biasanya sekarang benar-benar menggunakan skala logaritmik pada sumbu, daripada mengubah data dan memiliki skala yang menunjukkan nilai logaritmik), tetapi memberi banyak lebih banyak diferensiasi visual.

Misalnya, Anda dapat dengan jelas menemukan beberapa outlier (yang ternyata merupakan kesalahan pengeditan data) di mana total pengeluaran lebih sedikit daripada pengeluaran di Selandia Baru. Mungkin yang lebih penting, Anda dapat menggunakan grafik ini dengan warna atau segi yang berbeda untuk menunjukkan bagaimana negara pasar yang berbeda atau tujuan kunjungan (mis. Liburan v. Mengunjungi teman dan keluarga) menempati bagian berbeda dari "ruang" pengeluaran - sesuatu yang tidak akan terlihat pada sumbu asli.

Mengubah plot ini menjadi sesuatu yang bermanfaat akan melibatkan entah bagaimana berurusan dengan data kepadatan tinggi (misalnya dengan menambahkan beberapa transparansi ke titik, atau mengganti titik dengan tempat sampah heksagonal berwarna sesuai dengan kepadatan), tetapi setiap solusi visual yang berguna hampir pasti akan melibatkan sumbu logaritmik.

masukkan deskripsi gambar di sini

edit / tambahan

Plot lain untuk menggambarkan apa yang saya maksud dengan nampan heksagonal, menggunakan warna untuk mewakili kerapatan ketika ada dataset besar (dalam hal ini, sekitar 12.000 responden untuk survei tentang pengalaman Piala Dunia Rugby di Selandia Baru). Perhatikan lagi ini adalah contoh lain di mana saya telah menggunakan skala logaritmik untuk pengeluaran.

masukkan deskripsi gambar di sini

Peter Ellis
sumber
Peter, terima kasih atas wawasan tambahannya - grafiknya sangat membantu memahami poin Anda. Satu pertanyaan lanjutan (jika Anda cenderung), mengapa Anda mengganti poin dengan nampan "heksagonal"? Apakah itu ide yang sama dengan "Plot Bunga Matahari"? Saya belum pernah mendengar istilah itu sebelumnya.
dav
Tidak, berbeda dengan plot bunga matahari. Intinya adalah untuk membagi area plot menjadi nampan heksagonal dan kemudian mewarnainya (misalnya dari terang ke gelap) sesuai dengan berapa banyak titik di setiap nampan. Bisa menjadi cara yang baik untuk berkeliling merencanakan dataset besar yang sebaliknya memiliki kecenderungan hanya untuk berubah menjadi massa hitam.
Peter Ellis
@ DavidVandenbos - Saya telah menambahkan contoh
Peter Ellis
(sisa komentar) @PeterEllis Terima kasih atas klarifikasi. Itu cara yang bagus untuk memvisualisasikan data - ini sangat mirip dengan peta panas geografis yang saya gunakan. Apakah Anda membuatnya di R?
dav
Ya, R, menggunakan paket ggplot2 - sangat bagus untuk tujuan ini dan sangat mudah setelah Anda mendapatkan dasar-dasarnya.
Peter Ellis
9

Satu hal bagus lainnya tentang skala log adalah mereka membuat rasio tampak simetris. Misalnya, seperti ini: masukkan deskripsi gambar di sini

miura
sumber
10
Akan menyenangkan untuk melihat plot yang sama pada skala linier, untuk perbandingan
nico