Saya pernah membaca bahwa menggunakan skala log ketika membuat grafik / grafik sesuai dalam keadaan tertentu, seperti sumbu y dalam bagan seri waktu. Namun, saya belum dapat menemukan penjelasan yang pasti mengapa itu yang terjadi, atau kapan lagi itu akan sesuai. Harap diingat, saya bukan ahli statistik jadi saya mungkin kehilangan poinnya sama sekali dan jika itu masalahnya saya akan menghargai arahan untuk sumber daya perbaikan.
57
Jawaban:
Ini adalah pertanyaan yang sangat menarik, dan satu yang terlalu sedikit dipikirkan orang. Ada beberapa cara yang berbeda agar skala log bisa sesuai. Yang pertama dan paling terkenal adalah yang disebutkan oleh Makro dalam komentarnya: skala log memungkinkan rentang besar untuk ditampilkan tanpa nilai-nilai kecil dikompresi ke bawah grafik.
Alasan berbeda untuk memilih penskalaan log adalah dalam keadaan di mana data lebih alami diungkapkan secara geometris. Contohnya adalah ketika data mewakili konsentrasi mediator biologis. Konsentrasi tidak boleh negatif dan variabilitas hampir selalu berskala dengan rata-rata (yaitu ada varians heteroscedastic). Menggunakan skala logaritmik atau, dengan kata lain, menggunakan konsentrasi log sebagai primer, ukuran 'memperbaiki' variabilitas yang tidak merata dan memberikan skala yang tidak terikat pada kedua ujungnya. Konsentrasi mungkin terdistribusi secara normal dan karenanya penskalaan log memberi kita hasil yang sangat nyaman yang bisa dibilang 'alami'. Dalam farmakologi kami menggunakan skala logaritmik untuk konsentrasi obat jauh lebih sering daripada tidak,
Alasan lain yang bagus untuk skala log, mungkin yang Anda minati untuk data deret waktu, berasal dari kemampuan skala log untuk membuat perubahan fraksional setara. Bayangkan tampilan kinerja jangka panjang dari investasi pensiun Anda. Ini (harus) tumbuh kasar secara eksponensial karena bunga besok tergantung pada investasi hari ini (secara kasar). Jadi, bahkan jika kinerja dalam persentase cukup konstan, grafik dana tampaknya akan tumbuh paling cepat di ujung kanan. Dengan skala logaritmik, perubahan persentase konstan dipandang sebagai jarak vertikal konstan sehingga laju pertumbuhan konstan dilihat sebagai garis lurus. Itu sering merupakan keuntungan besar.
Alasan lain yang sedikit lebih esoteris untuk memilih skala log datang dalam keadaan di mana nilai-nilai dapat dinyatakan secara wajar baik sebagai x atau 1 / x. Sebuah contoh dari penelitian saya sendiri adalah resistensi vaskular yang juga dapat secara wajar dinyatakan sebagai resiprokal, konduktansi vaskular. (Dalam beberapa keadaan juga masuk akal untuk memikirkan diameter pembuluh darah yang berskala sebagai kekuatan resistensi atau konduktansi.) Tak satu pun dari tindakan-tindakan itu memiliki realitas lebih dari yang lain dan keduanya dapat ditemukan dalam makalah penelitian. Jika mereka diskalakan secara logaritmik maka mereka hanyalah negatif satu sama lain dan pilihan satu atau yang lain tidak membuat perbedaan susbstantive. (Diameter vaskular akan berbeda dari resistansi dan konduktansi oleh pengganda konstan ketika semuanya diskalakan.)
sumber
Beberapa contoh kehidupan nyata yang harus saya berikan sebagai tambahan untuk jawaban yang sangat bagus dari @Michael Lew.
Pertama, dua plot seri waktu di bawah ini menunjukkan kedatangan pengunjung bulanan ke Selandia Baru, tersedia dari Statistik Selandia Baru . Kedua plot memiliki tujuan masing-masing, tetapi saya menemukan satu dengan sumbu vertikal pada skala logaritmik yang sangat berguna untuk banyak tujuan daripada yang pertama. Misalnya, Anda dapat melihat bahwa musim kedatangan secara kasar sebanding dengan skala kedatangan; dan Anda dapat melihat perubahan signifikan dalam tingkat pertumbuhan (misalnya selama perang dunia kedua) yang tidak terlihat pada skala aslinya.
Kedua, plot di bawah ini menunjukkan total pengeluaran terkait perjalanan oleh wisatawan ke Selandia Baru, dibandingkan dengan pengeluaran saat mereka sebenarnya di Selandia Baru. Sumbernya adalah Survei Pengunjung Internasional oleh Kementerian Pembangunan Ekonomi. Perbedaannya adalah pengeluaran sebelum perjalanan, mis. Hotel atau paket dibayar di muka. Plot pertama, pada skala asli, dapat digunakan untuk beberapa tujuan selain kesan yang sangat kasar (tetapi penting) dari data yang dikelompokkan di sudut kiri bawah. Plot kedua mengorbankan beberapa interpretabilitas langsung, terutama untuk non-statistik (karena ini, saya biasanya sekarang benar-benar menggunakan skala logaritmik pada sumbu, daripada mengubah data dan memiliki skala yang menunjukkan nilai logaritmik), tetapi memberi banyak lebih banyak diferensiasi visual.
Misalnya, Anda dapat dengan jelas menemukan beberapa outlier (yang ternyata merupakan kesalahan pengeditan data) di mana total pengeluaran lebih sedikit daripada pengeluaran di Selandia Baru. Mungkin yang lebih penting, Anda dapat menggunakan grafik ini dengan warna atau segi yang berbeda untuk menunjukkan bagaimana negara pasar yang berbeda atau tujuan kunjungan (mis. Liburan v. Mengunjungi teman dan keluarga) menempati bagian berbeda dari "ruang" pengeluaran - sesuatu yang tidak akan terlihat pada sumbu asli.
Mengubah plot ini menjadi sesuatu yang bermanfaat akan melibatkan entah bagaimana berurusan dengan data kepadatan tinggi (misalnya dengan menambahkan beberapa transparansi ke titik, atau mengganti titik dengan tempat sampah heksagonal berwarna sesuai dengan kepadatan), tetapi setiap solusi visual yang berguna hampir pasti akan melibatkan sumbu logaritmik.
edit / tambahan
Plot lain untuk menggambarkan apa yang saya maksud dengan nampan heksagonal, menggunakan warna untuk mewakili kerapatan ketika ada dataset besar (dalam hal ini, sekitar 12.000 responden untuk survei tentang pengalaman Piala Dunia Rugby di Selandia Baru). Perhatikan lagi ini adalah contoh lain di mana saya telah menggunakan skala logaritmik untuk pengeluaran.
sumber
Satu hal bagus lainnya tentang skala log adalah mereka membuat rasio tampak simetris. Misalnya, seperti ini:
sumber