Apakah visualisasi cukup alasan untuk mengubah data?
13
Masalah
Saya ingin memplot varians yang dijelaskan oleh masing-masing 30 parameter, misalnya sebagai barplot dengan bar berbeda untuk setiap parameter, dan varians pada sumbu y:
Namun, varians sangat condong ke nilai kecil, termasuk 0, seperti yang dapat dilihat dalam histogram di bawah ini:
Jika saya mentransformasikannya dengan , akan lebih mudah untuk melihat perbedaan di antara nilai-nilai kecil (histogram dan barplot di bawah):log(x+1)
Pertanyaan
Memetakan pada skala log adalah hal biasa, tetapi apakah memplot juga masuk akal?log(x+1)
Ini telah disebut " logaritma mulai " oleh beberapa ( misalnya , John Tukey). (Untuk beberapa contoh, Google john tukey "memulai log" .)
Tidak apa-apa untuk digunakan. Bahkan, Anda bisa berharap harus menggunakan nilai awal bukan nol untuk menjelaskan pembulatan variabel dependen. Sebagai contoh, pembulatan variabel dependen ke bilangan bulat terdekat efektif memotong 1/12 dari varians sebenarnya, menunjukkan nilai awal yang masuk akal harus setidaknya 1/12. (Nilai itu tidak melakukan pekerjaan yang buruk dengan data ini. Menggunakan nilai-nilai lain di atas 1 tidak benar-benar mengubah banyak gambar; itu hanya meningkatkan semua nilai di plot kanan bawah hampir seragam.)
Ada alasan yang lebih dalam untuk menggunakan logaritma (atau log awal) untuk menilai varians: misalnya, kemiringan plot varians terhadap nilai estimasi pada skala log-log memperkirakan parameter Box-Cox untuk menstabilkan varians . Kekuatan-hukum cocok seperti varian untuk beberapa variabel terkait sering diamati. (Ini adalah pernyataan empiris, bukan teoretis.)
Jika tujuan Anda adalah untuk menyajikan varians, lanjutkan dengan hati-hati. Banyak audiens (selain dari yang ilmiah) tidak dapat memahami logaritma, apalagi yang mulai. Menggunakan nilai awal 1 setidaknya memiliki manfaat menjadi sedikit lebih mudah untuk dijelaskan dan ditafsirkan daripada beberapa nilai awal lainnya. Sesuatu yang perlu dipertimbangkan adalah untuk merencanakan akarnya, yang merupakan standar deviasi, tentu saja. Akan terlihat seperti ini:
Terlepas dari itu, jika tujuan Anda adalah untuk mengeksplorasi data, untuk belajar dari mereka, untuk menyesuaikan model, atau untuk mengevaluasi model, maka jangan biarkan apa pun menghalangi penemuan grafis yang wajar dari data Anda dan nilai-nilai yang diturunkan dari data. seperti varians ini.
terima kasih atas penjelasan dan terminologi / referensi yang tepat. Penonton adalah pembaca jurnal ilmiah dan topiknya adalah dekomposisi varian; memahami konsep transformasi log adalah prasyarat tapi saya masih tidak yakin apakah presentasi ini membutuhkan pembenaran lebih lanjut - root adalah alternatif yang baik. Terima kasih.
David LeBauer
3
Itu masuk akal. Pertanyaan yang lebih baik untuk ditanyakan adalah apakah 1 adalah angka yang tepat untuk ditambahkan. Berapa minimum Anda? Jika awalnya 1, maka Anda memaksakan interval tertentu antara item dengan nilai nol dan item dengan nilai 1. Bergantung pada domain studi, mungkin lebih masuk akal untuk memilih 0,5 atau 1 / e sebagai offset. Implikasi transformasi ke skala log adalah bahwa Anda sekarang memiliki skala rasio.
Tapi saya terganggu dengan plot. Saya akan bertanya apakah model yang memiliki sebagian besar varian yang dijelaskan dalam ekor distribusi yang miring dianggap memiliki sifat statistik yang diinginkan. Saya pikir tidak.
Saya tidak yakin apakah itu jelas, tetapi histogram dari 30 nilai varians, dan barplot adalah nilai mentah varians, yaitu var <- c(0,0,1,3,10,100,150), hist(var), barplot(var), jadi saya menafsirkan ini sebagai beberapa parameter menjelaskan sebagian besar varians, bukan yang paling dari varian yang dijelaskan ada di bagian ekor. Apakah itu lebih masuk akal? Maaf jika tidak jelas.
Itu masuk akal. Pertanyaan yang lebih baik untuk ditanyakan adalah apakah 1 adalah angka yang tepat untuk ditambahkan. Berapa minimum Anda? Jika awalnya 1, maka Anda memaksakan interval tertentu antara item dengan nilai nol dan item dengan nilai 1. Bergantung pada domain studi, mungkin lebih masuk akal untuk memilih 0,5 atau 1 / e sebagai offset. Implikasi transformasi ke skala log adalah bahwa Anda sekarang memiliki skala rasio.
Tapi saya terganggu dengan plot. Saya akan bertanya apakah model yang memiliki sebagian besar varian yang dijelaskan dalam ekor distribusi yang miring dianggap memiliki sifat statistik yang diinginkan. Saya pikir tidak.
sumber
var <- c(0,0,1,3,10,100,150), hist(var), barplot(var)
, jadi saya menafsirkan ini sebagai beberapa parameter menjelaskan sebagian besar varians, bukan yang paling dari varian yang dijelaskan ada di bagian ekor. Apakah itu lebih masuk akal? Maaf jika tidak jelas.