Saya pikir saya mengerti masalah ini, tetapi sekarang saya tidak yakin dan saya ingin memeriksa dengan orang lain sebelum saya melanjutkan.
Saya punya dua variabel, X
dan Y
. Y
adalah rasio, dan tidak dibatasi oleh 0 dan 1 dan biasanya terdistribusi secara normal. X
adalah proporsi, dan dibatasi oleh 0 dan 1 (berjalan dari 0,0 hingga 0,6). Ketika saya menjalankan regresi linier Y ~ X
dan saya mengetahui itu X
dan Y
secara linear terkait secara signifikan. Sejauh ini baik.
Tapi kemudian saya selidiki lebih lanjut dan saya mulai berpikir bahwa mungkin X
dan mungkin Y
hubungan itu lebih melengkung daripada linier. Bagi saya, sepertinya hubungan X
dan Y
mungkin lebih dekat dengan Y ~ log(X)
, Y ~ sqrt(X)
atau Y ~ X + X^2
, atau sesuatu seperti itu. Saya punya alasan empiris untuk menganggap hubungan itu mungkin melengkung, tetapi bukan alasan untuk menganggap bahwa satu hubungan non-linear mungkin lebih baik daripada yang lain.
Saya punya beberapa pertanyaan terkait dari sini. Pertama, X
variabel saya mengambil empat nilai: 0, 0,2, 0,4, dan 0,6. Ketika saya log-atau kuadrat-mentransformasikan data ini, jarak antara nilai-nilai ini mendistorsi sehingga nilai 0 jauh lebih jauh dari yang lain. Karena kurangnya cara bertanya yang lebih baik, apakah ini yang saya inginkan? Saya berasumsi tidak, karena saya mendapatkan hasil yang sangat berbeda tergantung pada tingkat distorsi yang saya terima. Jika ini bukan yang saya inginkan, bagaimana saya harus menghindarinya?
Kedua, untuk mengubah data ini, saya harus menambahkan jumlah ke setiap X
nilai karena Anda tidak dapat mengambil log dari 0. Ketika saya menambahkan jumlah yang sangat kecil, katakanlah 0,001, saya mendapatkan distorsi yang sangat besar. Ketika saya menambahkan jumlah yang lebih besar, katakan 1, saya mendapat sedikit distorsi. Apakah ada jumlah "benar" untuk ditambahkan ke X
variabel? Atau apakah tidak tepat untuk menambahkan sesuatu ke X
variabel sebagai pengganti memilih transformasi alternatif (misalnya cube-root) atau model (misalnya regresi logistik)?
Sedikit yang bisa saya temukan di sana tentang masalah ini membuat saya merasa harus melangkah dengan hati-hati. Untuk sesama pengguna R, kode ini akan membuat beberapa data dengan semacam struktur yang sama dengan saya.
X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)
Jawaban:
Pertanyaan utama tentang mengubah proporsi (saya akan menggunakan sebagai simbol, sama tetapi tidak identik dengan notasi Anda) memungkinkan beberapa komentar umum.x
Dalam uraian selanjutnya saya berpendapat bahwa motif utama untuk mengubah proporsi yang kovariat (prediktor, variabel independen) adalah untuk meningkatkan pendekatan terhadap linearitas hubungan, atau jika dalam mode eksplorasi untuk mendapatkan ide yang lebih jelas secara grafis dari bentuk atau memang keberadaan hubungan apa pun. Seperti biasa apakah kovariat (mis.) Kira-kira terdistribusi secara normal tidak begitu penting. (Proporsi adalah relatif tidak terlalu jauh dari variabel indikator dengan nilai yang tidak pernah dapat didistribusikan secara normal, dan proporsi juga harus dibatasi.)0 , 1
Jika proporsi dapat mencapai angka nol atau angka pasti, adalah penting bahwa transformasi didefinisikan untuk batas-batas tersebut, yang jelas mengesampingkan , karena tidak dapat ditentukan. Di luar itu bentuk tertentu idealnya memerlukan beberapa pembenaran substantif (ilmiah, praktis), tetapi kurang dari itu mengikuti dari beberapa analisis sederhana bahwa sangat sensitif terhadap nilai , seperti yang Anda beri petunjuk. log 0 log ( x + c ) ccatatanx catatan0 catatan( x + c ) c
Ini sedikit lebih mudah dilihat dengan logaritma ke basis , jadi untuk sementara mari kita pertimbangkan sehingga memetakan hingga .c = 10 k log 10 ( x + 10 k ) x = 0 k10 c = 10k catatan10( x + 10k) x = 0 k
Karenanya peta hingga dan hingga sekitar , sementara peta hingga dan hanya smidgen lebih dari .x = 0 0 x = 1 0,301 k = - 3 , c = 0,001 x = 0 - 3 x = 1 0k = 0 , c = 1 x = 0 0 x = 1 0,301 k = - 3 , c = 0,001 x = 0 - 3 x = 1 0
Demikian pula, apa pun artinya dipetakan ke batas yang sama, sedangkan untuk pendekatan yang semakin baik dipetakan ke .k = - 6 , - 9 , 0 x = 1 0
Jadi batas bawah direntangkan ke luar dengan konstanta tambah lebih kecil dan lebih kecil , sedangkan batas atas tetap hampir sama. Transformasi semacam itu dengan demikian dapat meregangkan bagian bawah kisaran sangat banyak dan bahkan membuat outlier dari nilai yang sangat kecil pada atau dekat .c 0
Sederhananya, orang yang menyarankan ini mungkin membayangkan bahwa (sekarang untuk basis yang Anda suka) harus berperilaku sangat mirip dengan untuk kecil , yang jelas benar untuk besar , tetapi sama sekali tidak berlaku untuk kecil . Jika tidak dimasukkan, kemiringan yang lebih curam dan curam sebagai fungsi karena dapat menggigit di sini dengan sangat keras.catatan( x + c ) logx c x x logx x x↓0
Tampaknya lebih baik untuk fokus pada transformasi yang bervariasi secara bertahap dekat dan (untuk alasan lain, tetapi terkait,) juga dekat .x=0 x=1
Akar kuadrat dan akar pangkat tiga dan kekuatan lain didefinisikan dengan baik untuk dan sering membantu ketika ada kebutuhan untuk meregangkan nilai di dekat . Tetapi transformasi ini sudah dikenal luas dan saya lebih fokus di sini pada kemungkinan lain.xp x=0,1 0
Keluarga kekuatan terlipat yang dipopulerkan oleh JW Tukey ( Analisis Data Eksplorasi , Membaca, MA: Addison-Wesley, 1977) adalah satu kemungkinan, dan . Meskipun tidak ada paksaan untuk memilih kekuatan yang memungkinkan nama evokatif sederhana, pilihan (akar terlipat) dan (akar kubus terlipat) tampaknya anggota paling berguna dari keluarga ini.xp−(1−x)p p=1/2 p=1/3
Keluarga menyerupai transformasi logit yang sudah dikenal dan memang logit adalah kasus pembatas karena cenderung . Perbedaan utama adalah bahwa kekuatan terlipat didefinisikan untuk dan .p 0 x = 0 , 1 p ≠ 0logit x=logx−log(1−x) p 0 x=0,1 p≠0
Kekuatan yang dilipat, termasuk sekarang logit, memperlakukan kasus ekstrem dekat dan miring secara simetris dan plot sebagai kurva sigmoid terbalik (beberapa grafik di bawah) mencampur aditif dan perilaku multiplikatif, menggemakan kualitatif sering (jika bukan fisik, biologis, ekonomi, apa pun) fakta untuk fenomena yang mendasari itu10 1
perbedaan dari katakanlah menjadi bisa menjadi "masalah besar" (tentu, berubah hanya , tetapi juga berlipat ganda)0,02 x 0,010.01 0.02 x 0.01
Dua poin utama yang ingin saya sampaikan adalah itu
Sebagai contoh data Anda, tidak ada transformasi yang saya coba tampaknya membantu.
Pada saat yang sama, kemungkinan lain jauh dari kelelahan. (Khususnya, saya tidak mencoba root kuadrat atau root cube, dan menekankan bahwa dalam banyak masalah lain itu bisa menjadi kandidat yang jelas dan serius.)
EDIT: Data asli dapat diplot di sini karena OP secara singkat memposting data, tetapi kemudian dihapus.
Thread lain di sini menggunakan kekuatan terlipat termasuk
Mengubah data proporsi: ketika arcsin kuadrat tidak cukup
Regresi: Scatterplot dengan R-kuadrat rendah dan nilai-p tinggi
Plot dataset yang sangat miring
sumber
Y
rasio saya bukan proporsi, yang mungkin merupakan perbedaan yang cukup besar, jadi sebaiknya Anda tunjukkan.