Mengubah data proporsi: ketika arcsin kuadrat tidak cukup

20

Apakah ada alternatif (lebih kuat?) Untuk transformasi root arcsin kuadrat untuk data persentase / proporsi? Dalam set data yang saya kerjakan saat ini, heteroskedastisitas yang ditandai tetap setelah saya menerapkan transformasi ini, yaitu plot residual vs nilai yang dipasang masih sangat rhoid.

Diedit untuk menanggapi komentar: data adalah keputusan investasi oleh peserta eksperimental yang dapat menginvestasikan 0-100% dari dana abadi dalam kelipatan 10%. Saya juga telah melihat data ini menggunakan regresi logistik ordinal, tetapi ingin melihat apa yang akan dihasilkan oleh GLM. Ditambah lagi, saya bisa melihat jawabannya bermanfaat untuk pekerjaan di masa depan, karena root arcsin square tampaknya digunakan sebagai solusi satu ukuran untuk semua solusi di bidang saya dan saya belum menemukan alternatif apa pun yang digunakan.

Freya Harrison
sumber
2
Dari mana nilai-nilai tersebut dipasang? Apa model anda? arcsin adalah (kira-kira) penstabil varian untuk binomial, tetapi Anda masih akan memiliki efek "edge" jika proporsinya mendekati 0 atau 1 - karena bagian normal secara efektif terpotong.
probabilityislogic
1
Biarkan saya menggandakan apa yang dikatakan @probabilityislogic dan juga menanyakan dari mana data berasal. Mungkin ada sesuatu dalam masalah yang menyarankan transformasi lain, atau model lain sepenuhnya, yang mungkin lebih tepat dan / atau dapat ditafsirkan.
JMS
1
@prob @JMS Mengapa kita tidak membiarkan OP, yang saya yakin cukup tahu tentang statistik, coba rute transformasi terlebih dahulu? Kemudian, jika itu tidak berhasil, akan bermanfaat untuk memulai utas baru di mana masalahnya disajikan kurang sempit. Komentar Anda akan sesuai dalam konteks itu.
whuber
1
Ada masalah besar dengan transformasi arcsine akar kuadrat, dijelaskan secara blak-blakan di koran menggelikan berjudul arcsine adalah bodoh: analisis proporsi dalam ekologi
mkt - mengembalikan Monica
1
@ mkt Terima kasih untuk referensi, ini telah langsung menjadi kuliah istilah berikutnya pada model linear umum.
Freya Harrison

Jawaban:

28

Yakin. John Tukey menggambarkan keluarga transformasi (peningkatan, satu-ke-satu) dalam EDA . Ini didasarkan pada ide-ide ini:

  1. Untuk dapat memperpanjang ekor (menuju 0 dan 1) sebagaimana dikendalikan oleh parameter.

  2. Namun demikian, untuk mencocokkan nilai-nilai asli (untransformed) dekat tengah ( 1/2 ), yang membuat transformasi lebih mudah untuk menafsirkan.

  3. Untuk membuat ekspresi ulang simetris sekitar 1/2. Artinya, jika p diekspresikan kembali sebagai f(p) , maka 1p akan dinyatakan kembali sebagai f(p) .

Jika Anda mulai dengan meningkatkan monoton fungsi g:(0,1)R terdiferensiasi pada 1/2 Anda dapat menyesuaikan untuk memenuhi kriteria kedua dan ketiga: hanya mendefinisikan

f(p)=g(p)g(1p)2g(1/2).

Pembilang secara simetris (kriteria (3) ), karena menukar p dengan 1p membalikkan pengurangan, sehingga meniadakannya. Untuk melihat bahwa (2) puas, catatan bahwa penyebut justru faktor yang diperlukan untuk membuat f(1/2)=1. Ingat bahwa mendekati turunan perilaku lokal dari fungsi dengan fungsi linear; kemiringan 1=1:1 dengan demikian berarti bahwa f(p)p(ditambah konstan 1/2 ) ketika p cukup dekat dengan 1/2. Ini adalah rasa di mana nilai-nilai asli yang "cocok dekat tengah."

Tukey menyebut ini versi "lipat" dari g . Keluarganya terdiri dari transformasi daya dan log g(p)=pλ mana, ketika λ=0 , kami menganggap g(p)=log(p) .

Mari kita lihat beberapa contoh. Ketika λ=1/2 kita mendapatkan akar dilipat, atau "froot," f(p)=1/2(p1p). Ketikaλ=0kita memiliki logaritma terlipat, atau "belasan,"f(p)=(log(p)log(1p))/4. Jelas ini hanyalah kelipatan konstan daritransformasilogit,log(p1p).

Grafik untuk lambda = 1, 1/2, 0, dan arcsin

Dalam grafik ini garis berkorespondensi biru untuk λ=1 , garis merah menengah untuk λ=1/2 , dan garis hijau ekstrim untuk λ=0 . Garis emas putus-putus adalah transformasi arcsine , arcsin(2p1)/2=arcsin(p)arcsin(1/2). The "cocok" dari lereng (kriteria(2)) menyebabkan semua grafik untuk bertepatan dekatp=1/2.

Nilai-nilai yang paling berguna dari parameter λ terletak antara 1 dan 0 . (Anda dapat membuat ekor bahkan lebih berat dengan nilai-nilai negatif λ , tapi penggunaan ini jarang terjadi.) λ=1 tidak melakukan apa-apa kecuali recenter nilai ( f(p)=p1/2 ). Saat λ menyusut ke arah nol, ekornya ditarik lebih jauh ke arah ± . Ini memenuhi kriteria # 1. Dengan demikian, dengan memilih nilai λ sesuai , Anda dapat mengontrol "kekuatan" dari ekspresi ulang ini di bagian ekor.

whuber
sumber
whuber, tahu ada fungsi R yang melakukan ini secara otomatis?
John
1
@ John Tidak, saya tidak, tapi itu cukup sederhana untuk diterapkan.
Whuber
2
Saya tidak melihatnya pada dasarnya sulit tetapi akan menyenangkan jika ada sesuatu seperti tranforms boxcox yang secara otomatis merencanakan pilihan terbaik untuk lambda. Ya, tidak buruk untuk diterapkan ...
John
2
Terima kasih whuber, ini persis seperti yang saya cari dan grafiknya sangat membantu. Sangat setuju dengan John bahwa sesuatu seperti boxcox akan membantu, tetapi ini tampaknya cukup sederhana untuk dikerjakan.
Freya Harrison
7

Salah satu cara untuk memasukkan adalah memasukkan transformasi yang diindeks. Salah satu cara umum adalah dengan menggunakan fungsi distribusi kumulatif simetris (terbalik), sehingga dan F ( x ) = 1 - F ( - x ) . Salah satu contoh adalah distribusi t siswa standar, dengan ν derajat kebebasan. Parameter v mengontrol seberapa cepat variabel yang diubah mengembara menjadi tak terbatas. Jika Anda menetapkan v = 1 maka Anda memiliki transformasi arctan:F(0)=0.5F(x)=1F(x)νvv=1

x=arctan(π[2p1]2)

Ini jauh lebih ekstrem daripada arcsine, dan lebih ekstrem daripada transformasi logit. Perhatikan bahwa transformasi logit dapat diperkirakan secara kasar dengan menggunakan distribusi-t dengan . SO dengan cara tertentu menyediakan tautan perkiraan antara transformasi logit dan probit ( ν = ), dan perluasannya ke transformasi yang lebih ekstrem.ν8ν=

Masalah dengan transformasi ini adalah bahwa mereka memberi ketika proporsi yang diamati sama dengan 1 atau 0 . Jadi, Anda perlu entah bagaimana mengecilkan ini entah bagaimana - cara paling sederhana yang menambahkan + 1 "keberhasilan" dan + 1 "kegagalan".±10+1+1

probabilityislogic
sumber
2
Karena berbagai alasan, Tukey merekomendasikan menambahkan +1/6 ke penghitungan. Perhatikan bahwa balasan ini adalah kasus khusus dari pendekatan lipat Tukey yang saya jelaskan: setiap CDF dengan PDF positif adalah monoton; melipat CDF simetris membuatnya tidak berubah.
whuber
2
ν8p01ν=5 is a much better match for the logit for p near 1/2. Are you perhaps optimizing some measure of an average difference between the CDF of tν and logit?
whuber
2
@whuber - you give me too much credit. My suggestion was based on looking at a graph of the pdf of t8, a graph of the logistic pdf f(x)=ex(1+ex)2, and a graph of standard normal pdf. 5 degrees of freedom matches the excess kurtosis, and may well be better.
probabilityislogic
5
@whuber One reason for adding 1/6 to counts is that the resulting "started" count approximates the median posterior assuming a binomial distribution with Jeffreys prior (I write a little bit about this here: sumsar.net/blog/2013/09/a-bayesian-twist-on-tukeys-flogs). However I don't know if this was Tukey's reason for adding 1/6. Do you know what his reason might have been?
Rasmus Bååth
4
@Rasmuth In EDA, p. 496, Tukey writes "The [usage] we here recommend does have an excuse, but since this excuse (i) is indirect and (ii) involves more sophisticated considerations, we shall say no more about it. What we recommend is adding 1/6 to all split counts, thus 'starting' them." (A "split count" of any value x is the number of xi<x plus half the number of xi=x in a batch of data (xi).) I don't recall coming across these "sophisticated considerations" in other Tukey papers or books I have read, but always imagined they might be related to probability plotting points.
whuber