Ubah distribusi Poisson ke distribusi normal

Saya terutama memiliki latar belakang ilmu komputer tetapi sekarang saya mencoba untuk belajar sendiri statistik dasar. Saya punya beberapa data yang saya pikir memiliki distribusi Poisson

masukkan deskripsi gambar di sini

Saya punya dua pertanyaan:

Apakah ini distribusi Poisson?
Kedua, apakah mungkin mengubah ini menjadi distribusi normal?

Bantuan apa pun akan dihargai. Terimakasih banyak

normal-distribution data-transformation poisson-distribution Abhi
sumber

1. Tidak, distribusi Poisson umumnya memiliki mode di sekitar parameternya, sehingga untuk mencocokkannya dengan distribusi Poisson akan berarti nilai yang sangat kecil untuk parameter tersebut. 2. Ya dan tidak. Apa yang ingin Anda lakukan dengan distribusi normal?

Dilip Sarwate

Saya mencoba memasukkan data ini ke dalam regresi logistik. Saya dituntun untuk percaya bahwa data yang didistribusikan secara normal menghasilkan hasil yang jauh lebih baik

Abhi

Jawaban:

1) Apa yang digambarkan nampak sebagai (dikelompokkan) data berkelanjutan yang diambil sebagai bagan batang.

Anda dapat dengan aman menyimpulkan bahwa itu bukan distribusi Poisson.

Variabel acak Poisson mengambil nilai 0, 1, 2, ... dan memiliki puncak tertinggi pada 0 hanya ketika rata-rata kurang dari 1. Ini digunakan untuk menghitung data; jika Anda menggambar bagan data Poisson yang serupa, bisa terlihat seperti plot di bawah ini:

$\hspace{1.5cm}$ masukkan deskripsi gambar di sini

Yang pertama adalah Poisson yang menunjukkan kemiringan serupa dengan milik Anda. Anda dapat melihat rata-rata yang cukup kecil (sekitar 0,6).

Yang kedua adalah Poisson yang memiliki arti yang sama (pada tebakan yang sangat kasar) dengan milik Anda. Seperti yang Anda lihat, ini terlihat sangat simetris.

Anda dapat memiliki kemiringan atau rata-rata yang besar, tetapi tidak keduanya sekaligus.

2) (i) Anda tidak dapat membuat data diskrit menjadi normal -

Dengan data yang dikelompokkan, menggunakan transformasi peningkatan monoton, Anda akan memindahkan semua nilai dalam grup ke tempat yang sama, sehingga grup terendah akan tetap memiliki puncak tertinggi - lihat plot di bawah ini. Dalam plot pertama, kami memindahkan posisi nilai x agar cocok dengan cdf normal:

masukkan deskripsi gambar di sini

Dalam plot kedua, kita melihat fungsi probabilitas setelah transformasi. Kita tidak dapat benar-benar mencapai sesuatu seperti normalitas karena itu bersifat terpisah dan miring; lompatan besar grup pertama akan tetap menjadi lompatan besar, tidak peduli apakah Anda mendorongnya ke kiri atau kanan.

(ii) Data miring yang berkesinambungan mungkin ditransformasikan agar terlihat cukup normal. Jika Anda memiliki nilai mentah (tidak dikelompokkan) dan tidak terlalu terpisah, Anda mungkin dapat melakukan sesuatu, tetapi bahkan ketika orang berusaha mengubah data mereka itu tidak perlu atau masalah mendasarnya dapat diselesaikan dengan cara yang berbeda (umumnya lebih baik) . Kadang-kadang transformasi adalah pilihan yang baik, tetapi biasanya dilakukan karena alasan yang tidak terlalu baik.

Jadi ... mengapa Anda ingin mengubahnya?

Glen_b -Reinstate Monica
sumber

Terima kasih Glen atas jawaban yang sangat terperinci. Ini menjelaskan banyak konsep. Saya mencoba memasukkan data ini ke dalam model regresi logistik. Saya pikir (saya tidak begitu yakin sekarang) bahwa data yang didistribusikan secara normal menghasilkan hasil yang jauh lebih baik. Apa yang kamu sarankan?

Abhi

x

$x$

@ Glen_b Terima kasih banyak atas jawaban yang bagus. Saya juga dari latar belakang ilmu komputer dan terjebak dalam pertanyaan ini: stats.stackexchange.com/questions/408232/… Tolong beri tahu saya pendapat Anda tentang ini. Saya menantikan balasan anda. Sekali lagi terima kasih :)

EmJ

Tolong jangan gunakan komentar untuk mencoba merekrut orang untuk menjawab pertanyaan Anda. Saya sudah melihat pertanyaan Anda.

Glen_b -Reinstate Monica

Posting informasi lebih menyenangkan untuk anak cucu.

Ada posting yang lebih tua yang membahas masalah yang sama mengenai penggunaan data jumlah sebagai variabel independen untuk regresi logistik.

Ini dia:

Apakah menggunakan data jumlah sebagai variabel independen melanggar asumsi GLM?

Seperti yang disebutkan Glen jika Anda hanya mencoba untuk memprediksi hasil dikotomis, Anda mungkin dapat menggunakan data jumlah yang tidak diubah sebagai komponen langsung dari model regresi logistik Anda. Namun, catatan kehati-hatian: Ketika variabel independen (IV) terdistribusi poisson DAN berkisar pada banyak pesanan besarnya menggunakan nilai mentah dapat menghasilkan poin yang sangat berpengaruh, yang pada gilirannya dapat membiaskan model Anda. Jika ini masalahnya, mungkin berguna untuk melakukan transformasi ke IV Anda untuk mendapatkan model yang lebih kuat.

Transformasi seperti akar kuadrat, atau log dapat menambah hubungan antara IV dan rasio odds. Misalnya, jika perubahan X dengan tiga seluruh urutan besarnya (jauh dari nilai median X) berhubungan dengan hanya 0,1 perubahan probabilitas Y yang terjadi (jauh dari 0,5), maka cukup aman untuk mengasumsikan bahwa setiap perbedaan model akan menyebabkan bias yang signifikan karena leverage yang ekstrim dari nilai X outlier.

Untuk menggambarkan lebih lanjut, bayangkan kami ingin menggunakan peringkat Scoville dari berbagai cabai (domain [X] = {0, 3,2 juta}) untuk memprediksi kemungkinan seseorang mengklasifikasikan lada sebagai "pedas tidak nyaman" (rentang [Y] = {1 = ya, 0 = tidak}) setelah makan lada dengan peringkat X yang sesuai.

https://en.wikipedia.org/wiki/Scoville_scale

Jika Anda melihat grafik peringkat scoville, Anda dapat melihat bahwa transformasi log dari peringkat Scoville mentah akan memberi Anda perkiraan yang lebih dekat dengan peringkat subyektif (1-10) dari setiap cabai.

Jadi dalam hal ini, jika kita ingin membuat model yang lebih kuat yang menangkap hubungan sebenarnya antara peringkat Scoville mentah dan peringkat panas subyektif, kita dapat melakukan transformasi logaritmik pada nilai X. Dengan melakukan ini kami mengurangi dampak dari domain X yang terlalu besar, dengan secara efektif "menyusutkan" jarak antara nilai-nilai yang berbeda dengan urutan besarnya, dan akibatnya mengurangi bobot setiap pencilan X (misalnya capsaicin yang tidak toleran dan / atau iblis bumbu gila! !!) ada pada prediksi kami.

Semoga ini menambah konteks yang menyenangkan!

Ryan Arellano
sumber