Saya akan sangat menghargai saran Anda tentang masalah berikut:
Saya punya set data kontinu besar dengan banyak nol (~ 95%) dan saya perlu menemukan cara terbaik untuk menguji apakah himpunan bagian tertentu dari itu "menarik", yaitu sepertinya tidak diambil dari distribusi yang sama dengan sisanya. Nol inflasi berasal dari fakta bahwa setiap titik data didasarkan pada pengukuran jumlah dengan nol benar dan sampel, tetapi hasilnya kontinu karena memperhitungkan beberapa parameter lain yang ditimbang oleh hitungan (dan jadi jika hitungannya nol, hasilnya juga nol).
apa jalan terbaik melakukan ini? Saya merasa bahwa Wilcoxon dan bahkan tes permutasi brute-force tidak memadai ketika mereka condong oleh nol ini. Memfokuskan pada pengukuran non-nol juga menghilangkan nol sebenarnya yang sangat penting. Model yang dikembangkan nol untuk data jumlah dikembangkan dengan baik, tetapi tidak cocok untuk kasus saya.
Saya dianggap pas distribusi Tweedie ke data dan kemudian pas glm pada response = f (subset_label). Secara teoritis, ini tampaknya layak, tetapi saya bertanya-tanya apakah (a) ini berlebihan dan (b) masih akan secara implisit menganggap bahwa semua nol adalah nol sampel, yaitu akan bias dengan cara yang sama (paling baik) sebagai permutasi?
Secara intuitif, kedengarannya seperti memiliki semacam desain hirarkis yang menggabungkan statistik binomial berdasarkan proporsi nol dan, katakanlah, statistik Wilcoxon dihitung berdasarkan nilai-nilai yang tidak nol (atau, lebih baik lagi, nilai-nilai yang tidak nol ditambah dengan sebagian kecil dari nol berdasarkan beberapa sebelumnya). Kedengarannya seperti jaringan Bayesian ...
Mudah-mudahan saya bukan orang pertama yang memiliki masalah ini, jadi akan sangat berterima kasih jika Anda bisa mengarahkan saya ke teknik yang sesuai yang ada ...
Terimakasih banyak!
sumber
Jawaban:
@ msp, saya pikir Anda sedang melihat model dua tahap dalam lampiran itu (saya tidak punya waktu untuk membacanya), tetapi nol data terus menerus meningkat adalah tipe saya bekerja dengan banyak. Untuk menyesuaikan model parametrik dengan data ini (untuk memungkinkan tes hipotesis) Anda dapat memuat dua tahap tetapi kemudian Anda memiliki dua model (Y adalah target dan X adalah kovariat): P (Y = 0 | X) dan P (Y | X; Y> 0). Anda harus menggunakan simulasi untuk "menyatukan" ini. Buku Gelmans (dan paket lengan dalam R) menunjukkan proses ini untuk model yang tepat ini (menggunakan regresi logistik dan regresi linier biasa dengan tautan log).
Pilihan lain yang saya lihat dan sukai lebih baik adalah mencocokkan regresi gamma nol yang meningkat, yang sama seperti di atas (tetapi gamma sebagai kesalahan, bukan guassian) dan Anda dapat menyatukannya untuk pengujian hipotesis pada P (Y | X) . Saya tidak tahu bagaimana melakukan ini di R, tetapi Anda bisa di SAS NLMIXED. Lihat posting ini , ini berfungsi dengan baik.
sumber
Pendekatan yang mirip dengan makalah Fletcher digunakan dalam pengujian pemasaran, di mana kita dapat secara sewenang-wenang memisahkan efek intervensi (seperti iklan) menjadi (a) perubahan jumlah pembelian merek (yaitu proporsi nol) dan (b) a perubahan frekuensi membeli band (penjualan yang diberikan terjadi sama sekali). Ini adalah pendekatan yang solid dan bermakna secara konseptual dalam konteks pemasaran dan dalam konteks ekologi yang dibahas Fletcher. Bahkan, ini dapat diperluas ke (c) perubahan ukuran setiap pembelian.
sumber
Anda bisa memperlakukan jumlah persis nol yang tidak diketahui, tetapi dibatasi antara 0 dan jumlah nol yang diamati. Ini pasti dapat ditangani menggunakan formulasi model Bayesian. Mungkin metode imputasi ganda juga dapat disesuaikan untuk memvariasikan bobot dengan tepat (antara 0 dan 1) dari nol pengamatan ...
sumber