Sampel populasi acak disurvei. Mereka ditanya apakah mereka makan diet vegetarian. Jika mereka menjawab ya, mereka juga diminta untuk menentukan berapa lama mereka telah makan diet vegetarian tanpa gangguan. Saya ingin menggunakan data ini untuk menghitung panjang rata-rata kepatuhan pada vegetarian. Dengan kata lain, ketika seseorang menjadi vegetarian, saya ingin tahu lama rata-rata mereka tetap vegetarian. Mari kita asumsikan bahwa:
- Semua responden memberikan tanggapan yang benar dan akurat
- Dunia stabil: popularitas vegetarian tidak berubah, panjang rata-rata kepatuhan juga tidak berubah.
Alasan saya sejauh ini
Saya merasa terbantu untuk menganalisis model mainan dunia, di mana pada awal setiap tahun dua orang menjadi vegetarian. Setiap kali, satu dari mereka tetap vegetarian selama 1 tahun dan yang lain selama 3 tahun. Jelas, panjang rata-rata kepatuhan di dunia ini adalah (1 + 3) / 2 = 2 tahun. Berikut adalah grafik yang menggambarkan contohnya. Setiap kotak mewakili periode vegetarianisme:
Katakanlah kita melakukan survei pada pertengahan tahun 4 (garis merah). Kami mendapatkan data berikut:
Kami akan mendapatkan data yang sama jika kami mengambil survei di tahun apa pun, mulai tahun 3. Jika kami hanya meratakan respons yang kami dapatkan:
(2 * 0,5 + 1,5 + 2,5) / 4 = 1,25
Kami meremehkan karena kami menganggap bahwa semua orang berhenti menjadi vegetarian setelah survei, yang jelas-jelas salah. Untuk memperoleh perkiraan yang lebih dekat dengan waktu rata-rata sebenarnya dimana para peserta ini akan tetap vegetarian, kita dapat mengasumsikan bahwa rata-rata, mereka melaporkan waktu sekitar setengah dari periode vegetarianisme mereka dan melipatgandakan durasi yang dilaporkan dengan 2. Dalam survei besar, menggambar secara acak dari populasi (seperti yang saya analisis), saya pikir ini adalah asumsi yang realistis. Setidaknya itu akan memberikan nilai yang diharapkan benar. Namun, jika menggandakan adalah satu-satunya hal yang kita lakukan, kita mendapatkan rata-rata 2,5, yang merupakan perkiraan terlalu tinggi. Ini karena semakin lama orang tetap vegetarian, semakin besar kemungkinan dia akan menjadi sampel vegetarian saat ini.
Saya kemudian berpikir bahwa kemungkinan seseorang dalam sampel vegetarian saat ini sebanding dengan panjangnya vegetarianisme. Untuk menjelaskan bias ini, saya mencoba untuk membagi jumlah vegetarian saat ini dengan prediksi panjang kepatuhan mereka:
Namun, ini memberikan rata-rata yang salah juga:
(2 * 1 + ⅓ * 3 + ⅕ * 5) / (2 + ⅓ + ⅕) = 4 / 2.533333 = 1,579 tahun
Ini akan memberikan perkiraan yang tepat jika jumlah vegetarian dibagi dengan panjang kepatuhan yang benar:
(1 + ⅓ * (1 + 3 + 5)) / (1 + ⅓ * 3) = 2 tahun
Tapi itu tidak berhasil jika saya menggunakan panjang kepatuhan yang diprediksi dan itu semua yang saya miliki dalam kenyataan. Saya tidak tahu harus mencoba apa lagi. Saya membaca sedikit tentang analisis survival tetapi saya tidak yakin bagaimana menerapkannya dalam kasus ini. Idealnya, saya juga ingin dapat menghitung interval kepercayaan 90%. Setiap tips akan sangat dihargai.
EDIT: Mungkin saja pertanyaan di atas tidak memiliki jawaban. Tetapi ada juga penelitian lain yang menanyakan sampel acak orang-orang apakah mereka vegetarian dan berapa kali mereka menjadi vegetarian di masa lalu. Saya juga tahu usia semua orang dalam studi dan beberapa hal lainnya. Mungkin informasi ini dapat digunakan bersamaan dengan survei vegetarian saat ini untuk mendapatkan nilai tengah. Pada kenyataannya, penelitian yang saya bicarakan hanyalah satu bagian dari teka-teki, tetapi yang sangat penting dan saya ingin mendapatkan lebih banyak darinya.
sumber
Jawaban:
Biarkan menunjukkan pdf panjang kepatuhan X vegetarianisme dalam populasi. Tujuan kami adalah memperkirakan E X = ∫ ∞ 0 x f X ( x )fX(x) X .EX=∫∞0xfX(x)dx
Dengan asumsi bahwa probabilitas untuk dimasukkan dalam survei (peristiwa ) sebanding dengan X , pdf panjang kepatuhan X di antara mereka yang termasuk dalam survei adalah f X | S ( x ) = x f X ( xS X X
Pada saat dimasukkan dalam survei, hanya waktuZtelah berlalu. Bersyarat padaX(danS), waktu yang dilaporkan menjadi vegetarian adalah seragam dengan pdf
fZ| X=x(z)=
Kode R mensimulasikan data dan mengimplementasikan kedua metode:
sumber
(Saya sudah ragu-ragu untuk menambahkan ini, seperti yang terlihat @JarleTufto telah memberikan pendekatan matematika yang bagus; Namun saya tidak cukup pintar untuk memahami jawabannya, dan sekarang saya ingin tahu apakah itu pendekatan yang persis sama, atau jika pendekatan yang saya jelaskan di bawah ini memiliki kegunaan.)
Apa yang akan saya lakukan adalah menebak panjang rata-rata, dan menebak beberapa distribusi di sekitarnya, dan kemudian, untuk masing-masing, membuat simulasi populasi saya, dan sampel secara teratur.
Anda berkata untuk berasumsi bahwa populasi total vegetarian tidak berubah, jadi setiap kali model saya menghentikan seseorang, seorang vegetarian baru diciptakan. Kita perlu menjalankan model untuk beberapa tahun yang disimulasikan untuk memastikan modelnya telah stabil, sebelum kita dapat mulai mengambil sampel. Setelah itu saya pikir Anda dapat mengambil sampel setiap bulan yang disimulasikan (*) sampai Anda memiliki cukup untuk membentuk interval kepercayaan 90% Anda.
*: atau resolusi apa pun yang berfungsi dengan data Anda. Jika orang memberikan jawaban mereka ke tahun terdekat, pengambilan sampel setiap 6 bulan sudah cukup baik.
Dari semua dugaan Anda, Anda memilih mean dan distribusi yang (rata-rata atas semua sampel yang Anda ambil) memberi Anda hasil terdekat dengan apa yang diberikan survei kehidupan nyata Anda.
Saya akan mengulangi dugaan saya beberapa kali, untuk mempersempit pada pertandingan terbaik.
Distribusi terbaik mungkin tidak memuncak tunggal. Mantan vegetarian yang saya pikir bisa berhenti karena perubahan gaya hidup utama (biasanya menikah / hidup dengan negara yang tidak vegetarian, atau pindah negara, atau jatuh sakit parah dan dokter menyarankan itu mungkin diet); di sisi lain adalah kekuatan kebiasaan: semakin lama Anda menjadi vegetarian, semakin besar kemungkinan Anda untuk menjadi seorang vegetarian. Jika data Anda menanyakan usia dan status hubungan, kami dapat membuangnya dalam simulasi di atas juga.
sumber