Katakanlah saya memiliki tiga set data ukuran setiap:
= ketinggian orang dari AS saja
= ketinggian pria dari seluruh dunia
= Tinggi wanita dari seluruh dunia
Dan saya membangun model linier untuk masing-masing faktor , :
dengan memiliki properti biasa untuk OLS. Dan saya dapat menggunakan faktor dalam lebih dari satu regresi.
Pertanyaan saya adalah: Bagaimana saya bisa menggabungkan regresi sehingga saya bisa mendapatkan taksiran untuk:
= tinggi pria hanya dari AS
= tinggi wanita hanya dari AS
untuk yang saya tidak punya data
Saya mungkin memikirkan semacam beban:
tapi kemudian saya tidak tahu untuk apa menggunakannya .
height ~ f1 + f2 + f3 + (1 | sex)
dalam paket Rlmer
Jawaban:
Tidak jelas apakah Anda menginginkan perkiraan tinggi badan untuk setiap pria dan wanita (lebih dari masalah klasifikasi) atau untuk mengkarakterisasi distribusi ketinggian masing-masing jenis kelamin. Saya akan menganggap yang terakhir. Anda juga tidak menentukan informasi tambahan apa yang Anda gunakan dalam model Anda, jadi saya akan membatasi diri untuk menangani kasus di mana Anda hanya memiliki data ketinggian (dan data jenis kelamin, dalam kasus warga non-AS).
Saya sarankan hanya menyesuaikan campuran distribusi dengan data ketinggian hanya dari AS , karena distribusi tinggi pada pria dan wanita cukup berbeda. Ini akan memperkirakan parameter dari dua distribusi yang bila dijumlahkan bersama-sama menggambarkan variasi dalam data. Parameter distribusi ini (mean dan varians, karena distribusi Gaussian akan berfungsi dengan baik) memberi Anda informasi yang Anda cari. Paket R
mixtools
danmixdist
membiarkan Anda melakukan ini; Saya yakin masih banyak lagi.Solusi ini mungkin tampak aneh, karena tidak menyertakan semua informasi yang Anda miliki dari luar AS, tempat Anda mengetahui jenis kelamin dan ketinggian masing-masing individu. Tapi saya pikir itu dibenarkan karena:
1) Kami memiliki harapan sebelumnya yang sangat kuat bahwa pria rata-rata lebih tinggi daripada wanita. Daftar Wikipedia rata-rata tinggi manusia di seluruh dunia menunjukkan bahkan tidak satu negara atau wilayah di mana wanita lebih tinggi daripada pria. Jadi identitas distribusi dengan tinggi rata-rata yang lebih besar tidak benar-benar diragukan.
2) Mengintegrasikan informasi yang lebih spesifik dari data non-AS kemungkinan akan melibatkan membuat asumsi bahwa kovarians antara jenis kelamin dan tinggi adalah sama di luar AS seperti di dalam. Tetapi ini tidak sepenuhnya benar - daftar Wikipedia yang sama menunjukkan bahwa rasio tinggi badan laki-laki dan perempuan bervariasi antara sekitar 1,04 dan 1,13.
3) Data internasional Anda mungkin jauh lebih rumit untuk dianalisis karena orang-orang di berbagai negara memiliki variasi dalam distribusi ketinggian juga. Karena itu, Anda mungkin perlu mempertimbangkan untuk memodelkan campuran campuran. Ini mungkin juga benar di AS, tetapi kemungkinan akan lebih sedikit masalah daripada dataset yang mencakup Belanda (tinggi rata-rata: 184 cm) dan orang Indonesia (tinggi rata-rata: 158 cm). Dan itu adalah rata-rata tingkat negara; subpopulasi berbeda hingga taraf genap.
sumber