Pertimbangkan jenis lelang di mana Anda dihadapkan dengan, katakanlah, 1000 calon klien. Berdasarkan informasi tentang calon pelanggan ini - usia, jenis kelamin, ras, pendapatan, prestasi pendidikan, dan sejenisnya - Anda dapat 'mengajukan tawaran' untuk menjual produk Anda ke sebagian kecil dari mereka, katakan 250. (Abaikan biaya penawaran.) Kepada memaksimalkan peluang Anda memilih subset yang tepat, saya mungkin akan menggunakan model 'kesukaan' produk kami yang dibangun menggunakan regresi logistik. Saya bisa meraba-raba bagian ini dengan cukup baik.
Namun, untuk membangun model disukai produk, saya harus melakukan riset pasar, menguji penawaran produk pada subjek yang mungkin kami rekrut dari populasi pada umumnya. Ini sebenarnya cukup mahal. Selain itu, mungkin harus disesuaikan dengan demografi populasi dari mana calon pelanggan diambil. Sebagai contoh, desain faktorial, katakanlah, mungkin meminta kami untuk merekrut subjek uji dalam proporsi yang sama di seluruh tingkat faktor ras, ketika pada kenyataannya kita cenderung menghadapi sangat sedikit penduduk asli Amerika, katakanlah, dalam 1000 prospektif, dan dapat dengan mudah memilih untuk tidak berbicara kepada mereka sama sekali sebagai suatu peraturan. (Sedih, tapi benar.)
Bagaimana seharusnya percobaan seperti itu dirancang? Agar konkret, variabel desain adalah semua faktor kategoris dan ordinal, fraksi penawaran adalah parameter input (1/4 dalam contoh yang dikutip di atas), seperti jumlah maksimum subjek yang dapat direkrut. Sepertinya mungkin beberapa campuran desain eksperimental dan pengambilan sampel acak mungkin sesuai, tetapi saya terbuka untuk semua saran dan petunjuk yang masuk akal.
Saya juga harus mencatat bahwa mengingat ukuran efek yang kecil dan jumlah sampel rekrutmen kecil yang kami mampu, kecil kemungkinan bahwa riset pasar akan menghasilkan koefisien regresi yang signifikan secara statistik. Sehingga mengoptimalkan desain eksperimental mungkin konyol, dan prosedur yang tidak masuk akal akan cukup.
sumber
Jawaban:
Salah satu pendekatan untuk masalah Anda adalah menggunakan sampel bertingkat. Salah satu tujuan stratifikasi adalah memastikan domain (kelompok) tertentu dari populasi terwakili dalam sampel, yang jika tidak akan diwakili terlalu jarang untuk kesimpulan yang valid, misalnya karena probabilitas seleksi yang kecil.
Misalnya, jika "Penduduk Asli Amerika" adalah kelompok penting dalam hal perkiraan Anda dari 'model disukai', tetapi kemungkinan pemilihannya sangat kecil, ukuran sampel acak sederhana (SRS)n=50 mungkin tidak mengandung atau hanya sangat sedikit unit jenis ini. Jika Anda termasuk Nat. Saya. sebagai variabel indikator dalam model, perkiraan mungkin akan sangat tidak dapat diandalkan (kesalahan standar besar), atau parameter tidak dapat diperkirakan sama sekali. Tujuan dari sampel bertingkat adalah untuk menghindari hal ini.
Stratifikasi berarti memilih unit dengan probabilitas lebih tinggi daripada yang mereka miliki dalam SRS. Dalam memperkirakan regresi logistik / polinomial Anda, Anda akan dapat menggunakan bobot stratifikasi (bobot desain) untuk menyesuaikan probabilitas seleksi yang lebih tinggi. Bobot kemudian secara umum didefinisikan sebagai
Masalah dalam aplikasi khusus Anda adalah bahwa Anda mungkin tidak dapat membuat stratifikasi untuk semua karakteristik yang Anda sebutkan, mengingat ukuran sampel yang kecil (katakanlahn=50 ). Dalam stratifikasi, Anda biasanya perlu melintasi semua karakteristik dan sampel dari semua sel dari tabel kontingensi yang dihasilkan. Jumlah sel cepat tumbuh dengan jumlah karakteristik dan kategori masing-masing karakteristik, dan pada satu titik kompleksitas, tidak mungkin lagi untuk mengisi semua sel secukupnya dengan diberi tanda tetap.n=50 .
Karenanya saran saya adalah melihat karakteristik Anda dan membuat pilihan sebagai berikut. Pertama, buat daftar semua karakteristik yang ingin Anda miliki dalam model akhir, karena Anda menganggap bahwa mereka akan memiliki kekuatan prediktif untuk 'disukai' atau mereka mengidentifikasi kelompok yang penting dalam 'proses penawaran'. Kedua, dari karakteristik ini, bedakan antara yang menyiratkan probabilitas seleksi tinggi dan rendah selama pengambilan sampel. Probabilitas pemilihan yang rendah adalah kemungkinan yang akan memberi Anda terlalu sedikit pengamatan di salah satu kategori yang diberikan sampel ukuran SRSn .
Misalnya, 'gender' biasanya akan menjadi variabel yang terwakili dengan baik dengan probabilitas 50/50 di pop., Bahkan jikan=50 Anda akan memiliki pria dan wanita yang 'cukup', tetapi Nat. Saya. mungkin bukan variabel jenis ini, tetapi masih penting untuk model Anda. Analisis kekuatan mungkin memberikan panduan lebih lanjut jika diperlukan, tetapi itu tergantung pada model tertentu dan mungkin sangat kompleks untuk regresi politom.
Karakteristik dengan probabilitas seleksi yang terlalu rendah adalah kandidat untuk stratifikasi, sedangkan variabel dengan probabilitas seleksi yang cukup tinggi / seimbang di semua kategorinya dapat diabaikan dalam desain pengambilan sampel. Sekarang Anda telah mengidentifikasi strata penting untuk populasi dan model Anda, Anda dapat membangun strategi desain pengambilan sampel pada mereka (yaitu sampel secara acak dari semua strata yang relevan untuk mengisi semua 'sel').
Saya berharap bahwa ketika melakukan ini, Anda akan berakhir dengan strata yang cukup untuk melanjutkan dengan sampel ukurann=50 .
sumber