Latar belakang: Organisasi saya saat ini membandingkan statistik keanekaragaman tenaga kerjanya (mis.% Orang dengan disabilitas,% wanita,% veteran) dengan total ketersediaan tenaga kerja untuk kelompok-kelompok tersebut berdasarkan American Community Survey (proyek survei oleh US Census Bureau). Ini adalah tolok ukur yang tidak akurat, karena kami memiliki serangkaian pekerjaan yang sangat spesifik yang memiliki demografi berbeda dari angkatan kerja secara keseluruhan. Katakan, misalnya, bahwa organisasi saya kebanyakan adalah insinyur. Teknik hanya sekitar 20% wanita di negara saya. Jika kita membandingkan diri kita dengan tolok ukur total tenaga kerja, yang lebih seperti 50% wanita, ini menimbulkan kepanikan bahwa “kita hanya memiliki 20% wanita, ini adalah bencana!” ketika benar-benar, 20% adalah apa yang seharusnya kita harapkan karena seperti itulah lanskap tenaga kerja.
Tujuan saya: Apa yang ingin saya lakukan adalah mengambil data pekerjaan Survei Komunitas Amerika (berdasarkan kategori keanekaragaman) dan menimbang kembali berdasarkan komposisi pekerjaan dalam bisnis saya. Berikut adalah contoh data yang ditetapkan untuk pekerja Layanan Sosial dan Komunitas . Saya ingin menambahkan kode pekerjaan ini ke daftar bersama (karena penyeberangan kami adalah untuk kelompok pekerjaan, bukan ke kode pekerjaan tertentu), maka saya ingin mempertimbangkan patokan itu berdasarkan jumlah orang yang kami miliki dalam kategori itu (mis. 3.000 kami Sosial dan Pekerja Layanan Masyarakat), maka saya ingin melakukan hal yang sama untuk semua kelompok kerja lainnya, menambahkan angka-angka itu bersama-sama, dan membaginya dengan jumlah total pekerja kami. Ini akan memberi saya ukuran keragaman tertimbang baru (mis. Dari 6% orang cacat hingga 2% orang cacat).
Pertanyaan saya: Bagaimana cara menyesuaikan margin kesalahan dengan tolok ukur akhir yang digulirkan ini? Saya tidak memiliki set data sensus mentah (jelas), tetapi Anda dapat melihat margin kesalahan untuk setiap nomor di tautan yang saya berikan dengan mengalihkan bidang "Estimasi" ke "Margin of Error" di bagian atas tabel. Rekan kerja saya yang lain yang bekerja dengan data ini sepenuhnya bermaksud untuk mengabaikan margin kesalahan, tetapi saya khawatir bahwa kita menciptakan tolok ukur yang tidak bermakna secara statistik untuk diri kita sendiri. Apakah data ini bahkan masih dapat digunakan setelah manipulasi yang dijelaskan di atas?
Jawaban:
Pembaruan 2014-01-15
Saya menyadari bahwa saya tidak menjawab pertanyaan asli Danica tentang apakah margin kesalahan untuk proporsi yang disesuaikan secara tidak langsung dinonaktifkan akan lebih besar atau lebih kecil dari margin kesalahan untuk tingkat yang sama di ACS. Jawabannya adalah: jika proporsi kategori perusahaan tidak berbeda secara drastis dari proporsi ACS negara, margin kesalahan yang diberikan di bawah ini akan lebih kecil dari margin kesalahan ACS. Alasannya: tingkat tidak langsung memperlakukan orang kategori pekerjaan organisasi menghitung (atau proporsi relatif) sebagai angka tetap . Estimasi proporsi ACS yang dinonaktifkan mengharuskan, pada dasarnya, estimasi proporsi tersebut, dan margin kesalahan akan meningkat untuk mencerminkan hal ini.
Untuk mengilustrasikannya, tulis nilai yang dinonaktifkan sebagai:
di mana adalah taksiran laju penonaktifan dalam kategori di ACS.p^i i
Di sisi lain, tingkat perkiraan ACS adalah, berlaku:
di mana dan masing-masing kategori populasi dan total keseluruhan dan adalah proporsi populasi dalam kategori .Ni N Ni/N i
Dengan demikian, kesalahan standar untuk tingkat ACS akan lebih besar karena kebutuhan untuk memperkirakan selain .Ni/N pi
Jika proporsi kategori organisasi dan proporsi perkiraan populasi sangat berbeda, maka ada kemungkinan . Dalam contoh dua kategori yang saya buat, kategori diwakili dalam proporsi dan . Kesalahan standar untuk estimasi proporsi yang dinonaktifkan adalah .SE(P^adj)>SE(P^acs) N1/N=0.7345 N2/N=0.2655 SE(P^acs)=0.0677
Jika saya menganggap 0,7345 dan 0,2655 sebagai nilai tetap dan (pendekatan penyesuaian tidak langsung), , jauh lebih kecil. Jika sebaliknya, dan , , hampir sama dengan Pada kondisi ekstrem dan , . Saya akan terkejut jika proporsi kategori organisasi dan populasi berbeda secara drastis. Jika tidak, saya pikir aman untuk menggunakan margin kesalahan ACS sebagai estimasi konservatif, mungkin sangat konservatif, dari margin kesalahan sebenarnya.n1/n n2/n SE(P^adj)=0.0375 n1/n=0.15 n2/n=0.85 SE(P^adj)=0.0678 SE(P^acs) n1/n=0.001 S E ( P a d j ) = 0,079n2/n=0.999 SE(P^adj)=0.079
Pembaruan 2014-01-14
Jawaban singkat
Menurut pendapat saya, tidak akan bertanggung jawab untuk menyajikan statistik seperti itu tanpa CI atau margin of error (setengah panjang CI). Untuk menghitungnya, Anda perlu mengunduh dan menganalisis ACS Microdata Sample Public Use (PUMS) ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).
Jawaban panjang
Ini sebenarnya bukan pembobotan ACS. Ini adalah versi standardisasi tidak langsung, prosedur standar dalam epidemiologi (google atau lihat teks epi). Dalam hal ini tingkat kecacatan pekerjaan (kategori) ACS ditimbang oleh jumlah karyawan kategori pekerjaan organisasi. Ini akan menghitung jumlah orang cacat yang diharapkan dalam organisasi
E
, yang dapat dibandingkan dengan jumlah yang diamatiO
. Metrik yang biasa untuk perbandingan adalah rasio standarR= (O/E)
. (Istilah yang biasa adalah "SMR", untuk "rasio kematian standar", tetapi di sini "hasil" adalah kecacatan.).R
juga rasio tingkat kecacatan yang diamati(O/n)
dan tingkat standar tidak langsung(E/n)
, di manan
jumlah karyawan organisasi.Dalam hal ini, tampaknya hanya CI untuk
E
atauE/n
akan diperlukan, jadi saya akan mulai dengan itu:Jika
Kemudian
Perbedaannya
E
adalah:di mana
nn
vektor kolom dari kategori organisasi dihitung danV
merupakan estimasi varians-kovarians dari tingkat kecacatan kategori ACS.Juga, sepele,
se(E) = sqrt(var(E))
danse(E/n) = se(E)/n
.dan CI 90% untuk E adalah
Bagi dengan
n
untuk mendapatkan CI untukE/n
.Untuk memperkirakan,
var(E)
Anda perlu mengunduh dan menganalisis data PUMS Sampel Penggunaan Umum (PUMS) ACS ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).Saya hanya bisa berbicara tentang proses komputasi
var(E)
di Stata. Karena saya tidak tahu apakah itu tersedia untuk Anda, saya akan menunda detailnya. Namun seseorang yang memiliki pengetahuan tentang kemampuan survei R atau (mungkin) SAS juga dapat memberikan kode dari persamaan di atas.Interval Keyakinan untuk rasio
R
Interval kepercayaan untuk
R
biasanya didasarkan pada asumsi PoissonO
, tetapi asumsi ini mungkin salah.Kita dapat mempertimbangkan
O
danE
menjadi mandiri, jadivar(log(E))
dapat dihitung sebagai satu langkah Stata lagi setelah perhitunganvar(E)
.Di bawah asumsi kemerdekaan Poisson:
Sebuah program seperti Stata bisa cocok, katakanlah, model binomial negatif atau model linier umum dan memberikan Anda istilah varians yang lebih akurat.
Perkiraan 90% CI
log R
adalahdan titik akhir dapat secara eksponensial untuk mendapatkan CI
R
.sumber
FWIW ada sumber daya yang baik untuk ACS dan mengakses PUMS di sini ( http://www.asdfree.com/2012/12/analyze-american-community-survey-acs.html ).
Juga ada paket untuk menangani data ACS pada CRAN - disebut, tentu saja, ACS - yang menurut saya sangat membantu untuk melakukan hal-hal atipikal dengan data ACS. Ini adalah langkah-demi-langkah yang baik untuk paket (sayangnya dokumentasi tidak super intuitif) - http://dusp.mit.edu/sites/all/files/attachments/publication/working_with_acs_R.pdf
sumber
menambahkan ke tautan http://asdfree.com pada jawaban @ pricele2..untuk mengatasi masalah ini dengan perangkat lunak bebas, saya akan mendorong Anda untuk mengikuti langkah-langkah ini:
(1) ( dua jam kerja keras ) berkenalan dengan bahasa r. tonton 50 video pertama, masing-masing dua menit
http://twotorials.com/
(2) ( satu jam mengikuti instruksi mudah ) instal monetdb di komputer Anda
http://www.asdfree.com/2013/03/column-store-r-or-how-i-learned-to-stop.html
(3) ( tiga puluh menit mengikuti instruksi + unduhan semalam ) unduh acs pums ke komputer Anda. hanya dapatkan tahun yang Anda butuhkan.
https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/download%20all%20microdata.R
(4) ( empat jam belajar dan pemrograman dan memeriksa pekerjaan Anda ) recode variabel yang Anda perlu recode, sesuai dengan spesifikasi apa pun yang Anda butuhkan
https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20variable%20recode%20example.R
(5) ( dua jam analisis aktual ) jalankan perintah persis yang Anda cari, tangkap kesalahan standar, dan hitung interval kepercayaan.
https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20analysis%20examples.R
(6) ( empat jam pemrograman ) jika Anda memerlukan penaksir rasio, ikuti contoh estimasi rasio (dengan kesalahan standar yang disesuaikan dengan survei yang disesuaikan) di sini:
https://github.com/ajdamico/usgsd/blob/master/Censo%20Demografico/variable%20recode%20example.R#L552
sumber