Bagaimana pembobotan data keanekaragaman Komunitas Survei Amerika akan mempengaruhi margin kesalahannya?

Latar belakang: Organisasi saya saat ini membandingkan statistik keanekaragaman tenaga kerjanya (mis.% Orang dengan disabilitas,% wanita,% veteran) dengan total ketersediaan tenaga kerja untuk kelompok-kelompok tersebut berdasarkan American Community Survey (proyek survei oleh US Census Bureau). Ini adalah tolok ukur yang tidak akurat, karena kami memiliki serangkaian pekerjaan yang sangat spesifik yang memiliki demografi berbeda dari angkatan kerja secara keseluruhan. Katakan, misalnya, bahwa organisasi saya kebanyakan adalah insinyur. Teknik hanya sekitar 20% wanita di negara saya. Jika kita membandingkan diri kita dengan tolok ukur total tenaga kerja, yang lebih seperti 50% wanita, ini menimbulkan kepanikan bahwa “kita hanya memiliki 20% wanita, ini adalah bencana!” ketika benar-benar, 20% adalah apa yang seharusnya kita harapkan karena seperti itulah lanskap tenaga kerja.

Tujuan saya: Apa yang ingin saya lakukan adalah mengambil data pekerjaan Survei Komunitas Amerika (berdasarkan kategori keanekaragaman) dan menimbang kembali berdasarkan komposisi pekerjaan dalam bisnis saya. Berikut adalah contoh data yang ditetapkan untuk pekerja Layanan Sosial dan Komunitas . Saya ingin menambahkan kode pekerjaan ini ke daftar bersama (karena penyeberangan kami adalah untuk kelompok pekerjaan, bukan ke kode pekerjaan tertentu), maka saya ingin mempertimbangkan patokan itu berdasarkan jumlah orang yang kami miliki dalam kategori itu (mis. 3.000 kami Sosial dan Pekerja Layanan Masyarakat), maka saya ingin melakukan hal yang sama untuk semua kelompok kerja lainnya, menambahkan angka-angka itu bersama-sama, dan membaginya dengan jumlah total pekerja kami. Ini akan memberi saya ukuran keragaman tertimbang baru (mis. Dari 6% orang cacat hingga 2% orang cacat).

Pertanyaan saya: Bagaimana cara menyesuaikan margin kesalahan dengan tolok ukur akhir yang digulirkan ini? Saya tidak memiliki set data sensus mentah (jelas), tetapi Anda dapat melihat margin kesalahan untuk setiap nomor di tautan yang saya berikan dengan mengalihkan bidang "Estimasi" ke "Margin of Error" di bagian atas tabel. Rekan kerja saya yang lain yang bekerja dengan data ini sepenuhnya bermaksud untuk mengabaikan margin kesalahan, tetapi saya khawatir bahwa kita menciptakan tolok ukur yang tidak bermakna secara statistik untuk diri kita sendiri. Apakah data ini bahkan masih dapat digunakan setelah manipulasi yang dijelaskan di atas?

confidence-interval sampling data-transformation diversity DanicaE
sumber

Jangan mengubah ulang ACS - ini adalah produk yang halus, sangat canggih, dan dengan segala hormat saya tidak berpikir Anda sebagus ahli statistik seperti Biro Sensus secara kolektif. Jika Anda bisa mendapatkan definisi pekerjaan yang konsisten dengan tugas Anda di ACS atau CPS untuk perbandingan nasional, maka perbandingan apel dengan apel akan menghitung jumlah kategori "keragaman" yang diharapkan berdasarkan ACS agar bisnis Anda bertindak sebagai keanekaragaman yang masuk akal. target.

Tugas

Stas, saya setuju dengan Anda, tetapi seperti yang saya sebutkan di bawah, ini sebenarnya bukan reweighting ACS.

Steve Samuels

Dalam statistik survei, "reweighting" berarti transformasi bobot survei asli . Contoh dari hal ini adalah post-stratifikasi, pengambilan sampel, atau kalibrasi sehingga distribusi marjinal tertentu untuk distribusi pencocokan sampel yang diputar ulang diketahui secara eksternal, katakanlah dari sensus atau ACS. Prosedur Danica menyebutkan tidak menyentuh bobot ACS.

Steve Samuels

Apa yang dapat membantu adalah menuliskan jumlah populasi terbatas yang ingin Anda ketahui. Juga apakah ACS memiliki bobot tiruan? Ini dapat membantu dengan estimasi varians.

probabilityislogic

Jawaban:

Pembaruan 2014-01-15

Saya menyadari bahwa saya tidak menjawab pertanyaan asli Danica tentang apakah margin kesalahan untuk proporsi yang disesuaikan secara tidak langsung dinonaktifkan akan lebih besar atau lebih kecil dari margin kesalahan untuk tingkat yang sama di ACS. Jawabannya adalah: jika proporsi kategori perusahaan tidak berbeda secara drastis dari proporsi ACS negara, margin kesalahan yang diberikan di bawah ini akan lebih kecil dari margin kesalahan ACS. Alasannya: tingkat tidak langsung memperlakukan orang kategori pekerjaan organisasi menghitung (atau proporsi relatif) sebagai angka tetap . Estimasi proporsi ACS yang dinonaktifkan mengharuskan, pada dasarnya, estimasi proporsi tersebut, dan margin kesalahan akan meningkat untuk mencerminkan hal ini.

Untuk mengilustrasikannya, tulis nilai yang dinonaktifkan sebagai:

{\hat{P}}_{a d j} = \sum \frac{n_{i}}{n} \hat{p_{i}}

$\hat{P}_{adj} = \sum \dfrac{n_i}{n} \hat{p_i} \\$

di mana adalah taksiran laju penonaktifan dalam kategori di ACS. $\hat{p}_i$ $i$

Di sisi lain, tingkat perkiraan ACS adalah, berlaku:

{\hat{P}}_{a c s} = \sum \hat{(\frac{N_{i}}{N})} \hat{p_{i}}

$\hat{P}_{acs} = \sum\widehat{\left(\frac{N_i}{N}\right)} \hat{p_i}$

di mana dan masing-masing kategori populasi dan total keseluruhan dan adalah proporsi populasi dalam kategori . $N_i$ $N$ $N_i/N$ $i$

Dengan demikian, kesalahan standar untuk tingkat ACS akan lebih besar karena kebutuhan untuk memperkirakan selain . $N_i/N$ $p_i$

Jika proporsi kategori organisasi dan proporsi perkiraan populasi sangat berbeda, maka ada kemungkinan . Dalam contoh dua kategori yang saya buat, kategori diwakili dalam proporsi dan . Kesalahan standar untuk estimasi proporsi yang dinonaktifkan adalah . $SE( \hat{P}_{adj} )>SE( \hat{P}_{acs} )$ $N_1/N= 0.7345$ $N_2/N= 0.2655$ $SE( \hat{P}_{acs} ) = 0.0677$

Jika saya menganggap 0,7345 dan 0,2655 sebagai nilai tetap dan (pendekatan penyesuaian tidak langsung), , jauh lebih kecil. Jika sebaliknya, dan , , hampir sama dengan Pada kondisi ekstrem dan , . Saya akan terkejut jika proporsi kategori organisasi dan populasi berbeda secara drastis. Jika tidak, saya pikir aman untuk menggunakan margin kesalahan ACS sebagai estimasi konservatif, mungkin sangat konservatif, dari margin kesalahan sebenarnya. $n_1/n$ $n_2/n$ $SE(\hat{P}_{adj} )=0.0375$ $n_1/n= 0.15$ $n_2/n =0.85$ $SE( \hat{P}_{adj} )=0.0678$ $SE( \hat{P}_{acs} )$ $n_1/n= 0.001$ $n_2/n =0.999$ $SE( \hat{P}_{adj} )=0.079$

Pembaruan 2014-01-14

Jawaban singkat

Menurut pendapat saya, tidak akan bertanggung jawab untuk menyajikan statistik seperti itu tanpa CI atau margin of error (setengah panjang CI). Untuk menghitungnya, Anda perlu mengunduh dan menganalisis ACS Microdata Sample Public Use (PUMS) ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).

Jawaban panjang

Ini sebenarnya bukan pembobotan ACS. Ini adalah versi standardisasi tidak langsung, prosedur standar dalam epidemiologi (google atau lihat teks epi). Dalam hal ini tingkat kecacatan pekerjaan (kategori) ACS ditimbang oleh jumlah karyawan kategori pekerjaan organisasi. Ini akan menghitung jumlah orang cacat yang diharapkan dalam organisasi E, yang dapat dibandingkan dengan jumlah yang diamati O. Metrik yang biasa untuk perbandingan adalah rasio standar R= (O/E). (Istilah yang biasa adalah "SMR", untuk "rasio kematian standar", tetapi di sini "hasil" adalah kecacatan.). Rjuga rasio tingkat kecacatan yang diamati (O/n)dan tingkat standar tidak langsung (E/n), di mana njumlah karyawan organisasi.

Dalam hal ini, tampaknya hanya CI untuk Eatau E/nakan diperlukan, jadi saya akan mulai dengan itu:

Jika

 n_i = the organization employee count in job category i

 p_i = disability rate for job category i in the ACS

Kemudian

 E = sum (n_i p_i)

Perbedaannya Eadalah:

 var(E) = nn' V nn

di mana nnvektor kolom dari kategori organisasi dihitung dan Vmerupakan estimasi varians-kovarians dari tingkat kecacatan kategori ACS.

Juga, sepele, se(E) = sqrt(var(E))dan se(E/n) = se(E)/n.

dan CI 90% untuk E adalah

  E ± 1.645 SE(E)

Bagi dengan nuntuk mendapatkan CI untuk E/n.

Untuk memperkirakan, var(E)Anda perlu mengunduh dan menganalisis data PUMS Sampel Penggunaan Umum (PUMS) ACS ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).

Saya hanya bisa berbicara tentang proses komputasi var(E)di Stata. Karena saya tidak tahu apakah itu tersedia untuk Anda, saya akan menunda detailnya. Namun seseorang yang memiliki pengetahuan tentang kemampuan survei R atau (mungkin) SAS juga dapat memberikan kode dari persamaan di atas.

Interval Keyakinan untuk rasio R

Interval kepercayaan untuk Rbiasanya didasarkan pada asumsi Poisson O, tetapi asumsi ini mungkin salah.

Kita dapat mempertimbangkan Odan Emenjadi mandiri, jadi

 log R = log(O) - log(E) ->

 var(log R) = var(log O) + var(log(E))

var(log(E))dapat dihitung sebagai satu langkah Stata lagi setelah perhitungan var(E).

Di bawah asumsi kemerdekaan Poisson:

 var(log O) ~ 1/E(O).

Sebuah program seperti Stata bisa cocok, katakanlah, model binomial negatif atau model linier umum dan memberikan Anda istilah varians yang lebih akurat.

Perkiraan 90% CI log Radalah

 log R ± 1.645 sqrt(var(log R))

dan titik akhir dapat secara eksponensial untuk mendapatkan CI R.

Steve Samuels
sumber

Ini diskusi yang bagus. Pada akhirnya, rekomendasi Anda untuk mengeksploitasi CI untuk dapat menghasilkan CI yang benar-benar buruk untuk itu sendiri.

\log (R)

$\log(R)$

R

$R$

whuber

Bagi saya ini bukan kasus di mana noda sesuai, tetapi saya bisa salah. Apa yang kamu sarankan?

Steve Samuels

Beberapa metode yang disebutkan di CV termasuk meningkatkan CI, metode delta, dan profil fungsi kemungkinan.

whuber

Terima kasih atas jawaban anda. Apakah mungkin untuk menarik data PUMS dengan R? Saya tidak punya SAS. Saya telah menarik data PUMS sebelum menggunakan alat DataFerret yang disediakan oleh sensus, tetapi saya tidak yakin itu memberi saya apa pun yang bisa saya manfaatkan untuk dimanipulasi di Excel, yang merupakan milik saya. Saya dapat menginstal R, tentu saja, tetapi saya tidak memiliki pengalaman dengannya.

DanicaE

Sama-sama, Danica. Jika jawaban ini bermanfaat, silakan tekan tanda centang untuk menerimanya secara resmi. Perhatikan bahwa saya memperbarui jawabannya. Saya sarankan Anda menyajikan margin kesalahan ACS sebagai pengganti konservatif untuk yang tepat.

Steve Samuels

FWIW ada sumber daya yang baik untuk ACS dan mengakses PUMS di sini ( http://www.asdfree.com/2012/12/analyze-american-community-survey-acs.html ).

Juga ada paket untuk menangani data ACS pada CRAN - disebut, tentu saja, ACS - yang menurut saya sangat membantu untuk melakukan hal-hal atipikal dengan data ACS. Ini adalah langkah-demi-langkah yang baik untuk paket (sayangnya dokumentasi tidak super intuitif) - http://dusp.mit.edu/sites/all/files/attachments/publication/working_with_acs_R.pdf

harga2
sumber

menambahkan ke tautan http://asdfree.com pada jawaban @ pricele2..untuk mengatasi masalah ini dengan perangkat lunak bebas, saya akan mendorong Anda untuk mengikuti langkah-langkah ini:

(1) ( dua jam kerja keras ) berkenalan dengan bahasa r. tonton 50 video pertama, masing-masing dua menit

http://twotorials.com/

(2) ( satu jam mengikuti instruksi mudah ) instal monetdb di komputer Anda

http://www.asdfree.com/2013/03/column-store-r-or-how-i-learned-to-stop.html

(3) ( tiga puluh menit mengikuti instruksi + unduhan semalam ) unduh acs pums ke komputer Anda. hanya dapatkan tahun yang Anda butuhkan.

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/download%20all%20microdata.R

(4) ( empat jam belajar dan pemrograman dan memeriksa pekerjaan Anda ) recode variabel yang Anda perlu recode, sesuai dengan spesifikasi apa pun yang Anda butuhkan

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20variable%20recode%20example.R

(5) ( dua jam analisis aktual ) jalankan perintah persis yang Anda cari, tangkap kesalahan standar, dan hitung interval kepercayaan.

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20analysis%20examples.R

(6) ( empat jam pemrograman ) jika Anda memerlukan penaksir rasio, ikuti contoh estimasi rasio (dengan kesalahan standar yang disesuaikan dengan survei yang disesuaikan) di sini:

https://github.com/ajdamico/usgsd/blob/master/Censo%20Demografico/variable%20recode%20example.R#L552

Anthony Damico
sumber

Terima kasih, itu adalah sumber yang bagus. Jika ada orang lain datang ke sini mencari info ini, tutorial R yang saya gunakan adalah datacamp.com dan coursera.org/course/rprog . Data Camp adalah tutorial interaktif yang fantastis. Kursus Coursera lebih berat pada teori / struktur / nama untuk hal-hal.

DanicaE