Bias dalam pemilihan juri?

14

Seorang teman mewakili klien pada saat naik banding, setelah pengadilan pidana di mana tampaknya pemilihan juri bias secara ras.

Kelompok juri terdiri dari 30 orang, dalam 4 kelompok ras. Jaksa menggunakan tantangan berat untuk menyingkirkan 10 dari orang-orang ini dari kolam. Jumlah orang dan jumlah tantangan aktual di masing-masing kelompok ras adalah:

A: 10, 1
B: 10, 4
C:  6, 4
D:  4, 1
total: 30 in pool, 10 challenges

Terdakwa berasal dari kelompok ras C dan korban dari kelompok ras A dan D, sehingga yang menjadi pertimbangan apriori adalah apakah kelompok C terlalu banyak ditantang dan kelompok A dan D kurang tertantang. Secara hukum (IIUC; IANAL), pembelaan tidak perlu membuktikan bias rasial, tetapi hanya untuk menunjukkan bahwa data tampaknya menunjukkan bias, yang kemudian menempatkan beban pada penuntutan untuk menjelaskan setiap tantangan secara non-rasial.

Apakah analisis berikut ini benar dalam pendekatannya? (Saya pikir perhitungannya baik-baik saja.):

Ada nCr (30,10) = 30.045.015 set berbeda dari 10 anggota kumpulan. Dari set yang berbeda ini, saya hitung bahwa 433.377 set termasuk keduanya (tidak lebih dari 2 anggota grup A dan D digabungkan) dan (tidak kurang dari 4 anggota grup C).

Dengan demikian peluang untuk mencapai tingkat yang diamati dari bias yang menguntungkan kelompok A dan D di atas kelompok C (di mana mendukung berarti tidak termasuk dalam set 10 tantangan) akan menjadi rasio ini, 433/30045 = 1,44%.

Dengan demikian hipotesis nol (tidak ada bias semacam itu) ditolak pada tingkat signifikansi 5%.

Jika analisis ini benar secara metodologi, apa cara yang paling ringkas untuk menggambarkannya di pengadilan, termasuk referensi akademis / profesional (yaitu, bukan Wikipedia)? Sementara argumennya tampak sederhana, bagaimana orang bisa dengan jelas dan ringkas menunjukkan kepada pengadilan bahwa itu benar, bukan shenanigans?

Pembaruan: Pertanyaan ini sedang dipertimbangkan sebagai argumen tersier dalam laporan banding. Mengingat kerumitan teknis (dari sudut pandang pengacara) dari diskusi di sini dan kurangnya preseden hukum, pengacara memilih untuk tidak mengangkatnya, jadi pada titik ini pertanyaannya sebagian besar adalah teori / pendidikan.

Untuk menjawab satu detail: Saya percaya bahwa jumlah tantangan, 10, sudah ditetapkan sebelumnya.

Setelah mempelajari jawaban dan komentar yang bijaksana dan menantang (terima kasih, semuanya!), Tampaknya ada 4 masalah terpisah di sini. Bagi saya, paling tidak, akan sangat membantu untuk mempertimbangkannya secara terpisah (atau mendengar argumen mengapa mereka tidak dapat dipisahkan.)

1) Apakah pertimbangan ras baik terdakwa dan korban, dalam tantangan juri, masalah hukum a priori ? Tujuan dari argumen banding hanyalah untuk menyampaikan keprihatinan yang masuk akal, yang dapat mengarah pada perintah pengadilan bahwa jaksa menyatakan alasan untuk setiap tantangan individu. Bagi saya, ini bukan pertanyaan statistik, melainkan masalah sosial / hukum, yang merupakan pertimbangan pengacara untuk mengajukan atau tidak.

2) Dengan asumsi (1), apakah pilihan saya untuk hipotesis alternatif (secara kualitatif: bias terhadap juri yang mengikuti ras terdakwa, mendukung mereka yang berbagi ras dengan korban) masuk akal, atau apakah itu tidak mungkin post hoc ? Dari sudut pandang awam saya, ini adalah pertanyaan yang paling membingungkan - ya, tentu saja orang tidak akan mengangkatnya jika tidak mengamatinya! Masalahnya, seperti yang saya mengerti, adalah bias seleksi: tes seseorang harus mempertimbangkan bukan hanya kumpulan juri ini tetapi juga semesta dari semua kelompok juri seperti itu, termasuk semua yang mana pihak pertahanan tidak mengamati perbedaan dan oleh karena itu tidak tergoda untuk mengangkat masalah ini. . Bagaimana cara mengatasi ini? (Sebagai contoh, bagaimana tes Andy mengatasi hal ini?) Tampaknya, meskipun saya mungkin salah tentang hal ini, bahwa sebagian besar responden tidak terganggu oleh potensi post-hocTes 1-ekor untuk bias semata-mata terhadap kelompok terdakwa. Bagaimana berbeda secara metodologis untuk secara bersamaan menguji bias untuk kelompok-kelompok korban, dengan asumsi (1)?

3) Jika seseorang menetapkan pilihan saya atas hipotesis alternatif kualitatif sebagaimana dinyatakan dalam (2), lalu apa statistik yang tepat untuk mengujinya? Di sinilah saya paling bingung dengan tanggapan, karena rasio yang saya usulkan tampaknya menjadi analog yang sedikit lebih konservatif dari uji Andy untuk hipotesis alternatif "bias terhadap C" yang lebih sederhana (lebih konservatif karena tes saya juga menghitung semua kasus lebih jauh. di bagian ekor, bukan hanya hitungan yang diamati secara tepat.)

Kedua tes adalah tes penghitungan sederhana, dengan penyebut yang sama (sampel semesta yang sama), dan dengan pembilang yang sesuai dengan frekuensi sampel yang sesuai dengan hipotesis alternatif masing-masing. Jadi @whuber, mengapa tidak identik dengan tes hitung saya seperti pada Andy bahwa itu "dapat didasarkan pada hipotesis nol [sama] dan alternatif [sebagaimana dijelaskan] dan dibenarkan menggunakan lemma Neyman-Pearson"?

4) Jika seseorang menetapkan (2) dan (3), apakah ada rujukan dalam kasus hukum yang akan meyakinkan pengadilan banding yang skeptis? Dari bukti sampai saat ini, mungkin tidak. Juga, pada tahap banding ini tidak ada kesempatan untuk "saksi ahli", jadi referensi adalah segalanya.

probability statistical-significance references bias combinatorics JD March
sumber

Pertanyaan diperbarui (ditambahkan ke) setelah mempelajari jawaban dan komentar.

JD Maret

Terima kasih untuk ringkasan yang luar biasa! Untuk menanggapi poin (3), kekhawatiran saya adalah bahwa tes Anda (jika saya memahaminya dengan benar) mengadopsi hipotesis alternatif yang dimotivasi oleh data itu sendiri. Oleh karena itu tampaknya telah dibangun sebuah posteriori untuk membuat hasilnya tampak sekuat mungkin. Sebuah tes yang didasarkan pada kelas apriori alternatif yang dapat diperkirakan seluas mungkin yang dapat diramalkan , dan dilakukan dengan wilayah penolakan Neyman-Pearson, memiliki fondasi logis yang lebih kuat dan kurang tunduk pada kritik bahwa itu tetap diusulkan setelah melihat data.

Whuber

Terima kasih, @whuber itu adalah kritik yang masuk akal dan membantu - sangat banyak apa yang saya tanyakan sejak awal. Tapi bukankah itu menyebabkan (2) saya gagal, bahkan sebelum (3)? Jika demikian, maka (3) saya tampaknya masih belum terjawab - yaitu apakah ini statistik yang baik jika ada yang ditentukan (2)?

JD

7

Begini cara saya mendekati menjawab pertanyaan Anda menggunakan alat statistik standar.

Di bawah ini adalah hasil analisis probit pada probabilitas ditolak mengingat keanggotaan kelompok juri.

Pertama, seperti inilah bentuk datanya. Saya memiliki 30 pengamatan kelompok dan indikator yang ditolak biner:

. tab group rejected 

           |       rejected
     group |         0          1 |     Total
-----------+----------------------+----------
         A |         9          1 |        10 
         B |         6          4 |        10 
         C |         2          4 |         6 
         D |         3          1 |         4 
-----------+----------------------+----------
     Total |        20         10 |        30

Berikut adalah efek marginal individu serta tes gabungan:

. qui probit rejected ib2.group

. margins rb2.group

Contrasts of adjusted predictions
Model VCE    : OIM

Expression   : Pr(rejected), predict()

------------------------------------------------
             |         df        chi2     P>chi2
-------------+----------------------------------
       group |
   (A vs B)  |          1        2.73     0.0986
   (C vs B)  |          1        1.17     0.2804
   (D vs B)  |          1        0.32     0.5731
      Joint  |          3        8.12     0.0436
------------------------------------------------

--------------------------------------------------------------
             |            Delta-method
             |   Contrast   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
       group |
   (A vs B)  |        -.3    .181659     -.6560451    .0560451
   (C vs B)  |   .2666667   .2470567     -.2175557     .750889
   (D vs B)  |       -.15   .2662236     -.6717886    .3717886
--------------------------------------------------------------

Di sini kami menguji hipotesis individu bahwa perbedaan dalam probabilitas ditolak untuk kelompok A, C, dan D dibandingkan dengan kelompok B adalah nol. Jika semua orang kemungkinan ditolak sebagai kelompok B, ini akan menjadi nol. Bagian terakhir dari keluaran memberi tahu kita bahwa juri kelompok A dan D cenderung ditolak, sedangkan juri kelompok C lebih cenderung ditolak. Perbedaan-perbedaan ini tidak signifikan secara statistik secara individual, meskipun tanda-tanda tersebut sesuai dengan dugaan bias Anda.

Namun, kita dapat menolak hipotesis bersama bahwa ketiga perbedaan semuanya nol pada . $p=0.0436$

Tambahan:

Jika saya menggabungkan kelompok A dan D menjadi satu karena mereka berbagi ras korban, hasil pemeriksaan menjadi lebih kuat dan memiliki simetri yang bagus:

Contrasts of adjusted predictions
Model VCE    : OIM

Expression   : Pr(rejected), predict()

------------------------------------------------
             |         df        chi2     P>chi2
-------------+----------------------------------
      group2 |
 (A+D vs B)  |          1        2.02     0.1553
   (C vs B)  |          1        1.17     0.2804
      Joint  |          2        6.79     0.0336
------------------------------------------------

--------------------------------------------------------------
             |            Delta-method
             |   Contrast   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
      group2 |
 (A+D vs B)  |  -.2571429   .1809595      -.611817    .0975313
   (C vs B)  |   .2666667   .2470568     -.2175557     .750889
--------------------------------------------------------------

Ini juga memungkinkan Fisher tepat untuk memberikan hasil yang kongruen (meskipun masih tidak pada 5%):

 RECODE of |       rejected
     group |         0          1 |     Total
-----------+----------------------+----------
       A+D |        12          2 |        14 
         B |         6          4 |        10 
         C |         2          4 |         6 
-----------+----------------------+----------
     Total |        20         10 |        30 

          Pearson chi2(2) =   5.4857   Pr = 0.064
           Fisher's exact =                 0.060

Dimitriy V. Masterov
sumber

Terima kasih, sangat dihargai! Bisakah Anda membantu saya memahami masalah metodologis di sini? Secara khusus, (1) tes perbandingan tidak diarahkan (IIUC) terlepas dari kekhasan priori , dan (2) alasan untuk menggunakan tes yang membuat asumsi distribusi daripada hanya argumen kombinatorial?

JD

Saya tidak yakin saya mengerti (1). Untuk (2), saya mendapatkan hasil yang sangat mirip dengan model logit, yang membuat asumsi distribusi yang berbeda, sehingga ada beberapa ketahanan. Tidak ada cukup data untuk melakukan sesuatu yang kurang parametrik, meskipun itu mungkin ketidaktahuan saya sendiri di bidang ini.

Dimitriy V. Masterov

1

Re (1). Maksud saya adalah - tampaknya tes Anda adalah 2-tail, sedangkan kekhawatiran a priori akan memungkinkan 1-tail?

JD

1

Suatu aspek dari analisis ini yang membuat saya tidak nyaman adalah bahwa signifikansinya yang nyata (pada level 5%, bagaimanapun juga) tidak hanya disebabkan oleh tantangan yang terjadi pada kelompok C tetapi juga karena kekurangan relatif dari tantangan dalam kelompok A. Yang terakhir tampaknya menjadi tidak relevan: akankah itu dicurigai sebagai apriori ? Peran yang disukai dari kelompok C jelas (dalam mencocokkan kelompok Tergugat), tetapi peran yang disukai untuk kelompok lain - atau bahkan dari (secara hipotetis) ketidakadilan yang jelas antara kelompok-kelompok lain - tampaknya tidak memiliki kaitan dengan klaim Tergugat tentang diskriminasi terhadap mereka berdasarkan kelompok mereka .

Whuber

BTW, tampaknya Anda melakukan analisis kelompok B daripada kelompok C.

whuber

3

Saya akan berpikir bahwa memperkenalkan metode statistik ad hoc akan menjadi tidak jalan dengan pengadilan. Lebih baik menggunakan metode yang "praktik standar". Kalau tidak, Anda mungkin bisa membuktikan kualifikasi Anda untuk mengembangkan metode baru.

Untuk lebih eksplisit, saya tidak berpikir bahwa metode Anda akan memenuhi standar Daubert. Saya juga sangat meragukan bahwa metode Anda memiliki referensi akademis apa pun. Anda mungkin harus menempuh jalur untuk menyewa saksi ahli statistik untuk memperkenalkannya. Itu akan mudah dilawan, saya pikir.

Pertanyaan mendasar di sini kemungkinan adalah: "Apakah tantangan juri terlepas dari pengelompokan ras?"

$\chi^2$

> M <- as.table(cbind(c(9, 6, 2, 3), c(1, 4, 4, 1)))
> dimnames(M) <- list(Group=c("A", "B", "C", "D"), Challenged=c("No", "Yes"))
> M
     Challenged
Group No Yes
    A  9   1
    B  6   4
    C  2   4
    D  3   1

> chisq.test(M)

        Pearson's Chi-squared test

data:  M
X-squared = 5.775, df = 3, p-value = 0.1231

Warning message:
In chisq.test(M) : Chi-squared approximation may be incorrect

Menggunakan uji eksak Fisher memberikan hasil yang serupa:

> fisher.test(M)

        Fisher's Exact Test for Count Data

data:  M
p-value = 0.1167
alternative hypothesis: two.sided

$2\times2$

Interpretasi saya adalah bahwa tidak ada banyak bukti untuk membantah bias rasial.

jvbraun
sumber

1

χ^{2}

$\chi^2$

Terima kasih, @jvbraun, poin Anda tentang metode ad hoc tidak dapat digunakan tampaknya persuasif; meskipun menghitung dan membagi tampaknya tidak terlalu eksentrik bagi saya, jelas orang lain tidak menganggapnya persuasif!

JD

Ini sebenarnya adalah salah satu kasus di mana marjinal ditetapkan, sehingga uji pasti Fisher harus lebih disukai banyak orang. Dalam diskusi Anda tentang Daubert Anda memilikinya agak mundur, setelah Anda memanggil seorang ahli maka mereka tunduk pada gerakan Daubert. (Ironisnya, beberapa orang berpendapat bahwa orang awam yang menyajikan statistik tidak tunduk pada evaluasi seperti yang ditentukan oleh Peraturan 702.) IMO semua argumen yang disodorkan di sini diartikulasikan dengan baik dan tidak akan mungkin dianggap tidak dapat diterima. Saya ragu salah satu teknik statistik ini memiliki yurisprudensi dalam keadaan khusus ini.

Andy W

χ^{2}

$\chi^2$

χ^{2}

$\chi^2$

2 / 2

$2/2$

4 / 6

$4/6$

3

Saya mengajukan pertanyaan serupa sebelumnya (untuk referensi di sini adalah kasus khusus yang saya diskusikan). Pertahanan perlu menunjukkan kasus diskriminasi prima facia dalam tantangan Batson (dengan asumsi hukum pidana AS) - sehingga tes hipotesis mungkin merupakan beban yang lebih besar daripada yang dibutuhkan.

Maka untuk:

$n = 30$
$p = 6$
$k = 4$
$d = 10$

Jawaban Whuber sebelumnya memberikan kemungkinan hasil khusus ini ditentukan oleh distribusi hipergeometrik :

\frac{(\binom{p}{k}) (\binom{n - p}{d - k})}{(\binom{n}{d})}

$\frac{{p \choose k} {n-p \choose d-k} }{{n \choose d}}$

Yang Wolfram-Alpha katakan sama dalam hal ini:

\frac{(\binom{6}{4}) (\binom{30 - 6}{10 - 4})}{(\binom{30}{10})} = \frac{76}{1131} \approx 0.07

$\frac{{6 \choose 4} {30-6 \choose 10-4} }{{30 \choose 10}} = \frac{76}{1131} \approx 0.07$

Sayangnya saya tidak punya referensi selain tautan yang saya berikan - saya kira Anda bisa menggali referensi yang cocok untuk distribusi hypergeometrik dari halaman Wikipedia.

Ini mengabaikan pertanyaan tentang apakah kelompok ras A dan D "kurang ditantang". Saya ragu Anda dapat membuat argumen hukum untuk ini - itu akan menjadi twist aneh pada klausa perlindungan yang sama, Grup khusus ini terlalu terlindungi! , yang menurut saya tidak akan terbang. (Tapi aku bukan pengacara - jadi bawa sebutir garam.)

$30 \choose 10$ $\chi^2$

Saya telah memperbarui beberapa pemikiran saya dalam posting blog . Pos saya khusus untuk Tantangan Batson, jadi tidak jelas apakah Anda mencari situasi lain (pembaruan Anda untuk 1 dan 2 tidak masuk akal dalam konteks Tantangan Batson.)

Saya dapat menemukan satu artikel terkait (tersedia lengkap di tautan):

Gastwirth, JL (2005). Komentar kasus: tes statistik untuk analisis data tentang tantangan yang ditaati: mengklarifikasi standar pembuktian yang diperlukan untuk menetapkan kasus diskriminasi primer di Johnson v. California. Hukum, Probabilitas dan Risiko , 4 (3), 179-185.

Itu memberi saran yang sama untuk menggunakan distribusi hypergeometric. Dalam posting blog saya, saya menunjukkan bagaimana jika Anda mengelompokkan kategori menjadi dua kelompok itu setara dengan tes Exact Fisher.

$k$ $k = 5$ $k = 6$ $n$ $n$ $d$

Jika seseorang mengetahui hukum kasus yang benar-benar menggunakan ini (atau apa pun selain fraksi) saya akan tertarik.

Andy W
sumber

1

Terima kasih, Andy. (1) Teman pengacara saya menganggap sangat dapat diterima / berguna untuk menyatakan bahwa C terlalu banyak ditantang dan A kurang tertantang. (2) Anda mengatakan "statistik uji apa". Saya menemukan itu membingungkan - statistik uji apa yang Anda gunakan ketika Anda menghitung 0,07 menggunakan hypergeometric? Apa yang dilakukan adalah menghitung probabilitas sebagai rasio kasus yang dicurigai dengan total kasus. Demikian juga, itulah yang dilakukan analisis saya, kecuali mendefinisikan kasus tersangka lebih sempit daripada Anda.

JD

@ JonathanMarch - Saya tidak menggunakan statistik uji. Ini adalah probabilitas 4 dari 6 kelas C dipilih (mengingat kondisi lain) secara acak sesuai dengan distribusi hiperometrik. Saya memahami motivasi untuk tes terarah, tetapi ini bukan kasus uji-t yang biasa. Dalam hal ini Anda memiliki distribusi nol kontinu, jadi untuk memberikan nilai-p Anda perlu mendefinisikan alternatif sebagai area. Tidak ada kebutuhan implisit untuk melakukan itu dengan distribusi PMF seperti di sini.

Andy W

1

k = 5

$k = 5$

k = 6

$k = 6$

0.07

$0.07$

1

86 / 1131 \approx 7.6 %

$86/1131\approx 7.6\%$

1

Jonathan, demi keuntunganmu, aku akan memberimu kesulitan (seperti yang dilakukan ahli oposisi). Saya yakin pendekatan Anda tidak valid karena Anda menggunakan statistik ad hoc tanpa alasan teoretis; tampaknya dibangun semata-mata untuk menghasilkan nilai-p kecil. Statistik Andy dapat didasarkan pada hipotesis nol dan alternatif yang ditetapkan dan dibenarkan menggunakan lemma Neyman-Pearson. Statistik Anda tampaknya didasarkan pada pemeriksaan post hoc hasil dan tampaknya tidak sesuai dengan hipotesis alternatif apa pun yang akan ditegaskan sebelum (yaitu, secara independen) dari voir dire .

whuber

0

Jangan lupakan masalah banyak pengujian. Bayangkan 100 pengacara masing-masing mencari alasan untuk mengajukan banding. Semua penolakan juri telah dilakukan dengan membalik koin atau melempar dadu untuk setiap calon juri. Karena itu, tidak ada penolakan yang bias rasial.

Masing-masing dari 100 pengacara sekarang melakukan tes statistik apa pun yang kalian semua sepakati. Sekitar lima dari 100 akan menolak hipotesis nol "tidak bias" dan memiliki dasar untuk naik banding.

Emil Friedman
sumber

IIUC, mereka akan mencari alasan bagi hakim untuk memerintahkan pemeriksaan alasan penolakan masing-masing individu. Apakah benar-benar akan menjadi masalah jika pemeriksaan seperti itu terjadi pada 5 dari 100 kasus?

JD

Bias dalam pemilihan juri?

Jawaban: