Apakah Anda menandai data ini sebagai penipuan?

Misalkan Anda telah diberi beberapa data dari rancangan acak kelompok dengan 4 kali pengulangan dan 23 kali perawatan. Setelah pemeriksaan awal data, Anda perhatikan bahwa untuk 8 perawatan semua pengulangan adalah identik, yang jelas salah. Setelah melaporkan masalah, Anda diberi tahu bahwa itu karena kebingungan dari orang yang bertanggung jawab atas data tersebut, yang nantinya akan mengirimkan kepada Anda "versi yang benar" dari data tersebut. Versi data yang dikoreksi akan menjadi seperti ini:

Nilai Rep pengobatan 
   A 1 5727.000
   A 2 5400.000
   A 3 5800.000
   A 4 5473.000
   B 1 4618.000
   B 2 4844.000
   B 3 4966.000
   B 4 4496.000 
...
   Z 1 4329.345
   Z 2 4597.275
   Z 3 4833.246
   Z 4 4199.098

Hal pertama yang akan menarik perhatian saya dalam data tersebut adalah fakta bahwa hanya delapan perawatan yang masalahnya dilaporkan tidak memiliki fraksi desimal (semua perawatan yang tersisa baik-baik saja). Jadi saya akan memutuskan untuk memberi mereka melihat lebih dekat dan mengurangi setiap pengamatan dari mean sampel dalam perawatan, menemukan sesuatu seperti

Nilai Rep Pengobatan Delta
   A 1 5727.000 +127
   A 2 5400.000 -200
   A 3 5800.000 +200
   A 4 5473.000 -127
   B 1 4618.000 -113
   B 2 4844.000 +113
   B 3 4966.000 +235
   B 4 4496.000 -235
...
   Z 1 4329.345 ...
   Z 2 4597.275 ...
   Z 3 4833.246 ...
   Z 4 4199.098 ...

Setelah melihat bahwa perbedaannya simetris di sekitar rata-rata, saya akan segera memanggil orang yang bertanggung jawab atas proyek tersebut, dan melaporkan masalahnya. Tentu saja, saya juga akan menyerah bekerja pada proyek itu.

Meskipun buktinya cukup meyakinkan, akan lebih baik untuk melampirkan probabilitas pada laporan, hanya untuk memberikan gambaran seberapa buruk data itu terlihat. Jadi saya akan memikirkan sesuatu seperti yang berikut dan saya ingin tahu apakah akan ada kesalahan dalam pemikiran saya:

Katakanlah jika data itu sah, akan masuk akal untuk menganggap normalitas untuk data semacam itu, berdasarkan pengalaman dari analisis sebelumnya dari data semacam itu.

Jadi, mari kita mendefinisikan 4 variabel acak normal untuk masing-masing dari empat repetisi dalam setiap perawatan: Simetri (dengan toleransi 0,5) yang diamati di atas dapat dinyatakan sebagai peristiwa: Masih ada padanan lainnya cara di mana sampel dapat diatur untuk memenuhi simetri (X1 + X3 - X4 - X2; X1 + X4 - X2 - X3) sehingga probabilitas simetri (S) akan menjadi:

X_{i} \sim N (μ_{X}, σ_{X}); i = 1, 2, 3, 4

$X_i\sim N(\mu_X,~\sigma_X); ~~~i = 1, 2, 3, 4$

A : - 0.5 < X_{1} + X_{2} - X_{3} - X_{4} < 0.5

$A: -0.5 < X_1 + X_2 - X_3 - X_4 < 0.5$

P (S) \leq 3 * P (A)

$P(S) \leq 3 * P(A)$

Ketidaksetaraan itu hanya karena saya tidak ingin menghapus persimpangan.

Jika kita mendefinisikan variabel acak Y sebagai berikut:

Y = X_{1} + X_{2} - X_{3} - X_{4}

$Y = X_1 + X_2 - X_3 - X_4$

Maka dari itu:

Y \sim N (0, 2 * σ_{X})

$Y\sim N(0,~2*\sigma_X)$

Katakanlah dari residual model dengan data itu, saya memperkirakan sebagai 350. Dari itu, saya akan menggunakan CDF y untuk menghitung probabilitas Y jatuh antara -0,5 dan 0,5, yang akan menjadi P (A ) = 0,0005699175 $\sigma_X$

pnorm(0.5, sd = 700, lower = TRUE) - pnorm(-0.5, sd = 700, lower = TRUE)

Dengan demikian, probabilitas S adalah:

P (S) \leq 0.001709752

$P(S) \leq 0.001709752$

Karena tidak akan ada efek blok yang jelas dan data akan berasal dari percobaan acak, akan masuk akal untuk mengasumsikan independensi statistik. Mari kita anggap bahwa dari 8 perawatan yang dicurigai, 3 memiliki simetri ini. Kemudian, dengan asumsi independensi, kita dapat menghitung probabilitas peristiwa semacam itu (sebut saja D) dari distribusi binomial:

D: 3 dari 8 perawatan memiliki simetri pengamatan di sekitar mean sampel.

P (D) \leq (\binom{8}{3}) \cdot p^{3} (1 - p)^{5}

$P(D) \leq {8\choose3} \cdot p^3(1-p)^5$

P (D) \leq 2.7 \cdot 10^{- 7}

$P(D) \leq 2.7 \cdot 10^{-7}$

Saya bukan ahli statistik, jadi saya ingin tahu apakah ada kesalahan dalam alasan itu dan apakah Anda juga akan melaporkan data sebagai penipuan.

probability anova dataset fraud Teo
sumber

Masalah etika sangat penting di sini. Saya setuju dengan informasi ini terkait data yang sangat mencurigakan dan melaporkannya; Saya tidak akan pernah menyebut "penipuan" karena itu untuk orang lain untuk menentukan setelah penyelidikan dan di beberapa negara dapat membuat Anda terbuka untuk tindakan hukum atau ancamannya. Adapun untuk melampirkan perkiraan probabilitas, saya akan mundur dari itu. Kasusnya jelas (er) tanpanya dan hampir setiap asumsi atau perkiraan terbuka untuk ditentang.

Nick Cox

Setuju sepenuhnya dengan Nick Cox. Perhatikan bahwa pola data APAPUN tertentu sangat tidak mungkin, sehingga estimasi probabilitas hanya akan membingungkan apa yang sebaliknya merupakan kasus data tidak dapat digunakan yang benar-benar jelas dan menarik (saya akan menggunakan istilah itu atau sesuatu yang serupa daripada curang).

zbicyclist

Setiap pola spesifik sangat tidak mungkin terjadi secara acak, tetapi tidak semua sama-sama cenderung diproduksi secara sadar oleh manusia. Karena tidak ada model universal tentang bagaimana seseorang akan 'membuat' data seperti itu, tidak ada banyak poin dalam perhitungan probabilitas. Anda mungkin mempertimbangkan penggambaran grafis dari simetri data. A untuk tujuan demonstrasi B untuk memberi orang perasaan betapa ikan ini berbau busuk.

Bernhard

Jawaban yang sangat membantu! Sebenarnya, saya tidak bisa mengetahui niat mereka hanya dari data ini. Satu-satunya hal yang tidak diragukan lagi adalah bahwa data ini tidak dapat digunakan (saya menyukai istilah itu).

Teo

Apakah Anda menandai data ini sebagai penipuan?

Jawaban: