Haruskah saya menggunakan uji-t pada data yang sangat miring? Tolong bukti ilmiah?

15

Saya memiliki sampel dari set data yang sangat miring (seperti distribusi eksponensial) tentang partisipasi pengguna (misalnya: jumlah posting), yang memiliki ukuran berbeda (tetapi tidak kurang dari 200) dan saya ingin membandingkan rata-rata mereka. Untuk itu, saya menggunakan dua sampel t-tes tidak berpasangan (dan t-tes dengan faktor Welch, ketika sampel memiliki varian yang berbeda). Seperti yang saya dengar, untuk sampel yang sangat besar, tidak masalah bahwa sampel tidak terdistribusi normal.

Seseorang, meninjau apa yang telah saya lakukan, mengatakan bahwa tes yang saya gunakan tidak cocok untuk data saya. Mereka menyarankan untuk mentransformasi sampel saya sebelum menggunakan uji-t.

Saya seorang pemula, jadi kedengarannya sangat membingungkan bagi saya untuk menjawab pertanyaan penelitian saya dengan "log metrik partisipasi".

Apakah mereka salah? Apakah aku salah? Jika mereka salah, apakah ada buku atau karya ilmiah yang bisa saya kutip / tunjukkan kepada mereka? Jika saya salah, tes mana yang harus saya gunakan?

hypothesis-testing t-test nonparametric mean skewness Milena Araujo
sumber

1

T-test memiliki asumsi distribusi normal csic.cornell.edu/Elrod/t-test/t-test-assumptions.html . Anda mungkin berpikir bahwa distribusi-t yang mendekati normal ketika sampel cukup besar.

rdorlearn

6

Apa arti "bukti ilmiah" dalam konteks ini?

Glen_b -Reinstate Monica

1

Saya pikir asumsinya adalah bahwa semua sarana dari semua sampel yang mungkin dari populasi tertentu harus normal. Jadi, oleh CLT, itu akan berlaku untuk dataset saya juga.

Milena Araujo

1

bukti ilmiah = sesuatu yang relevan secara akademis: buku, makalah, dll

Milena Araujo

Jawaban:

36

Saya tidak akan menyebut 'eksponensial' yang sangat condong. Log-nya jelas condong ke kiri, misalnya, dan momen-miringnya hanya 2.

$n$

a) Pembilang statistik uji harus baik-baik saja: Jika data bersifat eksponensial independen dengan skala umum (dan tidak secara substansial lebih berat dari itu), maka rata-rata mereka terdistribusi secara gamma dengan parameter bentuk sama dengan jumlah pengamatan. Distribusinya terlihat sangat normal untuk parameter bentuk lebih besar dari sekitar 40 atau lebih (tergantung pada seberapa jauh ke ekor Anda membutuhkan akurasi).

Ini mampu menjadi bukti matematis, tetapi matematika bukanlah sains. Anda dapat memeriksanya secara empiris melalui simulasi, tentu saja, tetapi jika Anda salah tentang eksponensial, Anda mungkin perlu sampel yang lebih besar. Ini adalah bagaimana distribusi jumlah sampel (dan karenanya, berarti sampel) dari data eksponensial terlihat ketika n = 40:

masukkan deskripsi gambar di sini

Sangat sedikit miring. Kecenderungan ini berkurang sebagai akar kuadrat dari ukuran sampel. Jadi pada n = 160, itu setengah miring. Di n = 640 itu seperempat condong:

masukkan deskripsi gambar di sini

Bahwa ini simetris efektif dapat dilihat dengan membalikkan tentang rata-rata dan merencanakannya di atas:

masukkan deskripsi gambar di sini

Biru adalah aslinya, merah dibalik. Seperti yang Anda lihat, mereka hampir kebetulan.

-

$n=40$

masukkan deskripsi gambar di sini

$n=500$

-

c) Namun, yang paling penting adalah distribusi seluruh statistik di bawah nol. Normalitas pembilang tidak cukup untuk membuat t-statistik memiliki t-distribusi. Namun, dalam kasus data eksponensial, itu juga tidak banyak masalah:

masukkan deskripsi gambar di sini

$n=40$ $n=500$ $n=500$

Namun, perlu diketahui bahwa untuk data yang benar-benar eksponensial, deviasi standar hanya akan berbeda jika artinya berbeda. Jika anggapan eksponensial adalah kasus, maka di bawah nol, tidak perlu khawatir tentang varian populasi yang berbeda, karena mereka hanya terjadi di bawah alternatif. Jadi uji-sama-varians masih harus baik-baik saja (dalam hal ini perkiraan baik di atas yang Anda lihat dalam histogram bahkan mungkin sedikit lebih baik).

2) Mengambil log mungkin masih memungkinkan Anda untuk memahaminya

$\log\lambda_1\neq\log\lambda_2$ $\lambda_1\neq\lambda_2$

[Jika Anda melakukan tes itu di log, saya akan cenderung menyarankan melakukan tes varians sama dalam kasus itu.]

Jadi - dengan intervensi hanya mungkin satu atau dua kalimat membenarkan hubungan, mirip dengan apa yang saya miliki di atas - Anda harus dapat menulis kesimpulan Anda bukan tentang log dari metrik partisipasi, tetapi tentang metrik partisipasi itu sendiri.

3) Ada banyak hal lain yang dapat Anda lakukan!

a) Anda dapat melakukan tes yang sesuai untuk data eksponensial. Sangat mudah untuk mendapatkan tes berbasis rasio kemungkinan. Seperti yang terjadi, untuk data eksponensial Anda mendapatkan uji F sampel kecil (berdasarkan rasio rata-rata) untuk situasi ini dalam kasus berekor satu; LRT dua ekor umumnya tidak memiliki proporsi yang sama di setiap ekor untuk ukuran sampel yang kecil. (Ini seharusnya memiliki kekuatan yang lebih baik daripada uji-t, tetapi kekuatan untuk uji-t harus cukup masuk akal, dan saya berharap tidak akan ada banyak perbedaan pada ukuran sampel Anda.)

b) Anda dapat melakukan uji permutasi - bahkan mendasarkannya pada uji-t jika Anda mau. Jadi satu-satunya hal yang berubah adalah perhitungan nilai-p. Atau Anda mungkin melakukan beberapa tes resampling lain seperti tes berbasis bootstrap. Ini harus memiliki kekuatan yang baik, meskipun sebagian akan tergantung pada statistik uji apa yang Anda pilih relatif terhadap distribusi yang Anda miliki.

c) Anda dapat melakukan tes nonparametrik berbasis peringkat (seperti Wilcoxon-Mann-Whitney). Jika Anda berasumsi bahwa jika distribusi berbeda, maka mereka hanya berbeda oleh faktor skala (sesuai untuk berbagai distribusi miring termasuk eksponensial), maka Anda bahkan dapat memperoleh interval kepercayaan untuk rasio parameter skala.

[Untuk tujuan itu, saya sarankan bekerja pada skala log (pergeseran lokasi pada log menjadi log dari pergeseran skala). Itu tidak akan mengubah nilai-p, tetapi itu akan memungkinkan Anda untuk secara eksponensial estimasi titik dan batas CI untuk mendapatkan interval untuk pergeseran skala.]

Ini juga seharusnya cenderung memiliki kekuatan yang cukup baik jika Anda berada dalam situasi eksponensial, tetapi kemungkinan tidak sebagus menggunakan uji-t.

Referensi yang mempertimbangkan serangkaian kasus yang lebih luas untuk alternatif pergeseran lokasi (misalnya dengan varians dan kemiringan kemiringan di bawah nol, misalnya) adalah

Fagerland, MW dan L. Sandvik (2009),
"Kinerja lima tes lokasi dua sampel untuk distribusi miring dengan varians yang tidak sama,"
Percobaan Klinis Kontemporer , 30 , 490-496

Biasanya cenderung merekomendasikan Welch U-test (salah satu dari beberapa tes yang dipertimbangkan oleh Welch dan satu-satunya yang mereka uji). Jika Anda tidak menggunakan statistik Welch yang persis sama, rekomendasi mungkin agak beragam (walaupun mungkin tidak banyak). [Perhatikan bahwa jika distribusi Anda eksponensial, Anda tertarik dengan alternatif skala kecuali Anda mengambil log ... dalam hal ini Anda tidak akan memiliki varian yang tidak sama.]

Glen_b -Reinstate Monica
sumber

4

Jawaban bagus! Saya benar-benar terpana dengan banyaknya informasi yang Anda kemas dalam satu pos

Christian Sauer

@ Glen_b, ini jawaban yang luar biasa! Terima kasih banyak. Satu pertanyaan lagi: sampel saya berasal dari dataset yang sama. Saya ingin membandingkan sampel pengguna dengan karakteristik X dan pengguna dengan karakteristik Y. Sampel untuk pengguna X sekitar ~ 500 dan sampel untuk pengguna Y sekitar ~ 10.000. Ada perbedaan besar dalam ukuran, tetapi tampaknya tidak memiliki perbedaan besar dalam bentuknya (melihat plot kerapatan dan probabilitas). Apakah akan menjadi masalah jika menggunakan uji-t?

Milena Araujo

Ketika Anda mengatakan "perbedaan besar dalam ukuran" apakah Anda berbicara tentang ukuran sampel (10.000 vs 500) atau dalam nilai-nilai khas dalam setiap kelompok? (Kebetulan, apakah ini kontinu atau diskrit? Seberapa kecil nilai minimum tipikal untuk jenis data ini? Apakah log berbentuk serupa - yaitu apakah itu hanya pergeseran skala yang sedang kami pertimbangkan?)

Glen_b -Reinstate Monica

1

Anda mungkin lebih baik dengan tabel untuk data seperti itu. Informasi penting adalah bahwa itu bukan hanya diskrit tetapi hampir semua nilai berada di beberapa pertanyaan terendah. Jika Anda membuat plot histogram, plot tanpa goyangan, dan pastikan semua nilai rendah terpisah (bilah untuk masing-masing 0, 1, 2, tidak mengkombinasikannya). Lebih baik untuk memotong kanan dan menyebar lebih banyak ke kiri (di mana hampir semua data), selama Anda membuat jelas ada lebih banyak ke kanan jika Anda memotong. Sertakan informasi tentang apa yang Anda ukur dan apa yang ingin Anda capai ... (

ctd

1

@ScottH bagian 1.c dari jawaban saya membahas ini secara eksplisit dan melihat seberapa penting dalam kasus yang sedang dibahas (kira-kira distribusi eksponensial pada ukuran sampel yang serupa)

Glen_b -Reinstate Monica