Bisakah saya mempercayai hasil signifikan dari uji-t jika ukuran sampel kecil?

17

Jika hasil uji t satu sisi saya signifikan tetapi ukuran sampel kecil (mis. Di bawah 20 atau lebih), dapatkah saya tetap mempercayai hasil ini? Jika tidak, bagaimana saya harus menangani dan / atau menafsirkan hasil ini?

Eric
sumber
8
Hanya komentar, saya tidak ingin menambahkan komentar indah di bawah ini; Anda tidak mempercayai hasil uji-t, Anda mempercayai prosedur itu sendiri. Hasil individual benar atau salah, tetapi tanpa investigasi lebih lanjut, Anda tidak akan pernah tahu yang mana. Uji-t dalam metodologi Fisher atau metodologi Pearson dan Neyman dapat dipercaya jika asumsi tersebut dipenuhi. Jika Anda menetapkan maka itu akan menipu Anda, setelah pengulangan tanpa batas, tidak lebih dari 5% dari waktu, mungkin sedikit lebih sedikit. Pertanyaan yang harus Anda tanyakan adalah "apakah asumsi itu dipenuhi?" α<.05
Dave Harris

Jawaban:

15

Secara teori jika semua asumsi uji-t itu benar maka tidak ada masalah dengan ukuran sampel yang kecil.

Dalam praktiknya ada beberapa asumsi yang tidak terlalu benar yang bisa kita hindari untuk ukuran sampel besar tetapi mereka dapat menyebabkan masalah untuk ukuran sampel kecil. Apakah Anda tahu jika distribusi yang mendasarinya terdistribusi normal? Apakah semua sampel independen dan terdistribusi secara identik?

Jika Anda meragukan validitas tes maka alternatif yang dapat Anda gunakan adalah bootstrap. Bootstrapping melibatkan resampling dari sampel Anda untuk melihat seberapa sering hipotesis nol benar atau salah. Mungkin hipotesis nol Anda adalah dan nilai-p Anda adalah 0,05 tetapi bootstrap menunjukkan bahwa rata-rata sampel kurang dari nol 10% dari waktu. Ini akan menunjukkan bahwa itu adalah kebetulan yang menyebabkan nilai-p 0,05 dan Anda harus kurang yakin bahwa hipotesis nol salah.μ<0

Hugh
sumber
1
Misalnya, jika Anda tahu bahwa distribusi yang mendasarinya kira-kira merupakan distribusi normal dan semua 10 sampel Anda kurang dari nilai tertentu, maka jelas kemungkinan populasi berarti lebih dari nilai itu paling banyak satu dari 2 ^ 10, atau satu dari seribu. Ini jelas peluang 1 dalam 2 ^ 10 bahwa semua sepuluh sampel dari populasi yang berdistribusi normal akan berada di sisi yang sama dari rata-rata. Masalahnya adalah bahwa Anda akan mendapatkan hasil yang dapat dipercaya, tetapi mereka akan sangat lemah - seperti "tinggi rata-rata pria dewasa hampir pasti antara 5 dan 7 kaki".
David Schwartz
Terima kasih banyak atas penjelasan dan pendekatan alternatifnya. Saya sangat menghargai mereka! Terimakasih banyak!
Eric
Saya tidak mendapatkan saran bootstrap Anda. Jika Anda melakukan sampel ulang dari sampel (yang memiliki p <0,05) maka Anda akan mengharapkan sebagian besar sampel bootstrap memiliki hasil yang signifikan, mungkin sekitar 95%, bukan 5 atau 10%. Bisakah Anda jelaskan? Cc ke @Eric.
Amuba kata Reinstate Monica
3
Sebagai komentar yang lebih umum, bootstrap bekerja dengan baik dalam sampel besar tetapi dengan sampel kecil cakupannya mungkin sedikit berbeda dari nominal. Juga, dengan ukuran sampel yang sangat rendah, kekuatannya rendah. Jadi tidak selalu benar bahwa "tes bootstrap" selalu lebih unggul daripada uji-t.
Amoeba berkata Reinstate Monica
3
@amoeba Saya sangat suka gaya koreksi Anda. Anda tidak hanya memberi tahu saya apa yang benar / salah, Anda menunjukkan konsekuensi aneh dari ide-ide saya dan membuat saya memikirkan kembali jawaban saya dan memahami sumber kesalahan saya. Jadi terimakasih untuk itu! Di masa lalu Whuber telah melakukan ini padaku juga
Hugh
21

Anda jarang harus mempercayai hasil yang signifikan. Anda tidak mengatakan mengapa Anda menggunakan tes satu sisi dan bukan tes dua sisi, jadi semoga Anda memiliki alasan yang baik untuk melakukannya selain berjuang untuk dapat mengklaim hasil yang signifikan secara statistik!

Mengesampingkan itu, pertimbangkan hal berikut dari hal. 261 dari Sauro, J., & Lewis, JR (2016). Mengkuantifikasi Pengalaman Pengguna: Statistik Praktis untuk Penelitian Pengguna, 2nd 2nd .. Cambridge, MA: Morgan-Kaufmann.


Cara Ronald Fisher merekomendasikan penggunaan nilai-p

Ketika Karl Pearson adalah orang tua statistik dan Ronald Fisher adalah pendatang baru, Pearson, yang tampaknya terancam oleh gagasan Fisher dan kemampuan matematika, menggunakan pengaruhnya untuk mencegah Fisher dari penerbitan di jurnal statistik utama waktu itu, Biometrika dan Jurnal. dari Royal Statistics Society. Akibatnya, Fisher menerbitkan idenya di berbagai tempat lain seperti jurnal pertanian dan meteorologi, termasuk beberapa makalah untuk Prosiding Masyarakat untuk Penelitian Psikis. Di salah satu makalah untuk jurnal yang terakhir ini dia menyebutkan konvensi menetapkan apa yang sekarang kita sebut kesalahan Tipe I (alpha) yang dapat diterima menjadi 0,05 dan, secara kritis, juga menyebutkan pentingnya reproduksibilitas ketika menemukan hasil signifikan yang tidak terduga:

Pengamatan dinilai penting, jika jarang diproduksi, dengan tidak adanya penyebab nyata dari jenis yang kita cari. Ini adalah praktik umum untuk menilai hasil yang signifikan, jika sedemikian besarnya sehingga akan diproduksi secara kebetulan tidak lebih sering dari sekali dalam dua puluh percobaan. Ini adalah tingkat signifikansi yang sewenang-wenang, tetapi nyaman, bagi penyelidik praktis, tetapi itu tidak berarti bahwa ia membiarkan dirinya ditipu sekali dalam setiap dua puluh percobaan. Tes signifikansi hanya memberi tahu dia apa yang harus diabaikan, yaitu, semua eksperimen yang hasilnya tidak signifikan diperoleh. Dia seharusnya hanya mengklaim bahwa suatu fenomena dapat dibuktikan secara eksperimental ketika dia tahu bagaimana merancang suatu eksperimen sehingga jarang gagal memberikan hasil yang signifikan. Karena itu, hasil signifikan terisolasi yang dia tidak tahu bagaimana mereproduksi dibiarkan dalam penangguhan sambil menunggu penyelidikan lebih lanjut. (Fisher, 1929, hlm. 191)

Referensi

Fisher, RA (1929). Metode statistik dalam penelitian psikis. Prosiding Masyarakat untuk Penelitian Psikis, 39, 189-192.

Jim Lewis
sumber
2
Fisher juga menerbitkan beberapa makalah penting yang menyesali estimasi kemungkinan maksimum dalam The Annals of Eugenics. Metodenya sering lebih baik daripada metode momen yang digunakan Karl Pearson. Fisher menyebut metodenya inferensi fidusia. Itu kemudian diformalkan oleh Jerzy Neyman dan Egon Pearson (putra Karl Pearson).
Michael R. Chernick
3
Neyman dan Pearson tidak memformalkan inferensi fiducial Fisher. Mereka mengembangkan metode alternatif.
Michael Lew - mengembalikan Monica
5
Pada zaman Fisher, "signifikan" berarti bahwa itu menandakan sesuatu, bukan bahwa itu penting.
David Lane
1
Terima kasih banyak atas informasi yang sangat detail! Ini sangat membantu saya!
Eric
16

Bayangkan diri Anda berada dalam situasi di mana Anda melakukan banyak tes serupa, dalam serangkaian keadaan di mana sebagian kecil dari nol itu benar.

t

(1β)β

nMnM

Berapa proporsi penolakan Anda yang akan "benar"?

ntα+n(1-t)(1-β)
n(1-t)(1-β)

(1-t)(1-β)tα+(1-t)(1-β)

tαtα+(1-t)(1-β)

(1-t)(1-β)tα

1-βα (yaitu jika Anda tidak memiliki daya yang cukup tinggi), banyak penolakan kami adalah kesalahan!

Jadi ketika ukuran sampel Anda kecil (dan karenanya daya rendah), jika sebagian kecil dari nol kami benar, kami akan sering membuat kesalahan ketika kami menolak.

Situasinya tidak jauh lebih baik jika hampir semua nol kita benar-benar palsu - sementara sebagian besar penolakan kita adalah benar (sepele, karena efek kecil masih sangat salah), jika daya tidak tinggi, sebagian besar dari mereka penolakan akan menjadi "ke arah yang salah" - kita akan menyimpulkan bahwa null itu salah cukup sering karena kebetulan sampel ternyata berada di sisi yang salah (ini mungkin salah satu argumen untuk menggunakan tes satu sisi - ketika tes satu sisi membuat akal - untuk setidaknya menghindari penolakan yang tidak masuk akal jika ukuran sampel besar sulit didapat).

Kita dapat melihat bahwa ukuran sampel yang kecil tentu bisa menjadi masalah.

[Proporsi penolakan yang salah ini disebut tingkat penemuan palsu ]


Jika Anda memiliki gagasan tentang kemungkinan ukuran efek, Anda berada dalam posisi yang lebih baik untuk menilai berapa ukuran sampel yang memadai. Dengan efek yang diantisipasi besar, penolakan dengan ukuran sampel yang kecil tidak perlu menjadi perhatian utama.

Glen_b -Reinstate Monica
sumber
Terima kasih banyak! Itu poin yang bisa saya lewatkan dengan sangat mudah. Terima kasih banyak untuk pin yang menunjuk itu!
Eric
1
Kerja bagus. Ini bisa menjadi jawaban yang diterima.
Richard Hardy
@Eric jawaban aslinya agak kacau di tengah; Saya telah memperbaikinya.
Glen_b -Reinstate Monica
9

Beberapa karya asli Gosset (alias Student), yang ia kembangkan tes t, melibatkan sampel ragi n = 4 dan 5. Tes ini dirancang khusus untuk sampel yang sangat kecil. Kalau tidak, perkiraan normal akan baik-baik saja. Yang mengatakan, Gosset melakukan eksperimen yang sangat hati-hati, terkontrol pada data yang dia pahami dengan baik. Ada batasan untuk beberapa hal yang harus diuji oleh sebuah tempat pembuatan bir, dan Gosset menghabiskan masa kerjanya di Guinness. Dia tahu datanya.

Saya agak curiga dengan penekanan Anda pada pengujian satu sisi. Logika pengujian adalah sama apa pun hipotesisnya, tetapi saya telah melihat orang-orang pergi dengan tes satu sisi yang signifikan ketika dua sisi itu tidak signifikan.

Inilah yang disiratkan oleh uji satu sisi (atas). Anda menguji bahwa rata-rata adalah 0. Anda melakukan matematika dan siap untuk menolak ketika T> 2.5. Anda menjalankan eksperimen dan mengamati bahwa T = -50.000. Anda berkata, "phhhhht", dan hidup terus berjalan. Kecuali secara fisik tidak mungkin untuk statistik uji tenggelam jauh di bawah nilai parameter yang dihipotesiskan, dan kecuali Anda tidak akan pernah mengambil keputusan jika statistik pengujian berjalan di arah yang berlawanan dari yang Anda harapkan, Anda harus menggunakan tes dua sisi.

Placidia
sumber
6

Hal utama yang perlu Anda khawatirkan adalah kekuatan ujian Anda. Secara khusus, Anda mungkin ingin melakukan analisis kekuatan post-hoc untuk menentukan seberapa besar kemungkinan Anda, mengingat ukuran sampel Anda, untuk mengidentifikasi efek signifikan nyata dari ukuran yang masuk akal. Jika efek khasnya sangat besar, n dari 8 bisa benar-benar memadai (seperti halnya banyak eksperimen dalam biologi molekuler). Namun, jika efek yang Anda minati biasanya halus (seperti dalam banyak eksperimen psikologi sosial), n dari ribuan mungkin masih kurang bertenaga.

Ini penting karena tes underpowered dapat memberikan hasil yang sangat menyesatkan. Misalnya, jika pengujian Anda kurang bertenaga, bahkan jika Anda menemukan hasil yang signifikan, Anda memiliki kemungkinan yang relatif tinggi untuk membuat apa yang Andrew Gelman sebut sebagai kesalahan "Tipe S", yaitu, ada efek nyata tetapi dalam arah yang berlawanan, atau kesalahan "Tipe M", yaitu, ada efek nyata tetapi besaran sebenarnya jauh lebih lemah dari apa yang diperkirakan dari data.

Gelman dan Carlin menulis makalah yang berguna tentang melakukan analisis kekuatan post-hoc yang saya pikir berlaku dalam kasus Anda. Yang penting, mereka merekomendasikan menggunakan data independen (yaitu, bukan data yang Anda uji, tetapi ulasan, pemodelan, hasil percobaan serupa, dll.) Untuk memperkirakan ukuran efek sebenarnya yang masuk akal. Dengan melakukan analisis daya menggunakan perkiraan ukuran efek benar yang masuk akal dan membandingkan dengan hasil Anda, Anda dapat menentukan probabilitas membuat kesalahan Tipe S dan "rasio berlebihan" yang khas, dan dengan demikian mendapatkan pemahaman yang lebih baik tentang seberapa kuat bukti Anda sebenarnya.

Patrick B.
sumber
4

Orang bisa mengatakan bahwa seluruh poin signifikansi statistik adalah untuk menjawab pertanyaan "bisakah saya mempercayai hasil ini, mengingat ukuran sampel?". Dengan kata lain, intinya adalah untuk mengontrol fakta bahwa dengan ukuran sampel kecil, Anda bisa mendapatkan cacing, ketika tidak ada efek nyata. Signifikansi statistik, yaitu nilai-p, adalah jawaban tepat untuk pertanyaan, "jika tidak ada efek nyata, seberapa besar kemungkinan saya akan mendapatkan kebetulan sebesar ini?". Jika itu sangat tidak mungkin, itu menunjukkan bahwa itu bukan kebetulan.

Jadi jawabannya adalah "ya", jika nilai-p rendah, dan jika Anda telah mengikuti prosedur statistik yang benar dan memenuhi asumsi yang relevan, maka ya, itu adalah bukti yang baik, dan memiliki bobot yang sama seperti jika Anda ingin mendapatkan nilai p yang sama dengan ukuran sampel yang sangat besar.

Denziloe
sumber