Bagaimana menginterpretasikan interval kepercayaan dari perbedaan rata-rata dalam satu sampel T-test?

21

SPSS memberikan output "interval kepercayaan dari perbedaan berarti." Saya telah membaca di beberapa tempat bahwa itu berarti "95 kali dari 100, perbedaan rata-rata sampel kami akan berada di antara batas-batas ini" Saya menemukan ini tidak jelas. Adakah yang bisa menyarankan kata-kata yang lebih jelas untuk menjelaskan "interval kepercayaan perbedaan dalam cara"? Output ini muncul dalam konteks uji-satu sampel.

Anne
sumber
1
Apa intepretasi Anda?
mpiktas
1
Perhatikan bahwa tidak ada yang istimewa tentang ini menjadi proporsi: CI untuk estimasi apa pun akan ditafsirkan dengan cara yang sama. (Namun, prosedur yang berbeda dapat digunakan untuk membangun CI, tergantung pada apa yang diperkirakan.) Akibatnya, pertanyaan ini persis sama dengan pertanyaan sebelumnya yang meminta interpretasi CI.
whuber

Jawaban:

13

Ini bukan hal yang mudah, bahkan untuk ahli statistik yang dihormati. Lihatlah satu upaya terbaru oleh Nate Silver :

... jika saya meminta Anda untuk memberi tahu saya seberapa sering perjalanan Anda membutuhkan waktu 10 menit lebih lama dari rata-rata - sesuatu yang memerlukan beberapa versi interval kepercayaan - Anda harus memikirkannya sedikit, ...

(dari blog FiveThirtyEight di New York Times, 9/29/10.) Ini bukan interval kepercayaan diri. Bergantung pada bagaimana Anda menafsirkannya, itu adalah interval toleransi atau interval prediksi. (Kalau tidak, tidak ada masalah dengan diskusi Silver yang sangat baik tentang estimasi probabilitas; ini adalah bacaan yang bagus.) Banyak situs web lain (terutama yang dengan fokus investasi) juga mengacaukan interval kepercayaan dengan jenis interval lainnya.

The New York Times telah melakukan upaya untuk memperjelas arti dari hasil statistik yang dihasilkan dan dilaporkannya. Hasil cetak halus di bawah banyak jajak pendapat mencakup sesuatu seperti ini:

Secara teori, dalam 19 kasus dari 20, hasil berdasarkan sampel semua orang dewasa akan berbeda tidak lebih dari tiga poin persentase di kedua arah dari apa yang akan diperoleh dengan berusaha mewawancarai semua orang dewasa Amerika.

( misalnya , Bagaimana Polling Dilakukan , 5/2/2011.)

Sedikit bertele-tele, mungkin, tetapi jelas dan akurat: pernyataan ini mencirikan variabilitas dari distribusi sampling dari hasil polling. Itu semakin dekat dengan gagasan interval kepercayaan, tetapi tidak cukup di sana. Orang mungkin mempertimbangkan menggunakan kata-kata seperti itu sebagai pengganti interval kepercayaan dalam banyak kasus.

Ketika ada begitu banyak potensi kebingungan di internet, akan bermanfaat untuk beralih ke sumber-sumber resmi. Salah satu favorit saya adalah teks yang dihormati waktu, Statistik , Freedman, Pisani, & Purves . Sekarang dalam edisi keempat, telah digunakan di universitas selama lebih dari 30 tahun dan terkenal karena penjelasan yang jelas dan jelas dan fokus pada metode klasik "sering". Mari kita lihat apa yang dikatakan tentang menafsirkan interval kepercayaan:

Tingkat kepercayaan 95% mengatakan sesuatu tentang prosedur pengambilan sampel ...

[di hlm. 384; semua kutipan berasal dari edisi ketiga (1998)]. Itu berlanjut,

Jika sampel keluar secara berbeda, interval kepercayaan akan berbeda. ... Untuk sekitar 95% dari semua sampel, interval ... mencakup persentase populasi, dan untuk 5% lainnya tidak.

[hal. 384]. Teks ini mengatakan lebih banyak tentang interval kepercayaan, tetapi ini cukup untuk membantu: pendekatannya adalah memindahkan fokus diskusi ke sampel, sekaligus membawa ketegasan dan kejelasan pada pernyataan. Karena itu kami mungkin mencoba hal yang sama dalam pelaporan kami sendiri. Sebagai contoh, mari kita terapkan pendekatan ini untuk menggambarkan interval kepercayaan [34%, 40%] di sekitar perbedaan persentase yang dilaporkan dalam eksperimen hipotetis:

"Eksperimen ini menggunakan sampel subyek yang dipilih secara acak dan pemilihan kontrol secara acak. Kami melaporkan interval kepercayaan dari 34% hingga 40% untuk perbedaannya. Ini mengukur keandalan percobaan: jika pilihan subjek dan kontrol berbeda. , interval kepercayaan ini akan berubah untuk mencerminkan hasil untuk mata pelajaran dan kontrol yang dipilih. Dalam 95% dari kasus tersebut, interval kepercayaan akan mencakup perbedaan nyata (antara semua subjek dan semua kontrol) dan dalam 5% kasus lainnya tidak akan Karena itu, kemungkinan - tetapi tidak pasti - bahwa interval kepercayaan ini mencakup perbedaan sebenarnya: yaitu, kami percaya perbedaan sebenarnya adalah antara 34% dan 40%. "

(Ini adalah teks saya, yang pasti dapat diperbaiki: Saya mengundang editor untuk mengerjakannya.)

Pernyataan panjang seperti ini agak sulit digunakan. Dalam laporan aktual sebagian besar konteks - pengambilan sampel acak, subjek dan kontrol, kemungkinan variabilitas - sudah ditetapkan, membuat setengah dari pernyataan sebelumnya tidak diperlukan. Ketika laporan menyatakan bahwa ada variabilitas sampling dan menunjukkan model probabilitas untuk hasil sampel, biasanya tidak sulit untuk menjelaskan interval kepercayaan (atau interval acak lainnya) sejelas dan seketat yang dibutuhkan audiens.

whuber
sumber
Terima kasih Whuber, saya mengerti interval kepercayaan untuk maksud yang cukup baik. Ini adalah CI untuk perbedaan cara (antara sampel dan pop) di mana saya menjadi bingung.
Anne
@ Anne Apa yang Anda maksud? Baik pertanyaan Anda maupun balasannya tidak merujuk pada perbedaan antara rata-rata sampel dan rata-rata populasi, sejauh yang saya tahu. Pertanyaan Anda tampaknya merujuk pada perbedaan antara dua rata-rata sampel (mungkin antara rata-rata kelompok subjek eksperimen dan kelompok kontrol).
whuber
Contoh yang saya pikirkan adalah di mana Anda melihat perbedaan antara rata-rata sampel dan populasi. Dalam hal ini, apa sebenarnya arti CI antara sampel dan pop, artinya. Kami telah menggunakan mean sampel untuk memperkirakan standar deviasi pop dan dengan demikian dari itu kami memperkirakan CI di sekitar estimasi rata-rata. Perbedaan rata-rata bukanlah perbedaan antara rata-rata pop yang kami sediakan dan rata-rata sampel. Jadi apa itu?
Anne
1
@Anne Apakah "populasi rata-rata" adalah mean hipotetis, tidak diketahui dari populasi yang dijadikan sampel atau apakah itu rata-rata yang diukur dari populasi lain yang telah diambil sampelnya secara mendalam? Juga, dalam arti apa Anda menggunakan "mean sampel" untuk memperkirakan standar deviasi populasi ? Apakah itu mungkin salah ketik?
whuber
2
@ terima kasih Baris Anda "CI dihitung untuk 95% dari semua sampel (yaitu, 95% dari semua replikasi yang mungkin) akan mencakup perbedaan yang sebenarnya." bagi saya lebih jelas daripada "95 kali dari 100, perbedaan rata-rata sampel kami akan berada di antara batas-batas ini" dan penjelasan Anda masuk akal.
Anne
5

Dari sudut pandang teknis yang rumit, saya pribadi tidak berpikir ada "kata-kata yang jelas" dari interpretasi interval kepercayaan.

Saya akan menafsirkan interval kepercayaan sebagai: ada probabilitas 95% bahwa interval kepercayaan 95% mencakup perbedaan rata-rata yang sebenarnya

NN interval kepercayaan yang berbeda. Tingkat kepercayaan adalah proporsi interval ini yang mengandung perbedaan rata-rata sebenarnya.

N1

Tetapi perhatikan bahwa ini semua ada dalam filosofi. Interval kepercayaan sebaiknya dibiarkan kabur dalam penjelasan yang saya pikir. Mereka memberikan hasil yang baik bila digunakan dengan benar.

probabilityislogic
sumber
Memulai kalimat baru setelah "N interval kepercayaan yang berbeda." tidak mengalir dengan baik dengan "Anda dapat menafsirkan ini lebih jauh dengan mengatakan ...". Saya menyarankan untuk memodifikasi paragraf ketiga.
Theta30
2
Paragraf ketiga Anda jauh lebih baik daripada yang kedua. Bersyarat pada data yang diamati, interval kepercayaan berisi nilai parameter sebenarnya atau tidak.
kardinal
@probabilityislogic: Karena jawaban ini telah diterima, harap pertimbangkan untuk mengedit paragraf kedua Anda. Juga, dapatkah Anda menjelaskan apa yang Anda maksud dalam paragraf kedua hingga terakhir? Saat berbunyi, saya tidak yakin apa argumen yang Anda buat.
kardinal
jika kita menafsirkan interval kepercayaan dalam hal "pengulangan" percobaan maka kita harus mengabaikan percobaan sebelumnya dalam pengulangan ini. Maksud saya adalah: mengapa ketidaktahuan percobaan sebelumnya dalam "pengulangan" interval kepercayaan ini baik untuk set data yang belum kita amati, tetapi kita harus mengumpulkan data bersama untuk data yang telah kita amati? Apakah tidak masuk akal (dari apa yang saya mengerti tentang interpretasi CI) untuk menghasilkan CI sebanyak yang Anda bisa dengan data yang Anda miliki?
probabilityislogic
1
Ada keseluruhan teori, sebagian besar paralel dengan teori keputusan optimal, pada set kepercayaan seragam yang paling akurat. Mungkin itu adalah bagian dari teka-teki yang hilang untuk Anda. (?)
kardinal
3

Jawaban kasar untuk pertanyaan adalah bahwa interval kepercayaan 95% memungkinkan Anda untuk menjadi yakin 95% bahwa nilai parameter sebenarnya terletak dalam interval. Namun, jawaban kasar itu tidak lengkap dan tidak akurat.

Ketidaklengkapan terletak pada kenyataan bahwa tidak jelas bahwa "95% percaya diri" berarti sesuatu yang konkret, atau jika benar, maka makna konkret itu tidak akan disepakati secara universal oleh bahkan sedikit sampel ahli statistik. Arti kepercayaan tergantung pada metode apa yang digunakan untuk mendapatkan interval dan pada model inferensi apa yang digunakan (yang saya harap akan menjadi lebih jelas di bawah).

Ketidaktepatan terletak pada kenyataan bahwa banyak interval kepercayaan tidak dirancang untuk memberi tahu Anda apa pun tentang lokasi nilai parameter sebenarnya untuk kasus eksperimental tertentu yang menghasilkan interval kepercayaan! Itu akan mengejutkan banyak orang, tetapi ini mengikuti langsung dari filosofi Neyman-Pearson yang dengan jelas dinyatakan dalam kutipan ini dari makalah mereka tahun 1933 "Tentang Masalah Tes Hipotesis Statistik yang Paling Efisien":

Kami cenderung berpikir bahwa sejauh menyangkut hipotesis tertentu, tidak ada tes yang didasarkan pada teori probabilitas dengan sendirinya dapat memberikan bukti berharga tentang kebenaran atau kepalsuan hipotesis itu.

Tetapi kita dapat melihat tujuan dari tes dari sudut pandang lain. Tanpa berharap untuk mengetahui apakah setiap hipotesis yang terpisah itu benar atau salah, kita dapat mencari aturan untuk mengatur perilaku kita mengenai hal itu, dengan mengikuti mana kita memastikan bahwa, dalam jangka panjang pengalaman, kita tidak akan terlalu sering salah.

Interval yang didasarkan pada 'inversi' dari uji hipotesis NP karena itu akan mewarisi dari tes itu sifat memiliki sifat kesalahan jangka panjang yang diketahui tanpa memungkinkan inferensi tentang sifat-sifat percobaan yang menghasilkannya! Pemahaman saya adalah bahwa ini melindungi terhadap kesimpulan induktif, yang Neyman tampaknya dianggap sebagai kekejian.

Neyman secara eksplisit mengajukan klaim untuk istilah 'interval kepercayaan' dan ke asal-usul teori interval kepercayaan dalam makalah Biometrika 1941-nya "argumen fidusia dan teori interval kepercayaan". Maka, dalam arti tertentu, apa pun yang benar-benar merupakan interval kepercayaan yang dimainkan oleh aturannya dan dengan demikian makna dari interval individual hanya dapat dinyatakan dalam tingkat jangka panjang di mana interval yang dihitung dengan metode itu mengandung (mencakup) kebenaran yang relevan nilai parameter.

Kita sekarang perlu melakukan diskusi. Satu untai mengikuti gagasan 'cakupan', dan yang lain mengikuti interval non-Neymanian yang seperti interval kepercayaan. Saya akan menunda yang pertama sehingga saya dapat menyelesaikan posting ini sebelum terlalu lama.

Ada banyak pendekatan berbeda yang menghasilkan interval yang bisa disebut interval kepercayaan non-Neymanian. Yang pertama adalah interval fidusia Fisher. (Kata 'fiducial' mungkin menakut-nakuti banyak orang dan menimbulkan senyum menyimpang dari yang lain, tetapi saya akan mengesampingkan itu ...) Untuk beberapa jenis data (misalnya normal dengan varians populasi tidak diketahui) interval yang dihitung dengan metode Fisher secara numerik identik dengan interval yang akan dihitung dengan metode Neyman. Namun, mereka mengundang interpretasi yang sangat bertentangan. Interval Neymanian hanya mencerminkan sifat cakupan jangka panjang dari metode ini, sedangkan interval Fisher dimaksudkan untuk mendukung inferensi induktif mengenai nilai parameter sebenarnya untuk percobaan tertentu yang dilakukan.

Fakta bahwa satu set batas interval dapat berasal dari metode yang didasarkan pada salah satu dari dua paradigma yang berbeda secara filosofis mengarah ke situasi yang benar-benar membingungkan - hasilnya dapat ditafsirkan dalam dua cara yang bertentangan. Dari argumen fidusia ada kemungkinan 95% bahwa interval fidusia 95% tertentu akan berisi nilai parameter yang benar. Dari metode Neyman kita hanya tahu bahwa 95% interval yang dihitung dengan cara itu akan mengandung nilai parameter sebenarnya, dan harus mengatakan hal-hal membingungkan tentang probabilitas interval yang berisi nilai parameter sebenarnya tidak diketahui tetapi entah 1 atau 0.

Sebagian besar, pendekatan Neyman telah mempengaruhi Fisher. Menurut saya, itu sangat disayangkan, karena tidak mengarah pada interpretasi interval yang alami. (Baca kembali kutipan di atas dari Neyman dan Pearson dan lihat apakah itu cocok dengan interpretasi alami Anda atas hasil eksperimen. Kemungkinan besar tidak.)

Jika suatu interval dapat diinterpretasikan dengan benar dalam hal tingkat kesalahan global tetapi juga dengan benar dalam istilah inferensial lokal, saya tidak melihat alasan yang baik untuk membatasi pengguna interval dari interpretasi yang lebih alami yang diberikan oleh yang terakhir. Jadi saran saya adalah bahwa interpretasi yang tepat dari interval kepercayaan adalah KEDUA dari berikut ini:

  • Neymanian: Interval 95% ini dibangun dengan metode yang menghasilkan interval yang mencakup nilai parameter sebenarnya pada 95% kesempatan dalam jangka panjang (... dari pengalaman statistik kami).

  • Fisherian: Interval 95% ini memiliki probabilitas 95% untuk mencakup nilai parameter sebenarnya.

(Metode Bayesian dan kemungkinan juga akan menghasilkan interval dengan sifat frequentist yang diinginkan. Interval seperti itu mengundang interpretasi yang sedikit berbeda yang keduanya mungkin akan terasa lebih alami daripada Neymanian.)

Michael Lew
sumber
@Micheal - tempat di mana mereka akan berbeda adalah bahwa interval fudicial harus didasarkan pada statistik yang cukup, dan kondisi pada semua jumlah tambahan. Interval kepercayaan Neymans tidak memerlukan properti ini, dan karenanya tunduk pada "interval kepercayaan 95%" yang memiliki cakupan beragam untuk sub-kelas sampel tertentu.
probabilityislogic
@probability - Bisakah Anda mengembangkannya? Apakah maksud Anda bahwa ada keadaan di mana interval kepercayaan 95% Neymanian adalah interval kepercayaan tetapi itu bukan interval 95%? Akan seperti apa keadaan itu? Apakah interval Nelayan memiliki batasan yang sama dalam situasi seperti itu?
Michael Lew
Anda dapat menunjukkan kasus di mana Anda dapat mengetahui dari sampel, bahwa interval kepercayaan "95%" tidak mengandung nilai sebenarnya. contoh 5 dan contoh 6 dalam makalah Jaynes 'memberikan dua kasus di mana tidak menggunakan statistik yang cukup dalam CI akan memberikan cakupan jangka panjang, tetapi cakupan akan bervariasi pada kelas sampel tertentu. Ini analog dengan memiliki dua variabel dengan rata-rata yang sama (cakupan jangka panjang) tetapi varians yang berbeda (cakupan dalam kasus tertentu)
probabilityislogic
2

Arti dari interval kepercayaan adalah: jika Anda mengulangi percobaan Anda dengan cara yang sama persis (yaitu: jumlah pengamatan yang sama, menggambar dari populasi yang sama, dll.), Dan jika asumsi Anda benar, dan Anda akan menghitung interval itu lagi di setiap pengulangan, maka interval kepercayaan ini akan mengandung prevalensi sebenarnya di 95% dari pengulangan (rata-rata).

Jadi, Anda bisa mengatakan Anda 95% pasti (jika asumsi Anda benar, dll.) Bahwa Anda sekarang telah membangun interval yang berisi prevalensi sebenarnya.

Ini biasanya dinyatakan sebagai: dengan kepercayaan 95%, antara 4,5 dan 8,3% anak-anak dari ibu yang merokok selama kehamilan menjadi gemuk.

Perhatikan bahwa ini biasanya tidak menarik dalam dirinya sendiri: Anda mungkin ingin membandingkan ini dengan prevalensi pada anak-anak dari ibu yang tidak merokok (rasio odds, risiko relatif, dll.)

Nick Sabbe
sumber
(Balasan ini, yang tiba di sini setelah penggabungan dua utas, merespons pertanyaan rangkap yang dibingkai dalam bentuk CI dari suatu proporsi.)
whuber
0

Jika perbedaan rata-rata sebenarnya berada di luar interval ini, maka hanya ada peluang 5% bahwa perbedaan rata-rata dari percobaan kami akan sangat jauh dari perbedaan rata-rata sebenarnya.

Thomas Levine
sumber
Apa yang Anda maksud dengan "sejauh ini"? Apakah ini batas atas CI yang jauh atau rata-rata yang diamati?
probabilityislogic
Jarak antara mean yang sebenarnya dan mean yang diamati adalah apa yang saya maksudkan dengan "sejauh ini". Saya akan mengubahnya menjadi "sangat jauh"; Saya pikir itu sedikit lebih jelas.
Thomas Levine
-2

Interpretasi Saya: Jika Anda melakukan percobaan N kali (di mana N cenderung tak terhingga), maka dari sejumlah besar eksperimen ini, 95% percobaan akan memiliki interval kepercayaan yang berada dalam batas 95% ini. Lebih jelasnya, katakanlah batasan itu adalah "a" dan "b" lalu 95 dari 100 kali perbedaan rata-rata sampel Anda akan berada di antara "a" dan "b". Saya berasumsi bahwa Anda memahami bahwa percobaan yang berbeda dapat memiliki sampel yang berbeda untuk dicakup. dari seluruh populasi.

ayush biyani
sumber
@ Ayush. Terima kasih. Itu sangat membantu. Maaf saya tidak cukup mengikuti kalimat terakhir Anda.
Anne
@anne - Ok. Maksud saya adalah jika Anda ingin menguji mean antara dua sampel dan katakanlah setiap sampel memiliki 1000 orang, Anda dapat menentukan sampel tak terbatas dari itu (dari katakanlah 40 orang dari masing-masing) .. Saya telah menulis ini untuk memberi tahu mengapa Eksperimen yang berbeda berbeda satu sama lain .. Eksperimen di mana kita mengamati interval kepercayaan.
ayush biyani
2
@ayush - ini bukan interpretasi yang benar dalam kalimat terakhir kedua Anda. Atau setidaknya Anda harus menambahkan subskrip ke "a" dan "b", yang membuatnya jelas bahwa jumlah ini yang bervariasi selama 100 kali. Notasi Anda saat ini membuatnya tampak seperti "a" dan "b" adalah jumlah yang tetap.
probabilityislogic
@probabilityislogic - setuju..langganan diperlukan.
ayush biyani
1
@ Ayush (-1) Karakterisasi yang saat ini muncul di balasan Anda dapat ditafsirkan dalam beberapa cara, yang sebagian besar (karenanya) salah. Misalnya, interval kepercayaan[Sebuah,b]biasanya dikonstruksi sedemikian sehingga mengandung "sampel perbedaan rata-rata", yang menyiratkan bahwa perbedaan ini akan terletak di antara batas 100% setiap saat, apa pun yang terjadi.
whuber
-2

"95 kali dari 100, nilai Anda akan jatuh dalam satu standar deviasi dari rata-rata"

mulai dari negara
sumber
4
Selamat datang di situs ini, @beginnerstat. Saya ingin tahu apakah Anda bermaksud mengatakan, " dua standar deviasi dari mean"? Selain itu, saya tidak yakin saya melihat bagaimana kata-kata ini meningkatkan apa yang telah dibaca OP di tempat lain. Apakah Anda ingin sedikit menguraikan?
gung - Reinstate Monica
1
Ya untuk komentar @ gung: Saya sangat tertarik untuk memahami arti di mana "berarti" dan "SD" digunakan di sini. Apakah ini mengacu pada parameter yang mendasari atau perkiraan sampel ? Apakah mereka merujuk pada distribusi dari variabel acak yang mendasarinya atau ke distribusi sampling dari rata-rata varian iid dari distribusi seperti itu?
whuber