SPSS memberikan output "interval kepercayaan dari perbedaan berarti." Saya telah membaca di beberapa tempat bahwa itu berarti "95 kali dari 100, perbedaan rata-rata sampel kami akan berada di antara batas-batas ini" Saya menemukan ini tidak jelas. Adakah yang bisa menyarankan kata-kata yang lebih jelas untuk menjelaskan "interval kepercayaan perbedaan dalam cara"? Output ini muncul dalam konteks uji-satu sampel.
21
Jawaban:
Ini bukan hal yang mudah, bahkan untuk ahli statistik yang dihormati. Lihatlah satu upaya terbaru oleh Nate Silver :
(dari blog FiveThirtyEight di New York Times, 9/29/10.) Ini bukan interval kepercayaan diri. Bergantung pada bagaimana Anda menafsirkannya, itu adalah interval toleransi atau interval prediksi. (Kalau tidak, tidak ada masalah dengan diskusi Silver yang sangat baik tentang estimasi probabilitas; ini adalah bacaan yang bagus.) Banyak situs web lain (terutama yang dengan fokus investasi) juga mengacaukan interval kepercayaan dengan jenis interval lainnya.
The New York Times telah melakukan upaya untuk memperjelas arti dari hasil statistik yang dihasilkan dan dilaporkannya. Hasil cetak halus di bawah banyak jajak pendapat mencakup sesuatu seperti ini:
( misalnya , Bagaimana Polling Dilakukan , 5/2/2011.)
Sedikit bertele-tele, mungkin, tetapi jelas dan akurat: pernyataan ini mencirikan variabilitas dari distribusi sampling dari hasil polling. Itu semakin dekat dengan gagasan interval kepercayaan, tetapi tidak cukup di sana. Orang mungkin mempertimbangkan menggunakan kata-kata seperti itu sebagai pengganti interval kepercayaan dalam banyak kasus.
Ketika ada begitu banyak potensi kebingungan di internet, akan bermanfaat untuk beralih ke sumber-sumber resmi. Salah satu favorit saya adalah teks yang dihormati waktu, Statistik , Freedman, Pisani, & Purves . Sekarang dalam edisi keempat, telah digunakan di universitas selama lebih dari 30 tahun dan terkenal karena penjelasan yang jelas dan jelas dan fokus pada metode klasik "sering". Mari kita lihat apa yang dikatakan tentang menafsirkan interval kepercayaan:
[di hlm. 384; semua kutipan berasal dari edisi ketiga (1998)]. Itu berlanjut,
[hal. 384]. Teks ini mengatakan lebih banyak tentang interval kepercayaan, tetapi ini cukup untuk membantu: pendekatannya adalah memindahkan fokus diskusi ke sampel, sekaligus membawa ketegasan dan kejelasan pada pernyataan. Karena itu kami mungkin mencoba hal yang sama dalam pelaporan kami sendiri. Sebagai contoh, mari kita terapkan pendekatan ini untuk menggambarkan interval kepercayaan [34%, 40%] di sekitar perbedaan persentase yang dilaporkan dalam eksperimen hipotetis:
(Ini adalah teks saya, yang pasti dapat diperbaiki: Saya mengundang editor untuk mengerjakannya.)
Pernyataan panjang seperti ini agak sulit digunakan. Dalam laporan aktual sebagian besar konteks - pengambilan sampel acak, subjek dan kontrol, kemungkinan variabilitas - sudah ditetapkan, membuat setengah dari pernyataan sebelumnya tidak diperlukan. Ketika laporan menyatakan bahwa ada variabilitas sampling dan menunjukkan model probabilitas untuk hasil sampel, biasanya tidak sulit untuk menjelaskan interval kepercayaan (atau interval acak lainnya) sejelas dan seketat yang dibutuhkan audiens.
sumber
Dari sudut pandang teknis yang rumit, saya pribadi tidak berpikir ada "kata-kata yang jelas" dari interpretasi interval kepercayaan.
Saya akan menafsirkan interval kepercayaan sebagai: ada probabilitas 95% bahwa interval kepercayaan 95% mencakup perbedaan rata-rata yang sebenarnya
Tetapi perhatikan bahwa ini semua ada dalam filosofi. Interval kepercayaan sebaiknya dibiarkan kabur dalam penjelasan yang saya pikir. Mereka memberikan hasil yang baik bila digunakan dengan benar.
sumber
Jawaban kasar untuk pertanyaan adalah bahwa interval kepercayaan 95% memungkinkan Anda untuk menjadi yakin 95% bahwa nilai parameter sebenarnya terletak dalam interval. Namun, jawaban kasar itu tidak lengkap dan tidak akurat.
Ketidaklengkapan terletak pada kenyataan bahwa tidak jelas bahwa "95% percaya diri" berarti sesuatu yang konkret, atau jika benar, maka makna konkret itu tidak akan disepakati secara universal oleh bahkan sedikit sampel ahli statistik. Arti kepercayaan tergantung pada metode apa yang digunakan untuk mendapatkan interval dan pada model inferensi apa yang digunakan (yang saya harap akan menjadi lebih jelas di bawah).
Ketidaktepatan terletak pada kenyataan bahwa banyak interval kepercayaan tidak dirancang untuk memberi tahu Anda apa pun tentang lokasi nilai parameter sebenarnya untuk kasus eksperimental tertentu yang menghasilkan interval kepercayaan! Itu akan mengejutkan banyak orang, tetapi ini mengikuti langsung dari filosofi Neyman-Pearson yang dengan jelas dinyatakan dalam kutipan ini dari makalah mereka tahun 1933 "Tentang Masalah Tes Hipotesis Statistik yang Paling Efisien":
Interval yang didasarkan pada 'inversi' dari uji hipotesis NP karena itu akan mewarisi dari tes itu sifat memiliki sifat kesalahan jangka panjang yang diketahui tanpa memungkinkan inferensi tentang sifat-sifat percobaan yang menghasilkannya! Pemahaman saya adalah bahwa ini melindungi terhadap kesimpulan induktif, yang Neyman tampaknya dianggap sebagai kekejian.
Neyman secara eksplisit mengajukan klaim untuk istilah 'interval kepercayaan' dan ke asal-usul teori interval kepercayaan dalam makalah Biometrika 1941-nya "argumen fidusia dan teori interval kepercayaan". Maka, dalam arti tertentu, apa pun yang benar-benar merupakan interval kepercayaan yang dimainkan oleh aturannya dan dengan demikian makna dari interval individual hanya dapat dinyatakan dalam tingkat jangka panjang di mana interval yang dihitung dengan metode itu mengandung (mencakup) kebenaran yang relevan nilai parameter.
Kita sekarang perlu melakukan diskusi. Satu untai mengikuti gagasan 'cakupan', dan yang lain mengikuti interval non-Neymanian yang seperti interval kepercayaan. Saya akan menunda yang pertama sehingga saya dapat menyelesaikan posting ini sebelum terlalu lama.
Ada banyak pendekatan berbeda yang menghasilkan interval yang bisa disebut interval kepercayaan non-Neymanian. Yang pertama adalah interval fidusia Fisher. (Kata 'fiducial' mungkin menakut-nakuti banyak orang dan menimbulkan senyum menyimpang dari yang lain, tetapi saya akan mengesampingkan itu ...) Untuk beberapa jenis data (misalnya normal dengan varians populasi tidak diketahui) interval yang dihitung dengan metode Fisher secara numerik identik dengan interval yang akan dihitung dengan metode Neyman. Namun, mereka mengundang interpretasi yang sangat bertentangan. Interval Neymanian hanya mencerminkan sifat cakupan jangka panjang dari metode ini, sedangkan interval Fisher dimaksudkan untuk mendukung inferensi induktif mengenai nilai parameter sebenarnya untuk percobaan tertentu yang dilakukan.
Fakta bahwa satu set batas interval dapat berasal dari metode yang didasarkan pada salah satu dari dua paradigma yang berbeda secara filosofis mengarah ke situasi yang benar-benar membingungkan - hasilnya dapat ditafsirkan dalam dua cara yang bertentangan. Dari argumen fidusia ada kemungkinan 95% bahwa interval fidusia 95% tertentu akan berisi nilai parameter yang benar. Dari metode Neyman kita hanya tahu bahwa 95% interval yang dihitung dengan cara itu akan mengandung nilai parameter sebenarnya, dan harus mengatakan hal-hal membingungkan tentang probabilitas interval yang berisi nilai parameter sebenarnya tidak diketahui tetapi entah 1 atau 0.
Sebagian besar, pendekatan Neyman telah mempengaruhi Fisher. Menurut saya, itu sangat disayangkan, karena tidak mengarah pada interpretasi interval yang alami. (Baca kembali kutipan di atas dari Neyman dan Pearson dan lihat apakah itu cocok dengan interpretasi alami Anda atas hasil eksperimen. Kemungkinan besar tidak.)
Jika suatu interval dapat diinterpretasikan dengan benar dalam hal tingkat kesalahan global tetapi juga dengan benar dalam istilah inferensial lokal, saya tidak melihat alasan yang baik untuk membatasi pengguna interval dari interpretasi yang lebih alami yang diberikan oleh yang terakhir. Jadi saran saya adalah bahwa interpretasi yang tepat dari interval kepercayaan adalah KEDUA dari berikut ini:
Neymanian: Interval 95% ini dibangun dengan metode yang menghasilkan interval yang mencakup nilai parameter sebenarnya pada 95% kesempatan dalam jangka panjang (... dari pengalaman statistik kami).
Fisherian: Interval 95% ini memiliki probabilitas 95% untuk mencakup nilai parameter sebenarnya.
(Metode Bayesian dan kemungkinan juga akan menghasilkan interval dengan sifat frequentist yang diinginkan. Interval seperti itu mengundang interpretasi yang sedikit berbeda yang keduanya mungkin akan terasa lebih alami daripada Neymanian.)
sumber
Arti dari interval kepercayaan adalah: jika Anda mengulangi percobaan Anda dengan cara yang sama persis (yaitu: jumlah pengamatan yang sama, menggambar dari populasi yang sama, dll.), Dan jika asumsi Anda benar, dan Anda akan menghitung interval itu lagi di setiap pengulangan, maka interval kepercayaan ini akan mengandung prevalensi sebenarnya di 95% dari pengulangan (rata-rata).
Jadi, Anda bisa mengatakan Anda 95% pasti (jika asumsi Anda benar, dll.) Bahwa Anda sekarang telah membangun interval yang berisi prevalensi sebenarnya.
Ini biasanya dinyatakan sebagai: dengan kepercayaan 95%, antara 4,5 dan 8,3% anak-anak dari ibu yang merokok selama kehamilan menjadi gemuk.
Perhatikan bahwa ini biasanya tidak menarik dalam dirinya sendiri: Anda mungkin ingin membandingkan ini dengan prevalensi pada anak-anak dari ibu yang tidak merokok (rasio odds, risiko relatif, dll.)
sumber
Jika perbedaan rata-rata sebenarnya berada di luar interval ini, maka hanya ada peluang 5% bahwa perbedaan rata-rata dari percobaan kami akan sangat jauh dari perbedaan rata-rata sebenarnya.
sumber
Interpretasi Saya: Jika Anda melakukan percobaan N kali (di mana N cenderung tak terhingga), maka dari sejumlah besar eksperimen ini, 95% percobaan akan memiliki interval kepercayaan yang berada dalam batas 95% ini. Lebih jelasnya, katakanlah batasan itu adalah "a" dan "b" lalu 95 dari 100 kali perbedaan rata-rata sampel Anda akan berada di antara "a" dan "b". Saya berasumsi bahwa Anda memahami bahwa percobaan yang berbeda dapat memiliki sampel yang berbeda untuk dicakup. dari seluruh populasi.
sumber
"95 kali dari 100, nilai Anda akan jatuh dalam satu standar deviasi dari rata-rata"
sumber