Hari ini, di Cross Validated Journal Club (mengapa Anda tidak ada di sana?), @Mbq bertanya:
Apakah Anda pikir kami (ilmuwan data modern) tahu apa arti pentingnya? Dan bagaimana hubungannya dengan kepercayaan kita pada hasil kita?
@Michelle menjawab karena beberapa (termasuk saya) biasanya melakukan:
Saya menemukan konsep signifikansi (berdasarkan nilai-p) kurang dan kurang membantu ketika saya melanjutkan karir saya. Sebagai contoh, saya dapat menggunakan dataset yang sangat besar sehingga semuanya signifikan secara statistik ( )
Ini mungkin pertanyaan bodoh, tetapi bukankah hipotesisnya sedang diuji? Jika Anda menguji hipotesis nol "A sama dengan B" maka Anda tahu jawabannya adalah "Tidak". Kumpulan data yang lebih besar hanya akan membawa Anda lebih dekat ke kesimpulan yang benar tak terhindarkan ini. Saya percaya itu adalah Deming yang pernah memberi contoh dengan hipotesis "jumlah rambut di sisi kanan domba sama dengan jumlah rambut di sisi kiri." Yah, tentu saja tidak.
Hipotesis yang lebih baik adalah "A tidak berbeda dari B lebih dari begitu banyak." Atau, dalam contoh anak domba, "jumlah rambut pada sisi anak domba tidak berbeda lebih dari X%".
Apakah ini masuk akal?
sumber
Jawaban:
Sejauh pengujian signifikansi berjalan (atau apa pun yang pada dasarnya melakukan hal yang sama dengan pengujian signifikansi), saya telah lama berpikir bahwa pendekatan terbaik dalam sebagian besar situasi cenderung memperkirakan ukuran efek standar, dengan interval kepercayaan 95% tentang itu ukuran efek. Tidak ada yang benar-benar baru di sana - secara matematis Anda dapat bergerak bolak-balik di antara mereka - jika nilai-p untuk nol 'nol' adalah <0,05, maka 0 akan berada di luar CI 95%, dan sebaliknya. Keuntungannya, menurut saya, adalah psikologis; yaitu membuat informasi penting yang ada tetapi orang tidak bisa melihat ketika hanya nilai-p yang dilaporkan. Sebagai contoh, mudah untuk melihat bahwa efeknya sangat 'signifikan', tetapi sangat kecil; atau 'tidak signifikan', tetapi hanya karena bilah kesalahan besar sedangkan efek diperkirakan lebih atau kurang dari yang Anda harapkan. Ini dapat dipasangkan dengan nilai mentah dan CI mereka.
Sekarang, di banyak bidang, nilai-nilai mentah secara intrinsik bermakna, dan saya menyadari bahwa menimbulkan pertanyaan apakah masih layak untuk menghitung ukuran efek efek mengingat bahwa kita sudah memiliki nilai-nilai seperti sarana dan lereng. Contohnya mungkin melihat pertumbuhan terhambat; kita tahu apa artinya bagi pria kulit putih berusia 20 tahun lebih pendek 6 +/- 2 inci (yaitu 15 +/- 5 cm), daripada yang seharusnya, jadi mengapa menyebutkan ? Saya cenderung berpikir bahwa masih ada nilai dalam melaporkan keduanya, dan fungsi dapat ditulis untuk menghitung ini sehingga sangat sedikit pekerjaan tambahan, tetapi saya menyadari bahwa pendapat akan bervariasi. Bagaimanapun, saya berpendapat bahwa estimasi titik dengan interval kepercayaan menggantikan nilai-p sebagai bagian pertama dari respons saya.d=−1.6±.5
Di sisi lain, saya pikir pertanyaan yang lebih besar adalah 'apakah pengujian signifikansi melakukan apa yang kita inginkan?' Saya pikir masalah sebenarnya adalah bahwa bagi kebanyakan orang menganalisis data (yaitu, praktisi bukan ahli statistik), pengujian signifikansi dapat menjadi keseluruhan analisis data. Tampaknya bagi saya bahwa hal yang paling penting adalah memiliki cara berprinsip untuk memikirkan apa yang sedang terjadi dengan data kami, dan pengujian signifikansi nol hipotesis, paling banter, adalah sebagian kecil dari itu. Izinkan saya memberikan contoh imajiner (saya mengakui bahwa ini adalah karikatur, tetapi sayangnya, saya khawatir ini agak masuk akal):
Saya harap ini tidak menjadi jahat. Saya tidak bermaksud mengejek siapa pun, tetapi saya pikir sesuatu seperti ini kadang-kadang terjadi. Jika skenario ini terjadi, kita semua bisa sepakat bahwa ini adalah analisis data yang buruk. Namun, masalahnya bukan karena statistik pengujian atau nilai-p salah; kita dapat mengandaikan bahwa data ditangani dengan benar dalam hal itu. Saya berpendapat bahwa masalahnya adalah Bob terlibat dalam apa yang disebut Cleveland sebagai "analisis data hafalan". Dia tampaknya percaya bahwa satu-satunya titik adalah untuk mendapatkan nilai-p yang tepat, dan berpikir sangat sedikit tentang datanya di luar mengejar tujuan itu. Dia bahkan bisa beralih ke saran saya di atas dan melaporkan ukuran efek standar dengan interval kepercayaan 95%, dan itu tidak akan mengubah apa yang saya lihat sebagai masalah yang lebih besar (inilah yang saya maksudkan dengan melakukan "pada dasarnya hal yang sama "Dengan cara yang berbeda). Dalam kasus khusus ini, fakta bahwa data tidak terlihat seperti yang diharapkan (yaitu, tidak normal) adalah informasi nyata, ini menarik, dan sangat mungkin penting, tetapi informasi itu pada dasarnya dibuang begitu saja. Bob tidak mengenali ini, karena fokus pada pengujian signifikansi. Bagi saya, itulah masalah sebenarnya dengan pengujian signifikansi.
Izinkan saya membahas beberapa perspektif lain yang telah disebutkan, dan saya ingin menjadi sangat jelas bahwa saya tidak mengkritik siapa pun.
Bagi saya, ini adalah masalah inti: Apa yang sebenarnya kita inginkan adalah cara berprinsip untuk memikirkan apa yang terjadi . Apa artinya itu dalam situasi tertentu tidak dipotong dan dikeringkan. Bagaimana menyampaikan itu kepada siswa dalam kelas metode tidak jelas dan tidak mudah. Pengujian signifikan memiliki banyak inersia dan tradisi di baliknya. Di kelas statistik, jelas apa yang perlu diajarkan dan bagaimana caranya. Untuk siswa dan praktisi menjadi mungkin untuk mengembangkan skema konseptual untuk memahami materi, dan daftar periksa / diagram alur (saya telah melihat beberapa!) Untuk melakukan analisis. Pengujian signifikan secara alami dapat berkembang menjadi analisis data hafalan tanpa ada yang bodoh atau malas atau buruk. Itu masalahnya.
sumber
Mengapa kita bersikeras segala bentuk uji hipotesis dalam statistik?
Dalam buku yang luar biasa, Statistics as Principled Argument Robert Abelson berpendapat bahwa analisis statistik adalah bagian dari argumen berprinsip tentang subjek yang dimaksud. Dia mengatakan bahwa, alih-alih dievaluasi sebagai hipotesis untuk ditolak atau tidak ditolak (atau bahkan diterima!?!), Kita harus mengevaluasinya berdasarkan apa yang dia sebut kriteria MAGIC:
Besarnya - seberapa besar itu? Artikulasi - Apakah penuh dengan pengecualian? Apakah sudah jelas? Umum - Seberapa umum penerapannya? Ketertarikan - Apakah kita peduli dengan hasilnya? Kredibilitas - Bisakah kita mempercayainya?
Ulasan saya tentang buku di blog saya
sumber
sumber
Tes hipotesis tradisional memberi tahu Anda apakah ada bukti yang signifikan secara statistik untuk adanya efek, sedangkan yang sering ingin kita ketahui adalah adanya bukti efek signifikan yang praktis.
Sangat mungkin untuk membentuk "tes hipotesis" Bayesian dengan ukuran efek minimum (IIRC ada contohnya dalam buku David MacKay tentang "Teori Informasi, Inferensi, dan Algoritma Pembelajaran", saya akan mencarinya ketika saya memiliki momen. .
Pengujian normalitas adalah contoh lain yang baik, kita biasanya tahu bahwa data tidak benar-benar terdistribusi normal, kita hanya menguji untuk melihat apakah ada bukti bahwa ini bukan perkiraan yang masuk akal. Atau menguji bias koin, kita tahu itu tidak mungkin sepenuhnya bias karena asimetris.
sumber
Banyak dari ini bermuara pada pertanyaan apa yang sebenarnya Anda tanyakan, bagaimana Anda merancang studi Anda, dan bahkan apa yang Anda maksudkan dengan setara.
Saya menjalankan akros sebuah sisipan kecil yang menarik di British Medical Journal sekali yang berbicara tentang apa yang orang mengartikan fase tertentu. Ternyata "selalu" dapat berarti bahwa sesuatu terjadi serendah 91% dari waktu (BMJ VOLUME 333 26 AGUSTUS 2006 halaman 445). Jadi mungkin sama dan setara (atau dalam X% untuk beberapa nilai X) dapat dianggap berarti hal yang sama. Dan mari kita tanyakan pada komputer persamaan sederhana, menggunakan R:
Banyak dari ini datang untuk menanyakan pertanyaan yang tepat dan merancang studi yang tepat untuk pertanyaan itu. Jika Anda berakhir dengan data yang cukup untuk menunjukkan bahwa perbedaan praktis yang tidak bermakna secara statistik signifikan, maka Anda telah membuang sumber daya untuk mendapatkan data sebanyak itu. Akan lebih baik untuk memutuskan apa perbedaan yang berarti dan merancang penelitian untuk memberi Anda kekuatan yang cukup untuk mendeteksi perbedaan itu tetapi tidak lebih kecil.
Dan jika kita benar-benar ingin membelah rambut, bagaimana kita menentukan bagian domba mana yang di sebelah kanan dan mana yang di sebelah kiri? Jika kita mendefinisikannya dengan garis yang menurut definisi memiliki jumlah rambut yang sama di setiap sisi maka jawaban untuk pertanyaan di atas menjadi "Tentu saja itu".
sumber
Dari perspektif organisasi, baik itu pemerintah dengan opsi kebijakan atau perusahaan yang ingin meluncurkan proses / produk baru, penggunaan analisis biaya-manfaat yang sederhana juga dapat membantu. Saya telah berpendapat di masa lalu bahwa (mengabaikan alasan politik) mengingat biaya yang diketahui dari inisiatif baru, apa titik impas untuk sejumlah orang yang harus dipengaruhi secara positif oleh inisiatif itu? Misalnya, jika inisiatif baru adalah untuk membuat lebih banyak orang yang menganggur bekerja, dan biaya inisiatif
$100,000
, apakah itu mencapai pengurangan transfer pengangguran setidaknya$100,000
? Jika tidak, maka efek dari inisiatif tersebut secara praktis tidak signifikan.Untuk hasil kesehatan, nilai kehidupan statistik menjadi penting. Ini karena tunjangan kesehatan bertambah seumur hidup (dan karenanya tunjangan disesuaikan nilainya berdasarkan tingkat diskonto ). Jadi, alih-alih signifikansi statistik, orang mendapat argumen tentang bagaimana memperkirakan nilai kehidupan statistik, dan tingkat diskonto apa yang harus diterapkan.
sumber