Apa yang sering diambil dalam kisah voltmeter?

15

Apa yang sering diambil oleh kisah voltmeter dan variasinya? Gagasan di baliknya adalah bahwa analisis statistik yang menarik bagi peristiwa hipotetis harus direvisi jika kemudian diketahui bahwa peristiwa hipotetis itu tidak mungkin terjadi sebagaimana diasumsikan.

The versi cerita di Wikipedia tersedia di bawah ini.

Seorang insinyur mengambil sampel acak dari tabung elektron dan mengukur tegangannya. Pengukuran berkisar dari 75 hingga 99 volt. Seorang ahli statistik menghitung mean sampel dan interval kepercayaan untuk mean sebenarnya. Kemudian ahli statistik menemukan bahwa voltmeter hanya membaca sejauh 100, sehingga populasi tampaknya 'disensor'. Ini memerlukan analisis baru, jika ahli statistik itu ortodoks. Namun, sang insinyur mengatakan ia memiliki pembacaan meter lagi hingga 1000 volt, yang akan ia gunakan jika ada voltase lebih dari 100. Ini melegakan bagi ahli statistik, karena itu berarti penduduknya secara efektif tidak disensor. Tapi, hari berikutnya insinyur memberi tahu ahli statistik bahwa meter kedua ini tidak berfungsi pada saat pengukuran. Ahli statistik memastikan bahwa insinyur tidak akan melakukan pengukuran sampai meteran diperbaiki, dan memberi tahu dia bahwa pengukuran baru diperlukan. Insinyur itu tercengang. "Selanjutnya Anda akan bertanya tentang osiloskop saya".

Kisah ini jelas dimaksudkan untuk konyol tetapi bagi saya tidak jelas kebebasan apa yang diambil dengan metodologi yang mengolok-oloknya. Saya yakin dalam hal ini seorang ahli statistik yang sibuk tidak akan mengkhawatirkan hal ini tetapi bagaimana dengan seorang akademisi yang keras dan hardcore?

Dengan menggunakan pendekatan yang sering dogmatis, apakah kita perlu mengulangi eksperimen? Bisakah kita menarik kesimpulan dari data yang sudah tersedia?

Untuk juga membahas poin yang lebih umum yang dibuat oleh cerita, jika kita ingin memanfaatkan data yang sudah kita miliki, dapatkah revisi yang diperlukan dari hasil hipotesis dibuat agar sesuai dengan kerangka kerja yang sering terjadi?

Praxeolitic
sumber
4
Pendekatan sering juga memungkinkan untuk pengkondisian jadi saya tidak yakin alasan yang ditemukan dalam kutipan sepenuhnya memadai.
Xi'an
@ Xi'an Bahkan jika kami memasukkan sensor sampel atau probabilitas voltmeter kedua yang rusak dalam perhitungan kami ada masalah bahwa kami mengubah desain eksperimen setelah itu terjadi . Saya tidak tahu apakah itu dapat direkonsiliasi dengan metode yang sering.
Praxeolitic
6
Mungkin periksa entri ini pada Prinsip Persyaratan . Meskipun bukan seorang yang sering, saya bukan penggemar berat cerita ini karena tampaknya menyiratkan pengintegrasian atas semua peristiwa hipotetis yang mungkin terjadi tanpa menentukan kisarannya. Ini agak karikatur.
Xi'an
5
Ini memang layak untuk diskusi dan jawaban yang bijaksana. Tetapi harap dicatat bahwa "jika ahli statistik itu ortodoks" dan tidak kompeten atau serakah untuk pekerjaan tambahan dia akan menyatakan bahwa karena tidak ada pengamatan asli yang disensor, pilihan prosedur aslinya (mungkin dapat diterima) tetap dapat diterima dan oleh karena itu tidak ada dasar untuk ubahlah. Dasar teori yang mendukung statistik "Frequentist" - teori keputusan - tidak digunakan untuk "prinsip kemungkinan" ini.
Whuber
1
Saya tahu apa yang akan saya lakukan, asalkan ada cukup data. Saya akan membuat histogram. Saya akan melihat histogram. Jika ada batas yang jelas pada 99 membuat histogram terpotong satu sisi pada saat itu, saya akan curiga bahwa itu terpotong. Saya juga akan melihat data yang diketahui tidak terpotong dan memeriksa bentuk kurva mereka, dan melihat apakah saya bisa mendapatkan model probabilitas yang cocok dengan itu, misalnya, distribusi gamma, atau apa yang tidak. Saya kemudian akan kembali ke data terpotong (dengan asumsi) dan melihat apakah sisanya juga terdistribusi gamma (atau apa pun). Maka saya perlu menjelaskan, "Mengapa gamma?" Jika demikian, saya sudah selesai.
Carl

Jawaban:

4

Dalam inferensi frequentist , kami ingin menentukan seberapa sering sesuatu akan terjadi jika proses stokastik tertentu berulang kali terwujud. Itu adalah titik awal untuk teori nilai-p, interval kepercayaan, dan sejenisnya. Namun, dalam banyak proyek terapan, proses "diberikan" tidak benar-benar diberikan, dan ahli statistik harus melakukan setidaknya beberapa pekerjaan menentukan dan memodelkannya. Ini bisa menjadi masalah yang sangat ambigu, seperti dalam kasus ini.

Memodelkan Proses Pembuatan Data

Berdasarkan informasi yang diberikan, kandidat terbaik kami tampaknya sebagai berikut:

  1. Jika 100V meter berbunyi 100V, insinyur mengukur kembali dengan 1000V meter jika itu operasional. Kalau tidak, ia hanya menandai 100V dan melanjutkan.

Tapi bukankah ini sedikit tidak adil bagi insinyur kami? Dengan asumsi dia adalah seorang insinyur dan bukan hanya seorang teknisi, dia mungkin mengerti mengapa dia perlu mengukur kembali ketika meter pertama berbunyi 100V; itu karena meteran jenuh pada batas atas kisarannya, karenanya tidak lagi dapat diandalkan. Jadi mungkin yang akan dilakukan oleh insinyur itu adalah

  1. Jika 100V meter berbunyi 100, insinyur mengukur kembali dengan 1000V meter jika itu operasional. Kalau tidak, ia hanya menandai 100V, menambahkan tanda plus untuk menunjukkan pengukuran jenuh, dan melanjutkan.

Kedua proses ini konsisten dengan data yang kita miliki, tetapi mereka adalah proses yang berbeda, dan mereka menghasilkan interval kepercayaan yang berbeda. Proses 2 adalah yang kita inginkan sebagai ahli statistik. Jika voltase sering jauh di atas 100V, Proses 1 memiliki mode kegagalan katastropik yang berpotensi di mana pengukuran kadang-kadang sangat diremehkan, karena data disensor tanpa kita sadari. Interval kepercayaan akan melebar sesuai. Kita bisa mengurangi ini dengan meminta insinyur untuk memberi tahu kami ketika meter 1000V-nya tidak berfungsi, tetapi ini benar-benar hanya cara lain untuk memastikan bahwa data kami sesuai dengan Proses 2.

Jika kuda telah meninggalkan gudang dan kami tidak dapat menentukan kapan pengukuran dilakukan dan tidak disensor, kami dapat mencoba menyimpulkan dari data saat-saat ketika 1000V meter tidak berfungsi. Dengan memperkenalkan aturan inferensi ke dalam proses, kami secara efektif membuat Proses 1.5 baru yang berbeda dari 1 dan 2. Aturan inferensi kami kadang-kadang bekerja dan kadang-kadang tidak, sehingga interval kepercayaan dari Proses 1.5 akan berukuran sedang dibandingkan dengan Proses 1 dan 2.

Secara teori, tidak ada yang salah atau mencurigakan tentang suatu statistik tunggal yang memiliki tiga interval kepercayaan berbeda yang terkait dengan tiga proses stokastik yang representatif masuk akal. Dalam praktiknya, beberapa konsumen statistik menginginkan tiga interval kepercayaan yang berbeda. Mereka menginginkan satu, yang didasarkan pada apa yang sebenarnya akan terjadi, seandainya percobaan itu diulang berkali-kali. Jadi biasanya, ahli statistik yang diterapkan mempertimbangkan pengetahuan domain yang diperolehnya selama proyek, membuat tebakan yang dididik, dan menyajikan interval kepercayaan yang terkait dengan proses yang telah ia tebak. Atau dia bekerja dengan pelanggan untuk memformalkan proses, jadi tidak perlu menebak ke depan.

Cara Menanggapi Informasi Baru

Terlepas dari desakan ahli statistik dalam cerita tersebut, kesimpulan yang sering terjadi tidak mengharuskan kita mengulangi pengukuran ketika kita memperoleh informasi baru yang menunjukkan proses stokastik yang dihasilkan tidak sesuai dengan apa yang awalnya kita bayangkan. Namun, jika proses akan diulangi, kita perlu memastikan bahwa semua pengulangan konsisten dengan proses model yang diasumsikan oleh interval kepercayaan. Kita dapat melakukan ini dengan mengubah prosesnya atau dengan mengubah modelnya.

Jika kita mengubah proses, kita mungkin perlu membuang data masa lalu yang dikumpulkan secara tidak konsisten dengan proses itu. Tapi itu bukan masalah di sini, karena semua variasi proses yang kami pertimbangkan hanya berbeda ketika beberapa data di atas 100V, dan itu tidak pernah terjadi dalam kasus ini.

Apa pun yang kita lakukan, model dan kenyataan harus diselaraskan. Hanya dengan demikian tingkat kesalahan frequentist yang dijamin secara teoretis akan menjadi apa yang sebenarnya didapatkan pelanggan setelah kinerja proses yang berulang.

Alternatif Bayesian

Di sisi lain, jika yang benar-benar kita pedulikan adalah kisaran kemungkinan dari mean yang sebenarnya untuk sampel ini , kita harus menyingkirkan frekuensi sering sama sekali dan mencari orang-orang yang menjual jawaban untuk pertanyaan itu - orang Bayesia. Jika kita menempuh rute ini, semua tawar menawar kontra faktual menjadi tidak relevan; semua yang penting adalah prioritas dan kemungkinan. Sebagai imbalan atas penyederhanaan ini, kami kehilangan harapan untuk menjamin tingkat kesalahan di bawah kinerja berulang dari "percobaan".

Mengapa Repotnya?

Cerita ini dibangun agar terlihat seperti ahli statistik yang sering ribut tentang hal-hal konyol tanpa alasan. Jujur, siapa yang peduli dengan kontrafakta konyol ini? Jawabannya, tentu saja, adalah bahwa setiap orang harus peduli. Bidang ilmiah yang sangat penting saat ini menderita krisis replikasi serius , yang menunjukkan frekuensi penemuan palsu jauh lebih tinggi dari yang diharapkan dalam literatur ilmiah. Salah satu pendorong krisis ini, meskipun bukan satu-satunya dengan cara apa pun , adalah maraknya peretasan , yaitu ketika para peneliti bermain dengan banyak variasi model, mengendalikan variabel yang berbeda, hingga mereka mendapatkan signifikansi.

P-hacking telah difitnah secara luas di media ilmiah populer dan blogosphere, tetapi hanya sedikit yang benar-benar mengerti apa yang salah tentang p-hacking dan mengapa. Berlawanan dengan pendapat statistik populer, tidak ada yang salah dengan melihat data Anda sebelum, selama, dan setelah proses pemodelan. Apa yang salah adalah tidak melaporkan analisis eksplorasi dan bagaimana mereka mempengaruhi jalannya penelitian. Hanya dengan melihat proses lengkapnya kita dapat menentukan model stokastik apa yang mewakili proses itu dan analisis frequentist apa yang cocok untuk model itu, jika ada.

Mengklaim bahwa analisis kerap kali tertentu sesuai adalah klaim yang sangat serius. Membuat klaim itu menyiratkan bahwa Anda mengikat diri Anda pada disiplin proses stokastik yang telah Anda pilih, yang mencakup seluruh sistem kontrafaktual tentang apa yang akan Anda lakukan dalam situasi yang berbeda. Anda harus benar-benar menyesuaikan diri dengan sistem itu untuk jaminan yang sering berlaku untuk Anda. Sangat sedikit peneliti, terutama yang di bidang yang menekankan eksplorasi terbuka, sesuai dengan sistem, dan mereka tidak melaporkan penyimpangan mereka dengan cermat; itulah sebabnya kita sekarang memiliki krisis replikasi di tangan kita. (Beberapa peneliti terhormat berpendapat bahwa harapan ini tidak realistis, posisi yang saya simpati, tetapi itu melampaui lingkup tulisan ini.)

Mungkin tampak tidak adil bahwa kami mengkritik makalah yang diterbitkan berdasarkan klaim tentang apa yang akan mereka lakukan seandainya datanya berbeda. Tapi ini adalah sifat (agak paradoks) dari pemikiran yang sering terjadi: jika Anda menerima konsep nilai-p, Anda harus menghormati keabsahan pemodelan apa yang akan dilakukan di bawah data alternatif. (Gelman & Loken, 2013)

Dalam studi yang relatif sederhana dan / atau terstandarisasi, seperti uji klinis, kita dapat menyesuaikan hal-hal seperti perbandingan multipel atau berurutan dan mempertahankan tingkat kesalahan teoretis; dalam studi yang lebih kompleks dan eksploratif, model yang sering digunakan mungkin tidak dapat diterapkan karena peneliti mungkin tidak sepenuhnya sadar akan semua keputusan yang dibuat , apalagi merekam dan menyajikannya secara eksplisit. Dalam kasus seperti itu, peneliti harus (1) jujur ​​dan terbuka tentang apa yang dilakukan; (2) menyajikan nilai-p baik dengan peringatan kuat, atau tidak sama sekali; (3) mempertimbangkan menyajikan garis bukti lain, seperti hipotesis yang masuk akal sebelumnya atau studi replikasi tindak lanjut.

Paul
sumber
Ini sepertinya jawaban yang bagus tapi besok saya harus mencernanya secara mental.
Praxeolitic
dengan uraian masalah sebagaimana dinyatakan itu terdengar seolah-olah seorang insinyur mengklaim bahwa ia selalu melakukan pilihan Anda # 2
Aksakal
Mungkin, tapi dia tidak mengatakannya secara eksplisit. Kesalahan besar dapat terjadi ketika orang menebak apa yang dipikirkan orang lain daripada berdiskusi secara eksplisit.
Paul
Dalam kursus statistik terapan, terlalu sedikit penekanan diberikan pada formalisme tentang apa artinya memperkirakan parameter. Misalkan kita berencana untuk melempar koin, dan mencatat frekuensi kepala. Masuk, kami diam-diam menganggap distribusi aktual adalah Bernoulli dengan p = q = 0,5. The, setelah 1.000 membalik, kita bertanya pada diri sendiri 'seberapa besar kemungkinan ini adalah koin yang adil' dengan membandingkan kenyataan dengan teori / asumsi. Tetapi dalam banyak sains, orang menganggap hal-hal terdistribusi secara normal, kemudian menggunakan uji-t. Tapi itu tidak ada artinya jika pengembaliannya tidak didistribusikan secara normal.
eSurfsnake
1

Tampaknya ada kesalahan logis. Apakah 1000 volt meter berfungsi, insinyur mengatakan "jika ada pembacaan lebih dari 100, saya akan menggunakan meter lainnya." Tapi bagaimana dia bisa tahu bahwa tegangannya> 100 tanpa menggunakan 1000 volt meter?

Saya tidak berpikir teka-teki ini cukup baik dirumuskan untuk membuat pertanyaan filosofis yang berguna. Secara praktis, saya setuju dengan jawaban bahwa hal yang benar adalah membuat histogram dan melihat apakah terlihat terpotong.

Tetapi, dalam hal apa pun, tidak ada dalam pertanyaan yang membahas masalah yang penting, seperti: (1) apa yang diketahui (atau diduga) distribusi bacaan, dan mengapa? Apakah ada alasan untuk percaya bahwa mereka terdistribusi secara normal? (2) Jika pertanyaan itu tidak dijawab, lalu bagaimana interval kepercayaan pernah diperkirakan?

Untuk membuatnya ekstrem, beberapa 'voltase' sedang diukur. Misalkan catu daya tidak dapat menghasilkan lebih dari 100 volt. Jika itu benar, mungkin tidak ada pengukuran lebih dari 100 volt, sehingga meter tidak relevan.

Ada banyak lagi - dalam hal prior, kendala, dll. - yang masuk ke dalam estimasi dan sejenisnya daripada yang tercakup dalam pertanyaan. Ini tidak seperti paradoks 'Monty Hall', yang garing dan bersih.

eSurfsnake
sumber
1
Inti cerita ini adalah untuk mengkritik interpretasi probabilitas yang mengandalkan peristiwa hipotetis dengan memperluas interpretasi ini ke ekstrem yang tidak masuk akal. Masalah yang Anda sebutkan di luar intinya. Seharusnya insinyur akan tahu untuk mengubah voltmeter jika diperlukan (misalnya melihat pembacaan "100") dan ahli statistik sebaliknya memiliki alasan untuk menggunakan pendekatan yang ia gunakan (misalnya ia kebetulan sudah tahu bahwa distribusi normal adalah baik model untuk bacaan ini).
Praxeolitic