Pertanyaan ini telah membekas di benak saya selama lebih dari sebulan. Amstat News edisi Februari 2015 memuat artikel oleh Profesor Berkeley Mark van der Laan yang memarahi orang-orang karena menggunakan model yang tidak tepat. Dia menyatakan bahwa dengan menggunakan model, statistik lebih merupakan seni daripada sains. Menurutnya, kita selalu dapat menggunakan "model yang tepat" dan bahwa kegagalan kita untuk melakukannya berkontribusi pada "kurangnya ketelitian ... Saya takut bahwa representasi kita dalam ilmu data menjadi terpinggirkan."
Saya setuju bahwa kita dalam bahaya menjadi terpinggirkan, tetapi ancaman biasanya datang dari mereka yang mengklaim (terdengar sangat mirip dengan Profesor van der Laan, tampaknya) bahwa mereka tidak menggunakan beberapa metode perkiraan, tetapi metode yang sebenarnya jauh lebih sedikit ketat daripada model statistik yang diterapkan dengan hati-hati - bahkan yang salah.
Saya pikir itu adil untuk mengatakan bahwa Prof van der Laan agak mencemooh orang-orang yang mengulangi kutipan Box yang sering digunakan, "semua model salah, tetapi ada yang berguna." Pada dasarnya, ketika saya membacanya, ia mengatakan bahwa semua model salah, dan semua tidak berguna. Sekarang, siapakah saya untuk tidak setuju dengan seorang profesor Berkeley? Di sisi lain, siapakah dia yang begitu berani menolak pandangan salah satu raksasa sesungguhnya di bidang kita?
Dalam uraiannya, Dr. van der Laan menyatakan bahwa "sama sekali tidak masuk akal untuk menyatakan bahwa semua model itu salah, ... Misalnya, model statistik yang tidak membuat asumsi selalu benar." Dia melanjutkan: "Tapi sering, kita bisa melakukan lebih baik dari itu: Kita mungkin tahu bahwa data adalah hasil dari percobaan yang identik independen." Saya tidak melihat bagaimana orang dapat mengetahui hal itu kecuali dalam pengambilan sampel acak yang sangat sempit atau pengaturan eksperimental yang terkontrol. Penulis menunjuk pada karyanya dalam pembelajaran kemungkinan maksimum yang ditargetkan dan pembelajaran berbasis kerugian minimum yang ditargetkan, yang "mengintegrasikan keahlian dalam pembelajaran mesin / estimasi data-adaptif, semua kemajuan luar biasa dalam inferensial kausal, data yang disensor, efisiensi dan empiris teori proses sambil tetap memberikan inferensi statistik formal. "
Ada juga beberapa pernyataan yang saya setujui. Dia mengatakan bahwa kita perlu mengambil pekerjaan kita, peran kita sebagai ahli statistik, dan kolaborator ilmiah kita dengan serius. Dengar dengar! Ini tentu berita buruk ketika orang secara rutin menggunakan model regresi logistik, atau apa pun, tanpa hati-hati mempertimbangkan apakah cukup untuk menjawab pertanyaan ilmiah atau jika cocok dengan data. Dan saya memang melihat banyak pelanggaran seperti itu dalam pertanyaan yang diposting di forum ini. Tetapi saya juga melihat penggunaan model eksak yang efektif dan berharga, bahkan yang parametrik. Dan bertentangan dengan apa yang dia katakan, saya jarang "bosan mati oleh model regresi logistik lain." Kurasa itulah kenaifanku.
Jadi inilah pertanyaanku:
- Apa kesimpulan statistik bermanfaat yang dapat dibuat dengan menggunakan model yang tidak membuat asumsi sama sekali?
- Apakah ada studi kasus, dengan data nyata dan penting dalam penggunaan kemungkinan maksimum yang ditargetkan? Apakah metode ini banyak digunakan dan diterima?
- Apakah semua model yang tidak tepat memang tidak berguna?
- Apakah mungkin untuk mengetahui bahwa Anda memiliki model yang tepat selain dalam kasus sepele?
- Jika ini terlalu berdasarkan opini dan karenanya di luar topik, di mana bisa dibahas? Karena artikel Dr van der Laan jelas perlu dibahas.
Jawaban:
Artikel yang dikutip tampaknya didasarkan pada kekhawatiran bahwa ahli statistik "tidak akan menjadi bagian intrinsik dari tim ilmiah, dan para ilmuwan secara alami akan memiliki keraguan mereka tentang metode yang digunakan" dan bahwa "kolaborator akan melihat kita sebagai teknisi yang dapat mereka arahkan untuk mendapatkan hasil ilmiah mereka dipublikasikan. " Komentar saya tentang pertanyaan yang diajukan oleh @rvl berasal dari perspektif ilmuwan biologi non-statistik yang telah dipaksa untuk bergulat dengan masalah statistik yang semakin rumit ketika saya pindah dari penelitian bangku ke penelitian translasi / klinis selama beberapa tahun terakhir. Pertanyaan 5 jelas dijawab oleh beberapa jawaban sekarang di halaman ini; Saya akan pergi secara terbalik dari sana.
4) Tidak masalah apakah "model yang tepat" ada, karena meskipun demikian saya mungkin tidak akan mampu melakukan penelitian. Pertimbangkan masalah ini dalam konteks diskusi: Apakah kita benar-benar perlu memasukkan "semua prediktor yang relevan?" Bahkan jika kita dapat mengidentifikasi "semua prediktor yang relevan" masih akan ada masalah mengumpulkan data yang cukup untuk memberikan derajat kebebasan untuk memasukkan mereka semua andal ke dalam model. Itu cukup sulit dalam studi eksperimental terkontrol, apalagi studi retrospektif atau populasi. Mungkin dalam beberapa jenis "Big Data" itu tidak terlalu menjadi masalah, tetapi itu untuk saya dan rekan-rekan saya. Akan selalu ada kebutuhan untuk "menjadi pintar tentang hal itu," seperti yang @Aksakal berikan jawaban pada halaman itu.
Sejujurnya kepada Prof. van der Laan, ia tidak menggunakan kata "tepat" dalam artikel yang dikutip, setidaknya dalam versi yang saat ini tersedia secara online dari tautan . Dia berbicara tentang model "realistis". Itu perbedaan penting.
Kemudian lagi, Prof. van der Laan mengeluh bahwa "Statistik sekarang adalah seni, bukan ilmu," yang lebih dari sedikit tidak adil pada bagiannya. Pertimbangkan cara dia mengusulkan untuk bekerja dengan kolaborator:
Penerapan prinsip-prinsip ilmiah ini untuk masalah-masalah dunia nyata tampaknya membutuhkan banyak "seni", seperti halnya dengan pekerjaan di perusahaan ilmiah apa pun. Saya kenal beberapa ilmuwan yang sangat sukses, banyak yang berhasil, dan beberapa gagal. Dalam pengalaman saya perbedaannya tampaknya dalam "seni" mengerucutkan tujuan ilmiah. Hasilnya mungkin sains, tetapi prosesnya lebih dari itu.
3) Sekali lagi, bagian dari masalah adalah terminologis; ada perbedaan besar antara model "tepat" dan model "realistis" yang dicari oleh Prof. van der Laan. Klaimnya adalah bahwa banyak model statistik standar cukup tidak realistis untuk menghasilkan hasil "tidak dapat diandalkan". Secara khusus: "Estimator dari estimasi dan didefinisikan dalam model statistik yang jujur tidak dapat diperkirakan secara masuk akal berdasarkan model parametrik." Itu masalah untuk pengujian, bukan opini.
Karyanya sendiri dengan jelas mengakui bahwa model yang tepat tidak selalu memungkinkan. Pertimbangkan manuskrip ini tentang estimator kemungkinan maksimum yang ditargetkan (TMLE) dalam konteks variabel hasil yang hilang. Ini didasarkan pada asumsi hasil yang hilang secara acak, yang mungkin tidak pernah dapat diuji dalam praktik: "... kami menganggap tidak ada perancu yang tidak teramati dari hubungan antara hilangnya ... dan hasilnya." Ini adalah contoh lain dari kesulitan dalam memasukkan "semua prediktor yang relevan." Namun, kekuatan TMLE adalah bahwa ia tampaknya membantu mengevaluasi "asumsi positif" dari dukungan yang memadai dalam data untuk memperkirakan parameter target dalam konteks ini. Tujuannya adalah sedekat mungkin dengan model data yang realistis.
2) TMLE telah dibahas di Cross Divalidasi sebelumnya. Saya tidak mengetahui luasnya penggunaan data nyata. Google Cendekia hari ini menunjukkan 258 kutipan dari apa yang tampaknya merupakan laporan awal , tetapi pada pandangan pertama tidak ada yang tampak pada set data dunia nyata yang besar. Artikel Jurnal Perangkat Lunak Statistik pada paket R terkait hanya menampilkan 27 kutipan Google Cendekia hari ini. Namun, itu tidak boleh dianggap sebagai bukti tentang nilai TMLE. Fokusnya pada memperoleh estimasi bias yang tidak andal dari "estimasi dan" minat yang sebenarnya, seringkali masalah dengan estimasi plug-in yang berasal dari model statistik standar, tampaknya berpotensi bernilai.
1) Pernyataan: "model statistik yang tidak membuat asumsi selalu benar" tampaknya dimaksudkan sebagai manusia jerami, sebuah tautologi. Data adalah data. Saya berasumsi bahwa ada hukum alam semesta yang tetap konsisten dari hari ke hari. Metode TMLE mungkin mengandung asumsi tentang konveksitas dalam ruang pencarian, dan seperti yang disebutkan di atas penerapannya dalam konteks tertentu mungkin memerlukan asumsi tambahan.
Bahkan Prof. van der Laan akan setuju bahwa beberapa asumsi diperlukan. Perasaan saya adalah bahwa ia ingin meminimalkan jumlah asumsi dan menghindari asumsi yang tidak realistis. Apakah itu benar-benar memerlukan menyerah pada model parametrik, seperti yang tampaknya dia klaim, adalah pertanyaan penting.
sumber
Mungkin saya melewatkan intinya, tetapi saya pikir Anda harus mundur sedikit.
Saya pikir maksudnya adalah penyalahgunaan alat yang mudah diakses tanpa pengetahuan lebih lanjut. Ini juga berlaku untuk uji-t sederhana: cukup masukkan algoritma dengan data Anda, dapatkan p <0,05 dan berpikir, bahwa tesis Anda benar. Benar-benar salah. Anda, tentu saja, harus tahu lebih banyak tentang data Anda.
Melangkah lebih jauh ke belakang: Tidak ada yang seperti model yang tepat ( fisikawan di sini). Tetapi beberapa setuju dengan pengukuran kami. Satu-satunya hal yang pasti adalah matematika. Yang tidak ada hubungannya dengan kenyataan atau modelnya . Segala sesuatu yang lain (dan setiap model realitas) adalah "salah" (seperti yang sering dikutip).
Tapi apa artinya "salah" dan bermanfaat? Menilai sendiri:
SEMUA teknologi tinggi kami saat ini (komputer, roket, radioaktivitas dll) didasarkan pada model-model yang salah ini. Mungkin bahkan dihitung dengan simulasi "salah" dengan model "salah".
-> Lebih fokus pada "berguna" daripada "salah";)
Lebih eksplisit untuk pertanyaan Anda:
sumber
Dalam ekon, banyak yang dikatakan memahami 'proses menghasilkan data.' Saya tidak yakin apa sebenarnya yang dimaksud dengan model 'tepat', tetapi dalam ekon mungkin sama dengan model 'ditentukan dengan benar'.
Tentu saja, Anda ingin tahu sebanyak mungkin tentang proses yang menghasilkan data sebelum mencoba model, bukan? Saya pikir kesulitannya berasal dari a) kita mungkin tidak memiliki petunjuk tentang DGP nyata dan b) bahkan jika kita tahu DGP nyata itu mungkin sulit untuk dimodelkan dan diperkirakan (karena banyak alasan.)
Jadi, Anda membuat asumsi untuk menyederhanakan masalah dan mengurangi persyaratan estimasi. Bisakah Anda tahu jika asumsi Anda benar? Anda dapat memperoleh bukti yang mendukungnya, tetapi IMO sulit untuk benar-benar yakin dalam beberapa kasus.
Saya harus menyaring semua ini baik dari segi teori yang sudah mapan maupun kepraktisan. Jika Anda membuat asumsi yang konsisten dengan teori dan asumsi itu memberi Anda kinerja estimasi yang lebih baik (efisiensi, akurasi, konsistensi, apa pun) maka saya tidak melihat alasan untuk menghindarinya, bahkan jika itu membuat model 'tidak tepat'.
Terus terang, saya pikir artikel ini dimaksudkan untuk merangsang mereka yang bekerja dengan data untuk berpikir lebih keras tentang seluruh proses pemodelan. Jelas bahwa van der Laan membuat asumsi dalam karyanya . Dalam contoh ini , pada kenyataannya, van der Laan tampaknya membuang segala keprihatinan untuk model yang tepat, dan sebagai gantinya menggunakan mish-mash prosedur untuk memaksimalkan kinerja. Ini membuat saya lebih percaya diri bahwa dia mengangkat kutipan Box dengan maksud mencegah orang menggunakannya sebagai pelarian dari kerja yang sulit untuk memahami masalah.
Mari kita hadapi itu, dunia penuh dengan penyalahgunaan dan penyalahgunaan model statistik. Orang-orang secara membuta menerapkan apa pun yang mereka tahu bagaimana melakukannya, dan lebih buruk lagi, orang lain sering menafsirkan hasilnya dengan cara yang paling diinginkan. Artikel ini adalah pengingat yang baik untuk berhati-hati, tetapi saya tidak berpikir kita harus membawanya ke ekstrem.
Implikasi dari hal di atas untuk pertanyaan Anda:
sumber
Untuk membahas poin 3, jawabannya, tentu saja, tidak. Hampir setiap usaha manusia didasarkan pada model yang disederhanakan di beberapa titik: memasak, membangun, hubungan antarpribadi semua melibatkan manusia yang bertindak berdasarkan beberapa jenis data + asumsi. Tidak ada yang pernah membuat model yang tidak ingin mereka manfaatkan. Menegaskan sebaliknya adalah hobi yang tidak berguna.
Itu jauh lebih menarik dan mencerahkan, dan berguna untuk bertanya ketika model yang tidak tepat tidak berguna, mengapa mereka gagal dalam kegunaannya, dan apa yang terjadi ketika kita mengandalkan model yang ternyata tidak berguna. Setiap peneliti, baik di bidang akademis atau industri, harus mengajukan pertanyaan itu dengan cerdik dan sering.
Saya tidak berpikir pertanyaan itu dapat dijawab secara umum, tetapi prinsip-prinsip penyebaran kesalahan akan menginformasikan jawabannya. Model eksak rusak ketika perilaku yang mereka prediksi gagal untuk mencerminkan perilaku di dunia nyata. Memahami bagaimana kesalahan menyebar melalui suatu sistem dapat membantu orang memahami seberapa banyak ketelitian yang diperlukan dalam pemodelan sistem.
Misalnya, bola kaku biasanya bukan model yang buruk untuk bola bisbol. Tetapi ketika Anda merancang sarung tangan penangkap, model ini akan mengecewakan Anda dan mengarahkan Anda untuk merancang hal yang salah. Asumsi penyederhanaan Anda tentang fisika baseball menyebar melalui sistem baseball-mitt Anda, dan menuntun Anda untuk menarik kesimpulan yang salah.
sumber
1) Apa kesimpulan statistik berguna yang dapat dibuat dengan menggunakan model yang tidak membuat asumsi sama sekali?
Model adalah definisi generalisasi dari apa yang Anda amati yang dapat ditangkap oleh faktor-faktor penyebab tertentu yang pada gilirannya dapat menjelaskan dan memperkirakan peristiwa yang Anda amati. Mengingat bahwa semua algoritma generalisasi tersebut memiliki semacam asumsi mendasar. Saya tidak yakin apa yang tersisa dari model jika Anda tidak memiliki asumsi apa pun. Saya pikir Anda tidak memiliki data asli dan tidak ada model.
2) Apakah ada studi kasus, dengan data nyata dan penting dalam penggunaan kemungkinan maksimum yang ditargetkan? Apakah metode ini banyak digunakan dan diterima?
Saya tidak tahu Kemungkinan maksimum digunakan sepanjang waktu. Model logit didasarkan pada mereka dan juga banyak model lainnya. Mereka tidak banyak berbeda dengan OLS standar di mana Anda fokus pada pengurangan jumlah kuadrat residu. Saya tidak yakin berapa kemungkinan maksimum yang ditargetkan. Dan, bagaimana ini berbeda dari kemungkinan maksimum tradisional.
3) Apakah semua model yang tidak tepat memang tidak berguna?
Benar-benar tidak. Model eksak bisa sangat berguna. Pertama, mereka berkontribusi pada pemahaman yang lebih baik atau menjelaskan suatu fenomena. Itu harus diperhitungkan untuk sesuatu. Kedua, mereka dapat memberikan estimasi keturunan dan perkiraan dengan Interval Keyakinan yang relevan untuk menangkap ketidakpastian di sekitar estimasi. Itu bisa memberikan banyak info tentang apa yang Anda pelajari.
Masalah "tidak tepat" juga menimbulkan masalah ketegangan antara kekikiran dan pakaian berlebihan. Anda dapat memiliki model sederhana dengan 5 variabel yang "tidak tepat" tetapi melakukan pekerjaan yang cukup bagus untuk menangkap dan menjelaskan tren keseluruhan dari variabel dependen. Anda dapat memiliki model yang lebih kompleks dengan 10 variabel yang "lebih tepat" daripada yang pertama (Adjusted R Square, lebih tinggi Standard Error, dll.). Namun, model yang lebih kompleks kedua ini mungkin benar-benar macet ketika Anda mengujinya menggunakan sampel Hold Out. Dan, dalam kasus seperti itu, mungkin model "tidak tepat" benar-benar berkinerja jauh lebih baik dalam sampel Tahan. Ini terjadi secara harfiah sepanjang waktu dalam ekonometrik dan saya curiga dalam banyak ilmu sosial lainnya. Waspadalah terhadap model "tepat".
4) Apakah mungkin untuk mengetahui bahwa Anda memiliki model yang tepat selain dalam kasus sepele?
Tidak mungkin mengetahui bahwa Anda memiliki model yang tepat. Tapi, sangat mungkin mengetahui bahwa Anda memiliki model yang cukup bagus. Ukuran kriteria informasi (AIC, BIC, SIC) dapat memberi Anda banyak informasi yang memungkinkan untuk membandingkan dan membandingkan kinerja relatif berbagai model. Selain itu, tes LINK juga dapat membantu dalam hal itu.
5) Jika ini terlalu berdasarkan opini dan karenanya di luar topik, di mana bisa dibahas? Karena artikel Dr van der Laan jelas perlu dibahas.
Saya akan berpikir ini sebagai forum yang tepat untuk membahas masalah ini seperti di tempat lain. Ini adalah masalah yang cukup menarik bagi kebanyakan dari kita.
sumber
(Saya tidak melihat frasa "model persis" dalam artikel (meskipun dikutip di atas))
1) Apa kesimpulan statistik berguna yang dapat dibuat dengan menggunakan model yang tidak membuat asumsi sama sekali?
Anda harus mulai dari suatu tempat. Jika hanya itu yang Anda miliki (tidak ada), itu bisa menjadi titik awal.
2) Apakah ada studi kasus, dengan data nyata dan penting dalam penggunaan kemungkinan maksimum yang ditargetkan? Apakah metode ini banyak digunakan dan diterima?
Untuk menjawab pertanyaan kedua, Targeted Maximum Likelihood muncul di 93/1143281 (~ .008%) dari makalah di arxiv.org. Jadi, tidak mungkin estimasi yang baik (tanpa asumsi) untuk yang itu.
3) Apakah semua model yang tidak tepat memang tidak berguna?
Tidak. Terkadang Anda hanya peduli pada satu aspek dari suatu model. Aspek itu bisa sangat baik dan sisanya sangat tidak tepat.
4) Apakah mungkin untuk mengetahui bahwa Anda memiliki model yang tepat selain dalam kasus sepele?
Model terbaik adalah model yang paling menjawab pertanyaan Anda. Itu mungkin berarti meninggalkan sesuatu. Apa yang ingin Anda hindari, sebisa mungkin, adalah pelanggaran asumsi.
5) Happy hour . Dan minuman lebih murah untuk di-boot!
Saya menemukan penggunaan kata "tepat" sedikit mengganggu. Ini bukan pembicaraan yang sangat seperti ahli statistik. Sifat tdk tepat? Variasi? Terima Kasih! Itu sebabnya kita semua ada di sini. Saya pikir ungkapan "Semua model salah ..." tidak apa-apa, tetapi hanya di perusahaan yang tepat. Para ahli statistik memahami artinya, tetapi hanya sedikit yang mengerti.
sumber
Bagi saya, artikel itu tampaknya artikel yang jujur tetapi politis, polemik yang tulus . Dengan demikian, ini berisi banyak bagian yang penuh gairah yang tidak masuk akal secara ilmiah, tetapi meskipun demikian mungkin efektif dalam membangkitkan percakapan dan pertimbangan yang bermanfaat tentang hal-hal penting.
Ada banyak jawaban yang baik di sini jadi saya hanya mengutip beberapa baris dari artikel untuk menunjukkan bahwa Prof. Laan tentu saja tidak menggunakan "model yang tepat" dalam karyanya (dan omong-omong, siapa yang mengatakan bahwa "tepat" model "adalah konsep yang setara dengan mekanisme menghasilkan data aktual?)
Kutipan ( cetak tebal penekanan saya)
Komentar: "realistis" sama seperti dihapus dari "tepat" seperti halnya Mars dari Bumi. Mereka berdua mengorbit Matahari, jadi untuk beberapa tujuan tidak masalah planet mana yang dipilih. Untuk tujuan lain, itu penting. Juga "terbaik" adalah konsep relatif. "Tepat" tidak.
Komentar: Kejujuran memang kebijakan terbaik, tetapi tentu saja tidak dijamin "tepat". Juga, "estimasi masuk akal" tampaknya merupakan hasil yang sangat terdilusi jika seseorang menggunakan "model yang tepat".
Komentar: Baik. Kami "melakukan yang terbaik yang kami bisa". Karena hampir semua orang memikirkan diri sendiri. Tetapi "yang terbaik yang kami bisa" bukanlah "tepat".
sumber
Saya akan mendekati ini dari arah filosofi alternatif, mengingat prinsip-prinsip yang sangat berguna dari Manajemen Ketidakpastian yang dibahas dalam buku-buku George F. Klir tentang set fuzzy. Saya tidak bisa memberikan ketepatan van der Laan, tetapi saya bisa memberikan alasan yang agak lengkap mengapa tujuannya secara logis tidak mungkin; yang akan membutuhkan diskusi panjang yang merujuk bidang lain, jadi bersabarlah dengan saya.
Klir dan rekan penulisnya membagi ketidakpastian menjadi beberapa subtipe, seperti nonspesifikitas (yaitu ketika Anda memiliki serangkaian alternatif yang tidak diketahui, ditangani melalui sarana seperti Fungsi Hartley); ketidaktepatan dalam definisi (yaitu "ketidakjelasan" dimodelkan dan diukur dalam set fuzzy); perselisihan atau perselisihan dalam bukti (dibahas dalam Teori Bukti Dempster-Shafer); ditambah teori probabilitas, teori kemungkinan dan ketidakpastian pengukuran, di mana tujuannya adalah memiliki ruang lingkup yang memadai untuk menangkap bukti yang relevan, sambil meminimalkan kesalahan. Saya melihat seluruh kotak peralatan teknik statistik sebagai cara alternatif untuk mempartisi ketidakpastian dengan cara yang berbeda, seperti halnya pemotong kue; interval kepercayaan dan nilai-p karantina ketidakpastian dalam satu cara, sementara langkah-langkah seperti Shropon's Entropy memotongnya dari sudut lain. Apa yang mereka bisa ' Namun, yang dilakukan adalah sepenuhnya menghilangkannya. Untuk mencapai "model yang tepat" dari jenis yang tampaknya dideskripsikan oleh van der Laan, kita perlu mengurangi semua jenis ketidakpastian ini menjadi nol, sehingga tidak ada lagi yang perlu dipartisi. Model yang benar-benar "pasti" akan selalu memiliki nilai probabilitas dan kemungkinan 1, skor tidak spesifik 0 dan tidak ada ketidakpastian apa pun dalam definisi istilah, rentang nilai, atau skala pengukuran. Tidak akan ada perselisihan dalam sumber-sumber bukti alternatif. Prediksi yang dibuat oleh model seperti itu akan selalu 100 persen akurat; model prediksi pada dasarnya mempartisi ketidakpastian mereka ke masa depan, tetapi tidak ada lagi yang bisa ditunda. Perspektif ketidakpastian memiliki beberapa implikasi penting: dari jenis van der Laan tampaknya menggambarkan, kita perlu mengurangi semua jenis ketidakpastian ini menjadi nol, sehingga tidak ada lagi yang tersisa untuk dipartisi. Model yang benar-benar "pasti" akan selalu memiliki nilai probabilitas dan kemungkinan 1, skor tidak spesifik 0 dan tidak ada ketidakpastian apa pun dalam definisi istilah, rentang nilai, atau skala pengukuran. Tidak akan ada perselisihan dalam sumber-sumber bukti alternatif. Prediksi yang dibuat oleh model seperti itu akan selalu 100 persen akurat; model prediksi pada dasarnya mempartisi ketidakpastian mereka ke masa depan, tetapi tidak ada lagi yang bisa ditunda. Perspektif ketidakpastian memiliki beberapa implikasi penting: dari jenis van der Laan tampaknya menggambarkan, kita perlu mengurangi semua jenis ketidakpastian ini menjadi nol, sehingga tidak ada lagi yang tersisa untuk dipartisi. Model yang benar-benar "pasti" akan selalu memiliki nilai probabilitas dan kemungkinan 1, skor tidak spesifik 0 dan tidak ada ketidakpastian apa pun dalam definisi istilah, rentang nilai, atau skala pengukuran. Tidak akan ada perselisihan dalam sumber-sumber bukti alternatif. Prediksi yang dibuat oleh model seperti itu akan selalu 100 persen akurat; model prediksi pada dasarnya mempartisi ketidakpastian mereka ke masa depan, tetapi tidak ada lagi yang bisa ditunda. Perspektif ketidakpastian memiliki beberapa implikasi penting: Model yang benar-benar "pasti" akan selalu memiliki nilai probabilitas dan kemungkinan 1, skor tidak spesifik 0 dan tidak ada ketidakpastian apa pun dalam definisi istilah, rentang nilai, atau skala pengukuran. Tidak akan ada perselisihan dalam sumber-sumber bukti alternatif. Prediksi yang dibuat oleh model seperti itu akan selalu 100 persen akurat; model prediksi pada dasarnya mempartisi ketidakpastian mereka ke masa depan, tetapi tidak ada lagi yang bisa ditunda. Perspektif ketidakpastian memiliki beberapa implikasi penting: Model yang benar-benar "pasti" akan selalu memiliki nilai probabilitas dan kemungkinan 1, skor tidak spesifik 0 dan tidak ada ketidakpastian apa pun dalam definisi istilah, rentang nilai, atau skala pengukuran. Tidak akan ada perselisihan dalam sumber-sumber bukti alternatif. Prediksi yang dibuat oleh model seperti itu akan selalu 100 persen akurat; model prediksi pada dasarnya mempartisi ketidakpastian mereka ke masa depan, tetapi tidak ada lagi yang bisa ditunda. Perspektif ketidakpastian memiliki beberapa implikasi penting: Prediksi yang dibuat oleh model seperti itu akan selalu 100 persen akurat; model prediksi pada dasarnya mempartisi ketidakpastian mereka ke masa depan, tetapi tidak ada lagi yang bisa ditunda. Perspektif ketidakpastian memiliki beberapa implikasi penting: Prediksi yang dibuat oleh model seperti itu akan selalu 100 persen akurat; model prediksi pada dasarnya mempartisi ketidakpastian mereka ke masa depan, tetapi tidak ada lagi yang bisa ditunda. Perspektif ketidakpastian memiliki beberapa implikasi penting:
• Urutan tinggi ini tidak hanya secara fisik tidak masuk akal, tetapi sebenarnya secara logis tidak mungkin. Jelas, kita tidak dapat mencapai skala pengukuran kontinu sempurna dengan derajat sangat kecil, dengan mengumpulkan pengamatan terbatas menggunakan peralatan ilmiah fisik yang keliru; akan selalu ada beberapa ketidakpastian dalam hal skala pengukuran. Demikian juga, akan selalu ada beberapa ketidakjelasan seputar definisi yang kami gunakan dalam percobaan kami. Masa depan juga secara inheren tidak pasti, sehingga prediksi yang seharusnya sempurna dari model "tepat" kita harus diperlakukan sebagai tidak sempurna sampai terbukti sebaliknya - yang akan memakan waktu selamanya.
• Untuk memperburuk keadaan, tidak ada teknik pengukuran yang 100 persen bebas dari kesalahan di beberapa titik dalam proses, juga tidak dapat dibuat cukup komprehensif untuk merangkul semua informasi yang mungkin saling bertentangan di alam semesta. Lebih lanjut, penghapusan variabel perancu yang mungkin terjadi dan independensi kondisional yang lengkap tidak dapat dibuktikan secara menyeluruh tanpa memeriksa semua proses fisik lain yang memengaruhi yang sedang kita periksa, serta yang memengaruhi proses sekunder ini dan seterusnya.
• Ketepatan hanya dimungkinkan dalam logika murni dan bagiannya, matematika, tepatnya karena abstraksi dipisahkan dari keprihatinan dunia nyata seperti sumber-sumber ketidakpastian ini. Sebagai contoh, dengan logika deduktif murni, kita dapat membuktikan bahwa 2 + 2 = 4 dan jawaban lain 100% salah. Kami juga dapat membuat prediksi yang sangat akurat bahwa itu akan selalu sama 4. Ketepatan seperti ini hanya mungkin dalam statistik ketika kita berurusan dengan abstraksi. Statistik sangat berguna ketika diterapkan pada dunia nyata, tetapi hal yang membuatnya berguna menyuntikkan setidaknya beberapa tingkat ketidakpastian yang tak terhindarkan, sehingga membuatnya tidak tepat. Ini adalah dilema yang tak terhindarkan.
• Selanjutnya, Peter Chu memunculkan batasan tambahan di bagian komentar dari artikel yang ditautkan. Dia mengatakannya lebih baik daripada yang saya bisa:
• Semua ini berarti bahwa sains itu sendiri tidak dapat sepenuhnya akurat, walaupun van der Laan tampaknya membicarakannya dengan cara ini dalam artikelnya; metode ilmiah sebagai proses abstrak dapat didefinisikan dengan tepat, tetapi ketidakmungkinan pengukuran yang tepat universal dan sempurna berarti tidak dapat menghasilkan model yang tepat tanpa adanya ketidakpastian. Sains adalah alat yang hebat, tetapi memiliki batasan.
• Semakin memburuk dari sana: Sekalipun dimungkinkan untuk secara tepat mengukur semua gaya yang bekerja pada setiap quark dan gluon konstituen di alam semesta, beberapa ketidakpastian masih akan tetap ada. Pertama, setiap prediksi yang dibuat oleh model yang lengkap masih belum pasti karena adanya beberapa solusi untuk persamaan kuintik dan polinomial yang lebih tinggi. Kedua, kita tidak dapat sepenuhnya yakin bahwa skeptisisme ekstrim yang terkandung dalam pertanyaan klasik "mungkin ini semua hanya mimpi atau halusinasi" bukanlah cerminan dari kenyataan - dalam hal ini semua model kita memang salah dengan cara yang paling buruk. . Ini pada dasarnya setara dengan interpretasi ontologis yang lebih ekstrim dari formulasi epistemologis asli dari filsafat seperti fenomenalisme, idealisme dan solipsisme.
• Pada tahun 1909, Ortodoksi klasiknyaGK Chesterton mencatat bahwa versi ekstrem dari filosofi ini memang dapat dinilai, tetapi dengan apakah mereka mendorong orang percaya mereka ke dalam institusi mental; solipsisme ontologis, misalnya, sebenarnya merupakan penanda skizofrenia, seperti juga beberapa sepupunya. Yang terbaik yang bisa kita capai di dunia ini adalah menghilangkan keraguan yang masuk akal; keraguan yang tidak masuk akal dari jenis yang meresahkan ini tidak dapat dihilangkan dengan teliti, bahkan dalam dunia hipotetis model yang tepat, pengukuran yang lengkap dan bebas dari kesalahan. Jika van der Laan bertujuan untuk menyingkirkan kita dari keraguan yang tidak masuk akal, maka dia bermain dengan api. Dengan menggenggam kesempurnaan, kebaikan terbatas yang dapat kita lakukan akan menyelinap melalui jari-jari kita; kita adalah makhluk terbatas yang ada di dunia tanpa batas, yang berarti jenis pengetahuan lengkap dan benar-benar pasti yang menurut van der Laan secara permanen di luar jangkauan kita. Satu-satunya cara kita dapat mencapai kepastian semacam itu adalah dengan mundur dari dunia itu ke dalam batas yang lebih sempit dari dunia abstrak sempurna yang kita sebut "matematika murni". Ini tidak berarti, bagaimanapun, bahwa mundur ke matematika murni adalah solusi untuk menghilangkan ketidakpastian. Ini pada dasarnya adalah pendekatan yang diambil oleh penerus Ludwig Wittgenstein (1889-1951), yang menguras filosofi positivisme logis dari apa pun yang masuk akal dengan menolak metafisika sama sekali dan mundur sepenuhnya ke dalam matematika murni dan saintisme, serta skeptisisme ekstrim, spesialisasi yang terlalu tinggi dan terlalu menekankan pada ketepatan atas kegunaan. Dalam prosesnya, mereka menghancurkan disiplin filsafat dengan membubarkannya menjadi tumpukan pemalsuan definisi dan memandang pusar, sehingga menjadikannya tidak relevan dengan akademisi lainnya. Ini pada dasarnya membunuh seluruh disiplin, yang masih berada di garis depan debat akademis sampai awal abad ke-20, ke titik di mana ia masih mendapat perhatian media dan beberapa pemimpinnya adalah nama-nama rumah tangga. Mereka memahami penjelasan yang sempurna dan halus tentang dunia dan itu menyelinap melalui jari-jari mereka - seperti yang terjadi pada pasien-pasien mental yang dibicarakan oleh GKC. Ini juga akan terlepas dari genggaman van der Laan, yang telah membantah pendapatnya sendiri, seperti dibahas di bawah ini. Mengejar model yang terlalu tepat bukan hanya tidak mungkin; itu bisa berbahaya, jika dibawa ke titik obsesi mengalahkan diri sendiri. Mengejar kemurnian semacam itu jarang berakhir dengan baik; sering kali mengalahkan diri sendiri seperti halnya para germofob yang menggosok tangan mereka dengan sangat marah sehingga mereka berakhir dengan luka yang terinfeksi. Saya t' yang mengingatkan pada Icarus yang mencoba mencuri api dari Matahari: sebagai makhluk yang terbatas, kita hanya dapat memiliki pemahaman yang terbatas tentang berbagai hal. Seperti yang dikatakan Chesterton dalam Ortodoksi, "Ahli logikalah yang berusaha memasukkan surga ke dalam kepalanya. Dan kepalanyalah yang terbelah."
Dalam terang di atas, izinkan saya menangani beberapa pertanyaan spesifik yang tercantum oleh rvl:
1) Model tanpa asumsi sama sekali a) tidak mengetahui asumsi sendiri atau b) harus dipisahkan dari pertimbangan yang menimbulkan ketidakpastian, seperti kesalahan pengukuran, memperhitungkan setiap variabel pembaur yang mungkin, skala pengukuran kontinu sempurna dan Suka.
2) Saya masih seorang pemula dalam hal estimasi kemungkinan maksimum (MLE), jadi saya tidak dapat mengomentari mekanisme kemungkinan target, kecuali untuk menunjukkan yang sudah jelas: kemungkinan hanya itu, kemungkinan, bukan kepastian. . Untuk mendapatkan model yang tepat membutuhkan penghapusan lengkap dari ketidakpastian, yang logika probabilistik jarang bisa lakukan, jika pernah.
3) Tentu saja tidak. Karena semua model mempertahankan beberapa ketidakpastian dan dengan demikian tidak eksak (kecuali dalam kasus matematika murni, terpisah dari pengukuran fisik dunia nyata), umat manusia tidak akan mampu membuat kemajuan teknologi apa pun hingga saat ini - atau memang, kemajuan lainnya di semua. Jika model yang tidak tepat selalu tidak berguna, kita akan melakukan percakapan ini di dalam gua, alih-alih pada teknologi yang luar biasa ini yang disebut Internet, yang semuanya dimungkinkan melalui pemodelan yang tidak tepat.
Ironisnya, model van der Laan sendiri adalah contoh utama ketidakaktifan. Artikelnya sendiri membuat sketsa model tentang bagaimana bidang statistik seharusnya dikelola, dengan tujuan menuju model yang tepat; belum ada angka yang melekat pada "model" ini, belum ada pengukuran seberapa tidak akurat atau tidak bergunanya sebagian besar model sekarang dalam pandangannya, tidak ada kuantifikasi seberapa jauh kita jauh dari visinya, tetapi saya kira kita bisa merancang tes untuk hal-hal itu . Namun demikian, modelnya tidak eksak. Jika itu tidak berguna, itu berarti maksudnya salah; jika ini berguna, itu mengalahkan poin utamanya bahwa model yang tidak tepat tidak berguna. Either way, dia membantah argumennya sendiri.
4) Mungkin tidak, karena kami tidak dapat memiliki informasi lengkap untuk menguji model kami dengan, untuk alasan yang sama bahwa kami tidak dapat memperoleh model yang tepat di tempat pertama. Model yang tepat menurut definisi memerlukan prediksi yang sempurna, tetapi bahkan jika 100 tes pertama menghasilkan 100 persen akurat, 101 mungkin tidak. Lalu ada seluruh masalah skala pengukuran sangat kecil. Setelah itu, kita masuk ke semua sumber ketidakpastian lainnya, yang akan mencemari evaluasi Menara Gading dari model Menara Gading kita.
5) Untuk mengatasi masalah ini, saya harus memasukkannya ke dalam konteks yang lebih luas dari isu-isu filosofis yang jauh lebih besar yang sering kali kontroversial, jadi saya pikir tidak mungkin membahas hal ini tanpa masuk ke pendapat (catat bagaimana hal itu sendiri merupakan hal lain. sumber ketidakpastian) tetapi Anda benar, artikel ini layak mendapat balasan. Banyak hal yang dia katakan tentang topik lain ada di jalur yang benar, seperti kebutuhan untuk membuat statistik relevan dengan Big Data, tetapi ada beberapa ekstremisme tidak praktis yang bercampur di sana yang harus diperbaiki.
sumber