Saat membaca makalah berikut , saya menemukan pernyataan berikut:
Seperti yang disebutkan, sering disajikan tanpa referensi ke model probabilistik, sejalan dengan ide Benzecri [1973] untuk "membiarkan data berbicara sendiri."
(kutipan dari JP Benzécri. L'analyse des données. Tome II: L'analyse des korespondensi. Dunod, 1973.)
Dari cara saya membaca makalah ini, kedengarannya seperti "biarkan data berbicara sendiri" berarti sesuatu di sepanjang garis mempertimbangkan berbagai langkah di seluruh data tanpa memperhatikan fungsi kemungkinan atau proses menghasilkan data .
Sementara saya pernah mendengar kutipan "biarkan data berbicara sendiri" sebelumnya, saya belum memikirkan apa yang tersirat. Apakah interpretasi saya di atas apa yang secara tidak langsung dinyatakan oleh kutipan ini?
Jawaban:
Penafsiran tergantung pada konteks, tetapi ada beberapa konteks umum di mana ini muncul. Pernyataan ini sering digunakan dalam analisis Bayesian untuk menekankan fakta bahwa kita idealnya menginginkan distribusi posterior dalam analisis agar kuat terhadap asumsi sebelumnya, sehingga efek data "mendominasi" posterior. Secara lebih umum, kutipan biasanya berarti bahwa kita ingin model statistik kita untuk menyesuaikan diri dengan struktur data, daripada memaksa data ke dalam interpretasi yang merupakan asumsi struktural model yang tidak dapat diverifikasi.
Kutipan khusus yang Anda maksudkan dilengkapi dengan kutipan tambahan: "Model harus mengikuti data, bukan sebaliknya" (diterjemahkan dari Benzécri J (1973) L'Analyse des Données. Tome II: L'Analyse des Correspondances . Dunod, p. 6). Benzécri berpendapat bahwa model statistik harus mengekstraksi struktur dari data, daripada memaksakan struktur. Dia menganggap penggunaan metode eksplorasi grafis sebagai sangat penting untuk memungkinkan analis "membiarkan data berbicara".
sumber
Kembali sekitar tahun 2005 ketika "Penambangan Data" adalah ancaman terbaru untuk profesi statistik, saya ingat melihat poster dengan "Prinsip Penambangan Data," salah satunya adalah "biarkan data berbicara" (tidak dapat mengingat apakah "untuk dirinya sendiri" sudah termasuk). Jika Anda berpikir tentang algoritma yang mungkin dianggap "Data Mining," apriori dan partisi rekursif muncul di pikiran, dua algoritma yang dapat dimotivasi tanpa asumsi statistik dan menghasilkan ringkasan yang cukup mendasar dari kumpulan data yang mendasarinya.
@ Ben mengerti lebih banyak tentang sejarah frasa daripada yang saya lakukan, tetapi memikirkan tentang kutipan yang dikutip di koran:
Tampak bagi saya bahwa prosedur MCA memang menyerupai apriori atau partisi rekursif (atau neraka, rata-rata aritmatika dalam hal ini) dalam hal itu dapat dimotivasi tanpa pemodelan sama sekali dan merupakan operasi mekanis pada set data yang masuk akal berdasarkan pada beberapa prinsip pertama.
Ada spektrum untuk membiarkan data berbicara. Model bayesian sepenuhnya dengan prior kuat akan berada di satu ujung. Model nonparametrik yang sering akan lebih dekat ke ujung yang lain.
sumber