Apa yang dimaksud dengan “Biarkan data berbicara sendiri”?

10

Saat membaca makalah berikut , saya menemukan pernyataan berikut:

Seperti yang disebutkan, sering disajikan tanpa referensi ke model probabilistik, sejalan dengan ide Benzecri [1973] untuk "membiarkan data berbicara sendiri."

(kutipan dari JP Benzécri. L'analyse des données. Tome II: L'analyse des korespondensi. Dunod, 1973.)

Dari cara saya membaca makalah ini, kedengarannya seperti "biarkan data berbicara sendiri" berarti sesuatu di sepanjang garis mempertimbangkan berbagai langkah di seluruh data tanpa memperhatikan fungsi kemungkinan atau proses menghasilkan data .

Sementara saya pernah mendengar kutipan "biarkan data berbicara sendiri" sebelumnya, saya belum memikirkan apa yang tersirat. Apakah interpretasi saya di atas apa yang secara tidak langsung dinyatakan oleh kutipan ini?

Cliff AB
sumber
9
Biarkan kutipan itu berbicara sendiri.
Mark L. Stone
@ MarkL.Stone: Sama seperti data, kutipan lebih baik dipahami dengan konteks
Cliff AB

Jawaban:

8

Penafsiran tergantung pada konteks, tetapi ada beberapa konteks umum di mana ini muncul. Pernyataan ini sering digunakan dalam analisis Bayesian untuk menekankan fakta bahwa kita idealnya menginginkan distribusi posterior dalam analisis agar kuat terhadap asumsi sebelumnya, sehingga efek data "mendominasi" posterior. Secara lebih umum, kutipan biasanya berarti bahwa kita ingin model statistik kita untuk menyesuaikan diri dengan struktur data, daripada memaksa data ke dalam interpretasi yang merupakan asumsi struktural model yang tidak dapat diverifikasi.

Kutipan khusus yang Anda maksudkan dilengkapi dengan kutipan tambahan: "Model harus mengikuti data, bukan sebaliknya" (diterjemahkan dari Benzécri J (1973) L'Analyse des Données. Tome II: L'Analyse des Correspondances . Dunod, p. 6). Benzécri berpendapat bahwa model statistik harus mengekstraksi struktur dari data, daripada memaksakan struktur. Dia menganggap penggunaan metode eksplorasi grafis sebagai sangat penting untuk memungkinkan analis "membiarkan data berbicara".

Ben - Pasang kembali Monica
sumber
(+1) Dengan itu dalam pikiran, saya kira kutipan dalam makalah terkait pertama menyiratkan menyiratkan bahwa metode ini melihat struktur kovarians empiris, daripada struktur ketergantungan model berbasis.
Cliff AB
1
Ya, saya pikir itu benar. Perlu dicatat bahwa Benzécri mengklaim bahwa analisis data pada dasarnya setara dengan dekomposisi eigen di PCA. Dia dikutip mengatakan, "semuanya, melakukan analisis data, dalam matematika yang baik, hanya mencari vektor eigen; semua ilmu (atau seni) itu adalah dalam menemukan matriks yang tepat untuk mendiagonisasi." (lihat Husson et al 2016 , hal. 2)
Ben - Reinstate Monica
2
Ha, itu klaim yang sangat menarik baginya. Konteks itu membuat kutipan di koran lebih masuk akal.
Cliff AB
Ya, ini sangat ekstrem!
Ben - Reinstate Monica
(+1). Sementara, pada pandangan pertama, kutipan itu tampaknya sulit untuk tidak sepaham (mengapa "memaksakan" sesuatu menjadi hal yang baik?), Kutukan dimensi dalam statistik nonparametrik, misalnya, menunjukkan bahwa memang demikianlah adanya. lebih mudah untuk mendengarkan data yang berbicara sendiri ketika kita mendengarkannya melalui model parametrik.
Christoph Hanck
1

Kembali sekitar tahun 2005 ketika "Penambangan Data" adalah ancaman terbaru untuk profesi statistik, saya ingat melihat poster dengan "Prinsip Penambangan Data," salah satunya adalah "biarkan data berbicara" (tidak dapat mengingat apakah "untuk dirinya sendiri" sudah termasuk). Jika Anda berpikir tentang algoritma yang mungkin dianggap "Data Mining," apriori dan partisi rekursif muncul di pikiran, dua algoritma yang dapat dimotivasi tanpa asumsi statistik dan menghasilkan ringkasan yang cukup mendasar dari kumpulan data yang mendasarinya.

@ Ben mengerti lebih banyak tentang sejarah frasa daripada yang saya lakukan, tetapi memikirkan tentang kutipan yang dikutip di koran:

MCA dapat dilihat sebagai rekanan PCA untuk data kategorikal dan melibatkan pengurangan dimensi data untuk menyediakan subruang yang paling mewakili data dalam arti memaksimalkan variabilitas poin yang diproyeksikan. Seperti yang disebutkan, sering disajikan tanpa referensi ke model probabilistik, sejalan dengan ide Benzecec [1973] untuk "membiarkan data berbicara sendiri."

Tampak bagi saya bahwa prosedur MCA memang menyerupai apriori atau partisi rekursif (atau neraka, rata-rata aritmatika dalam hal ini) dalam hal itu dapat dimotivasi tanpa pemodelan sama sekali dan merupakan operasi mekanis pada set data yang masuk akal berdasarkan pada beberapa prinsip pertama.

Ada spektrum untuk membiarkan data berbicara. Model bayesian sepenuhnya dengan prior kuat akan berada di satu ujung. Model nonparametrik yang sering akan lebih dekat ke ujung yang lain.

Ben Ogorek
sumber