Gagasan analisis data adaptif adalah Anda mengubah rencana Anda untuk menganalisis data saat Anda belajar lebih banyak tentangnya. Dalam kasus analisis data eksplorasi (EDA), ini umumnya merupakan ide yang baik (Anda sering mencari pola yang tidak terduga dalam data), tetapi untuk studi konfirmasi, ini diterima secara luas sebagai metode analisis yang sangat cacat (kecuali semua langkah-langkahnya didefinisikan dengan jelas dan direncanakan dengan baik sebelumnya).
Bahwa menjadi kata, analisis data adaptif adalah biasanya berapa banyak peneliti benar-benar melakukan analisis mereka, banyak yang cemas dari statistik. Dengan demikian, jika seseorang dapat melakukan ini dengan cara yang valid secara statistik, itu akan merevolusi praktik statistik.
Artikel Science berikut ini mengklaim telah menemukan metode untuk melakukan itu (saya minta maaf untuk paywall, tetapi jika Anda berada di universitas, Anda mungkin memiliki akses): Dwork et al, 2015, Keberadaan yang dapat digunakan kembali: Menjaga validitas dalam analisis data adaptif .
Secara pribadi, saya selalu skeptis dengan artikel statistik yang diterbitkan di Science , dan yang ini tidak berbeda. Bahkan, setelah membaca artikel dua kali, termasuk bahan tambahan, saya tidak bisa mengerti (sama sekali) mengapa penulis mengklaim bahwa metode mereka mencegah pemasangan yang berlebihan.
Pemahaman saya adalah bahwa mereka memiliki set data holdout, yang akan mereka gunakan kembali. Mereka tampaknya mengklaim dengan "mengaburkan" hasil analisis konfirmasi pada set data ketidaksesuaian, over-fitting akan dicegah (perlu dicatat bahwa fuzzing tampaknya hanya menambahkan kebisingan jika statistik yang dihitung pada data pelatihan cukup jauh). dari statistik yang dihitung pada data ketidaksepakatan ). Sejauh yang saya tahu, tidak ada alasan sebenarnya ini harus mencegah pemasangan berlebihan.
Apakah saya salah dengan apa yang penulis ajukan? Apakah ada efek halus yang saya abaikan? Atau sudahkah Sains mendukung praktik statistik terburuk hingga saat ini?
Jawaban:
Ada posting blog oleh penulis yang menggambarkan ini pada tingkat tinggi.
Mengutip dari awal di posting itu:
Saya tidak bisa melihat bagaimana teknik mereka mengatasi masalah ini sama sekali. Jadi dalam menjawab pertanyaan Anda, saya percaya bahwa mereka tidak membahas Garden of Forking Paths, dan dalam hal ini teknik mereka akan membuai orang-orang ke dalam rasa aman yang salah. Tidak jauh berbeda dengan mengatakan "Saya menggunakan validasi silang" meninabobokan banyak - yang menggunakan CV non-bersarang - menjadi rasa aman yang salah.
Tampaknya bagi saya bahwa sebagian besar posting blog menunjuk ke teknik mereka sebagai jawaban yang lebih baik untuk bagaimana menjaga peserta dalam kompetisi gaya Kaggle dari mendaki gradien set tes. Yang berguna, tetapi tidak secara langsung membahas Forking Paths. Rasanya seperti memiliki rasa dari Wolfram dan Ilmu Baru Google di mana sejumlah besar data akan mengambil alih. Narasi itu memiliki catatan campuran, dan saya selalu skeptis terhadap sihir otomatis.
sumber
Saya yakin saya terlalu menyederhanakan teknik privasi diferensial ini di sini, tetapi idenya masuk akal di tingkat tinggi.
Ketika Anda mendapatkan algoritma untuk mengeluarkan hasil yang baik (wow, akurasi pada set pengujian saya telah benar-benar membaik), Anda tidak ingin langsung mengambil kesimpulan. Anda ingin menerimanya hanya ketika peningkatannya secara signifikan lebih besar dari algoritma sebelumnya. Itulah alasan untuk menambahkan noise.
EDIT: Blog ini memiliki penjelasan dan kode R yang baik untuk mendemonstrasikan keefektifan penambah derau, http://www.win-vector.com/blog/2015/10/a-simpler-explanation-of-differential-privacy/
sumber
Klaim bahwa menambahkan kebisingan membantu mencegah overfitting benar-benar menahan air di sini, karena apa yang sebenarnya mereka lakukan adalah membatasi bagaimana penyimpangan digunakan kembali . Metode mereka sebenarnya melakukan dua hal: membatasi jumlah pertanyaan yang dapat ditanyakan tentang ketidaksepakatan, dan berapa banyak dari masing-masing jawaban mengungkapkan tentang data ketidaksesuaian.
Mungkin membantu untuk memahami apa tolok ukurnya: satu di tangan, Anda bisa bersikeras bahwa ketidaksesuaian hanya digunakan sekali. Itu memiliki kelemahan yang jelas. Di sisi lain, jika Anda ingin dapat menggunakan ketidaksepakatan kali, Anda bisa memotong ke dalam potongan menguraikan, dan menggunakan setiap bagian sekali. Masalah dengan metode itu adalah bahwa ia kehilangan banyak daya (jika Anda memiliki titik data dalam sampel penahan Anda untuk memulai, Anda sekarang mendapatkan kekuatan statistik hanya sampel).k n n / kk k n n/k
Makalah Dwork et al memberikan metode yang, bahkan dengan pertanyaan yang diajukan secara berlawanan , memberi Anda ukuran sampel yang efektif sekitar untuk setiap pertanyaan Anda ajukan. Selain itu, mereka dapat melakukan lebih baik jika pertanyaannya "tidak terlalu jahat" (dalam arti yang agak sulit untuk dijabarkan, jadi mari kita abaikan itu untuk saat ini). kn/k−−√ k
Inti dari metode mereka adalah hubungan antara stabilitas algoritmik dan overfitting, yang tanggal kembali ke akhir 1970-an (Devroye dan Wagner 1978). Secara kasar, katanya
Dwork et al. sarankan menggunakan gagasan stabilitas yang mengontrol bagaimana distribusi jawaban berubah ketika set data berubah (disebut privasi diferensial). Ini memiliki properti yang berguna bahwa jika berbeda secara privat, maka begitu juga , untuk fungsi apa pun . Dengan kata lain, untuk analisis stabilitas yang harus dilalui, predikat tidak harus berupa output --- sembarang predikat yang berasal dari output juga akan menikmati jenis jaminan yang sama.A(⋅) f(A(⋅)) f q A A
Sekarang ada beberapa makalah yang menganalisis bagaimana prosedur penambahan kebisingan yang berbeda mengontrol overfitting. Yang relatif mudah dibaca adalah Russo dan Zou ( https://arxiv.org/abs/1511.05219 ). Beberapa makalah tindak lanjut yang lebih baru tentang karya awal Dwork et al. mungkin juga bermanfaat untuk dilihat. (Penafian: Saya memiliki dua makalah tentang topik ini, yang lebih baru menjelaskan hubungan dengan pengujian hipotesis adaptif: https://arxiv.org/abs/1604.03924 .)
Semoga semua bisa membantu.
sumber
Saya keberatan dengan kalimat kedua Anda. Gagasan bahwa rencana analisis data lengkap seseorang harus ditentukan terlebih dahulu tidak dapat dibenarkan, bahkan dalam pengaturan di mana Anda mencoba untuk mengkonfirmasi hipotesis ilmiah yang sudah ada sebelumnya. Sebaliknya, setiap analisis data yang layak akan membutuhkan perhatian pada data aktual yang telah diperoleh. Para peneliti yang percaya sebaliknya umumnya adalah peneliti yang percaya bahwa pengujian signifikansi adalah awal dan akhir dari analisis data, dengan sedikit atau tidak ada peran untuk statistik deskriptif, plot, estimasi, prediksi, pemilihan model, dll. Dalam pengaturan itu, persyaratan untuk memperbaiki rencana analitik seseorang terlebih dahulu lebih masuk akal karena cara konvensional di mana hal-nilai yang dihitung mensyaratkan bahwa ukuran sampel dan tes yang akan dilakukan diputuskan sebelum melihat data apa pun. Persyaratan ini melumpuhkan analis, dan karenanya merupakan salah satu dari banyak alasan bagus untuk tidak menggunakan uji signifikansi.
Anda mungkin keberatan bahwa membiarkan analis memilih apa yang harus dilakukan setelah melihat data memungkinkan overfitting. Memang, tetapi analis yang baik akan menunjukkan semua analisis yang mereka lakukan, katakan secara eksplisit informasi apa dalam data yang digunakan untuk membuat keputusan analitik, dan gunakan metode seperti validasi silang dengan tepat. Sebagai contoh, umumnya baik-baik saja untuk mengkode ulang variabel berdasarkan distribusi nilai yang diperoleh, tetapi memilih untuk beberapa analisis 3 prediktor dari 100 yang memiliki asosiasi yang paling dekat dengan variabel dependen berarti estimasi asosiasi akan positif bias, dengan prinsip regresi ke mean. Jika Anda ingin melakukan pemilihan variabel dalam konteks prediktif, Anda perlu memilih variabel di dalam lipatan validasi silang Anda, atau hanya menggunakan data pelatihan.
sumber