Sudahkah jurnal Science mendukung Analisis Garden of Forking Pathes?

29

Gagasan analisis data adaptif adalah Anda mengubah rencana Anda untuk menganalisis data saat Anda belajar lebih banyak tentangnya. Dalam kasus analisis data eksplorasi (EDA), ini umumnya merupakan ide yang baik (Anda sering mencari pola yang tidak terduga dalam data), tetapi untuk studi konfirmasi, ini diterima secara luas sebagai metode analisis yang sangat cacat (kecuali semua langkah-langkahnya didefinisikan dengan jelas dan direncanakan dengan baik sebelumnya).

Bahwa menjadi kata, analisis data adaptif adalah biasanya berapa banyak peneliti benar-benar melakukan analisis mereka, banyak yang cemas dari statistik. Dengan demikian, jika seseorang dapat melakukan ini dengan cara yang valid secara statistik, itu akan merevolusi praktik statistik.

Artikel Science berikut ini mengklaim telah menemukan metode untuk melakukan itu (saya minta maaf untuk paywall, tetapi jika Anda berada di universitas, Anda mungkin memiliki akses): Dwork et al, 2015, Keberadaan yang dapat digunakan kembali: Menjaga validitas dalam analisis data adaptif .

Secara pribadi, saya selalu skeptis dengan artikel statistik yang diterbitkan di Science , dan yang ini tidak berbeda. Bahkan, setelah membaca artikel dua kali, termasuk bahan tambahan, saya tidak bisa mengerti (sama sekali) mengapa penulis mengklaim bahwa metode mereka mencegah pemasangan yang berlebihan.

Pemahaman saya adalah bahwa mereka memiliki set data holdout, yang akan mereka gunakan kembali. Mereka tampaknya mengklaim dengan "mengaburkan" hasil analisis konfirmasi pada set data ketidaksesuaian, over-fitting akan dicegah (perlu dicatat bahwa fuzzing tampaknya hanya menambahkan kebisingan jika statistik yang dihitung pada data pelatihan cukup jauh). dari statistik yang dihitung pada data ketidaksepakatan ). Sejauh yang saya tahu, tidak ada alasan sebenarnya ini harus mencegah pemasangan berlebihan.

Apakah saya salah dengan apa yang penulis ajukan? Apakah ada efek halus yang saya abaikan? Atau sudahkah Sains mendukung praktik statistik terburuk hingga saat ini?

Cliff AB
sumber
2
Mereka yang tidak memiliki akses Science mungkin ingin membaca artikel berita Science terbaru tentang bagaimana seseorang dapat mengakses kertas-kertas berbantalan.
Amoeba berkata Reinstate Monica
1
Apakah ini mungkin pracetak: arxiv.org/pdf/1411.2664.pdf ?
Tim
1
@Tim: artikel Science mengutip pracetak yang Anda poskan. Juga, bagian Penambahan Noise Laplacian tampaknya sangat mirip, tetapi tidak identik, dengan metode dalam artikel yang diterbitkan.
Cliff AB
1
@CliffAB sehingga mereka mungkin menggunakan privasi diferensial untuk membuatnya berbeda;)
Tim
4
Topik ini sebenarnya adalah tutorial di ICML bulan lalu. "Pengerukan Data Yang Ketat: Teori dan Alat untuk Analisis Data Adaptif" oleh beberapa orang di google. icml.cc/2016/?page_id=97
horaceT

Jawaban:

7

Ada posting blog oleh penulis yang menggambarkan ini pada tingkat tinggi.

Mengutip dari awal di posting itu:

Untuk mengurangi jumlah variabel dan menyederhanakan tugas kami, pertama-tama kami memilih beberapa variabel yang tampak menjanjikan, misalnya, variabel yang memiliki korelasi positif dengan variabel respons (tekanan darah sistolik). Kami kemudian menyesuaikan model regresi linier pada variabel yang dipilih. Untuk mengukur kebaikan kesesuaian model kami, kami mengeluarkan uji-F standar dari buku teks statistik favorit kami dan melaporkan nilai-p yang dihasilkan.

Freedman menunjukkan bahwa nilai-p yang dilaporkan sangat menyesatkan - bahkan jika data benar-benar acak tanpa korelasi apa pun antara variabel respons dan titik data, kami mungkin akan mengamati nilai-p yang signifikan! Bias berasal dari fakta bahwa kami memilih subset variabel secara adaptif berdasarkan data, tetapi kami tidak pernah menjelaskan fakta ini. Ada sejumlah besar kemungkinan subset variabel yang kami pilih. Fakta bahwa kami memilih satu tes dari yang lain dengan mengintip data menciptakan bias seleksi yang mematahkan asumsi yang mendasari uji-F.

Paradoks Freedman mengandung pelajaran penting. Tingkat signifikansi prosedur standar tidak menangkap sejumlah besar analisis yang dapat dipilih untuk dilakukan atau dihilangkan. Karena alasan ini, adaptifitas adalah salah satu penjelasan utama mengapa temuan penelitian sering salah seperti yang dikemukakan oleh Gelman dan Loken yang dengan tepat menyebut adaptifitas sebagai “taman jalur percabangan”.

Saya tidak bisa melihat bagaimana teknik mereka mengatasi masalah ini sama sekali. Jadi dalam menjawab pertanyaan Anda, saya percaya bahwa mereka tidak membahas Garden of Forking Paths, dan dalam hal ini teknik mereka akan membuai orang-orang ke dalam rasa aman yang salah. Tidak jauh berbeda dengan mengatakan "Saya menggunakan validasi silang" meninabobokan banyak - yang menggunakan CV non-bersarang - menjadi rasa aman yang salah.

Tampaknya bagi saya bahwa sebagian besar posting blog menunjuk ke teknik mereka sebagai jawaban yang lebih baik untuk bagaimana menjaga peserta dalam kompetisi gaya Kaggle dari mendaki gradien set tes. Yang berguna, tetapi tidak secara langsung membahas Forking Paths. Rasanya seperti memiliki rasa dari Wolfram dan Ilmu Baru Google di mana sejumlah besar data akan mengambil alih. Narasi itu memiliki catatan campuran, dan saya selalu skeptis terhadap sihir otomatis.

Wayne
sumber
3

Saya yakin saya terlalu menyederhanakan teknik privasi diferensial ini di sini, tetapi idenya masuk akal di tingkat tinggi.

Ketika Anda mendapatkan algoritma untuk mengeluarkan hasil yang baik (wow, akurasi pada set pengujian saya telah benar-benar membaik), Anda tidak ingin langsung mengambil kesimpulan. Anda ingin menerimanya hanya ketika peningkatannya secara signifikan lebih besar dari algoritma sebelumnya. Itulah alasan untuk menambahkan noise.

EDIT: Blog ini memiliki penjelasan dan kode R yang baik untuk mendemonstrasikan keefektifan penambah derau, http://www.win-vector.com/blog/2015/10/a-simpler-explanation-of-differential-privacy/

horaceT
sumber
Tapi itu bukan perbaikan dari mengatakan "Saya hanya akan menerima perkiraan efek " ... yang tidak akan mencegah pemasangan yang berlebihan (meskipun itu akan sedikit meredamnya). Menariknya, dalam plot mereka sendiri, Anda dapat melihat bukti over fitting (kesalahan yang dilaporkan secara sistematis lebih rendah pada data ketidaksepakatan dibandingkan pada data baru). >τ
Cliff AB
1
@CliffAB Saya memiliki perasaan mengomel yang sama mengapa ini bekerja lebih baik daripada hanya batas sederhana. Tapi mereka punya bukti!
horaceT
... kecuali bahwa contoh mereka sendiri tidak konsisten dengan klaim mereka untuk mencegah pemasangan yang berlebihan, dan konsisten dengan apa yang saya harapkan hasilnya berasal dari "Saya hanya akan menerima perkiraan efek ". >τ
Cliff AB
@CliffAB Bisakah Anda menguraikan? dimana? Itu kemungkinan yang menarik ....
horaceT
Menggunakan slide dari tautan Anda sebelumnya ( icml.cc/2016/?page_id=97 ), pada slide 72 dan 73, bahkan ketika menggunakan metode "Ambang Batas", akurasi ketidaktepatan lebih besar daripada data segar di setiap simulasi tunggal, meskipun itu memang lebih baik daripada "standar ketidaksepakatan" (yang benar-benar "penyalahgunaan standar dataset validasi", bukan prosedur statistik valid yang sebenarnya). FYI, plot muncul pada slide untuk menjadi sama di makalah Science (kalau-kalau Anda tidak memiliki akses).
Cliff AB
3

Klaim bahwa menambahkan kebisingan membantu mencegah overfitting benar-benar menahan air di sini, karena apa yang sebenarnya mereka lakukan adalah membatasi bagaimana penyimpangan digunakan kembali . Metode mereka sebenarnya melakukan dua hal: membatasi jumlah pertanyaan yang dapat ditanyakan tentang ketidaksepakatan, dan berapa banyak dari masing-masing jawaban mengungkapkan tentang data ketidaksesuaian.

Mungkin membantu untuk memahami apa tolok ukurnya: satu di tangan, Anda bisa bersikeras bahwa ketidaksesuaian hanya digunakan sekali. Itu memiliki kelemahan yang jelas. Di sisi lain, jika Anda ingin dapat menggunakan ketidaksepakatan kali, Anda bisa memotong ke dalam potongan menguraikan, dan menggunakan setiap bagian sekali. Masalah dengan metode itu adalah bahwa ia kehilangan banyak daya (jika Anda memiliki titik data dalam sampel penahan Anda untuk memulai, Anda sekarang mendapatkan kekuatan statistik hanya sampel).k n n / kkknn/k

Makalah Dwork et al memberikan metode yang, bahkan dengan pertanyaan yang diajukan secara berlawanan , memberi Anda ukuran sampel yang efektif sekitar untuk setiap pertanyaan Anda ajukan. Selain itu, mereka dapat melakukan lebih baik jika pertanyaannya "tidak terlalu jahat" (dalam arti yang agak sulit untuk dijabarkan, jadi mari kita abaikan itu untuk saat ini). kn/kk

Inti dari metode mereka adalah hubungan antara stabilitas algoritmik dan overfitting, yang tanggal kembali ke akhir 1970-an (Devroye dan Wagner 1978). Secara kasar, katanya

"Biarkan menjadi algoritma yang mengambil kumpulan data sebagai input dan menampilkan deskripsi predikat . Jika " stabil "dan diambil iid dari populasi , maka frekuensi empiris dalam adalah hampir sama dengan frekuensi dalam populasi "AXq=A(X)AXPqxqP

Dwork et al. sarankan menggunakan gagasan stabilitas yang mengontrol bagaimana distribusi jawaban berubah ketika set data berubah (disebut privasi diferensial). Ini memiliki properti yang berguna bahwa jika berbeda secara privat, maka begitu juga , untuk fungsi apa pun . Dengan kata lain, untuk analisis stabilitas yang harus dilalui, predikat tidak harus berupa output --- sembarang predikat yang berasal dari output juga akan menikmati jenis jaminan yang sama.A()f(A())fqAA

Sekarang ada beberapa makalah yang menganalisis bagaimana prosedur penambahan kebisingan yang berbeda mengontrol overfitting. Yang relatif mudah dibaca adalah Russo dan Zou ( https://arxiv.org/abs/1511.05219 ). Beberapa makalah tindak lanjut yang lebih baru tentang karya awal Dwork et al. mungkin juga bermanfaat untuk dilihat. (Penafian: Saya memiliki dua makalah tentang topik ini, yang lebih baru menjelaskan hubungan dengan pengujian hipotesis adaptif: https://arxiv.org/abs/1604.03924 .)

Semoga semua bisa membantu.

Adam Smith
sumber
0

Saya keberatan dengan kalimat kedua Anda. Gagasan bahwa rencana analisis data lengkap seseorang harus ditentukan terlebih dahulu tidak dapat dibenarkan, bahkan dalam pengaturan di mana Anda mencoba untuk mengkonfirmasi hipotesis ilmiah yang sudah ada sebelumnya. Sebaliknya, setiap analisis data yang layak akan membutuhkan perhatian pada data aktual yang telah diperoleh. Para peneliti yang percaya sebaliknya umumnya adalah peneliti yang percaya bahwa pengujian signifikansi adalah awal dan akhir dari analisis data, dengan sedikit atau tidak ada peran untuk statistik deskriptif, plot, estimasi, prediksi, pemilihan model, dll. Dalam pengaturan itu, persyaratan untuk memperbaiki rencana analitik seseorang terlebih dahulu lebih masuk akal karena cara konvensional di mana hal-nilai yang dihitung mensyaratkan bahwa ukuran sampel dan tes yang akan dilakukan diputuskan sebelum melihat data apa pun. Persyaratan ini melumpuhkan analis, dan karenanya merupakan salah satu dari banyak alasan bagus untuk tidak menggunakan uji signifikansi.

Anda mungkin keberatan bahwa membiarkan analis memilih apa yang harus dilakukan setelah melihat data memungkinkan overfitting. Memang, tetapi analis yang baik akan menunjukkan semua analisis yang mereka lakukan, katakan secara eksplisit informasi apa dalam data yang digunakan untuk membuat keputusan analitik, dan gunakan metode seperti validasi silang dengan tepat. Sebagai contoh, umumnya baik-baik saja untuk mengkode ulang variabel berdasarkan distribusi nilai yang diperoleh, tetapi memilih untuk beberapa analisis 3 prediktor dari 100 yang memiliki asosiasi yang paling dekat dengan variabel dependen berarti estimasi asosiasi akan positif bias, dengan prinsip regresi ke mean. Jika Anda ingin melakukan pemilihan variabel dalam konteks prediktif, Anda perlu memilih variabel di dalam lipatan validasi silang Anda, atau hanya menggunakan data pelatihan.

Kodiologis
sumber
2
Saya percaya banyak dari apa yang Anda sarankan cocok dengan ranah analisis data eksplorasi (EDA), yang saya lakukan mendukung metode analisis data adaptif. Saya juga berpikir EDA diremehkan dan harus diberi kredit lebih banyak. Tetapi semua ini ortogonal terhadap pertanyaan yang ada, yaitu "Apakah penulis ini benar-benar memungkinkan kami untuk berulang kali menggunakan kembali data validasi untuk pemilihan model dalam metode yang valid secara statistik?" Kalimat terakhir Anda menunjukkan bahwa Anda, seperti saya sendiri, agak skeptis terhadap temuan semacam itu.
Cliff AB
Saya tidak berpikir bahwa estimasi pada dasarnya bersifat eksploratif, tidak. Jika Anda memiliki hipotesis ilmiah yang mengatakan bahwa panjang maksimum buaya harus 12 kaki dan Anda mencoba memperkirakan panjang maksimum buaya untuk memeriksanya, Anda sedang melakukan analisis konfirmasi.
Kodiologist
2
+1, meskipun ada tiga downvotes yang ada. Saya setuju dengan poin utama dari jawaban ini (kalimat kedua Anda), meskipun saya sepenuhnya sadar bahwa ini cukup kontroversial. Secara umum saya pikir perbedaan antara eksplorasi dan analisis konfirmasi terlalu dilebih-lebihkan; analisis kehidupan nyata sering berada di antara keduanya. Yang mengatakan, saya tidak berpikir Anda menjawab (atau bahkan berusaha menjawab) pertanyaan OP yang tentang Dwork et al. kertas.
Amoeba berkata Reinstate Monica
@amoeba "Saya tidak berpikir Anda menjawab (atau bahkan berusaha untuk menjawab) pertanyaan OP yang tentang Dwork et al. kertas" - Benar, meskipun ini masih tampak layak posting sebagai jawaban karena menimbulkan keraguan pada apa yang tampaknya menjadi dasar pertanyaan.
Kodiologist
2
Beri +1 ke komentar @ amoeba. Ini akan menjadi komentar yang bagus untuk pertanyaan itu, tetapi itu bukan jawaban.
S. Kolassa - Reinstate Monica