Dalam pembelajaran statistik, secara implisit atau eksplisit, seseorang selalu mengasumsikan bahwa set pelatihan terdiri dari input input / respon yang diambil secara independen dari distribusi gabungan yang sama dengan
dan hubungan yang kami coba tangkap melalui algoritma pembelajaran tertentu. Secara matematis, asumsi awal ini menulis:
Saya pikir kita semua bisa sepakat bahwa asumsi ini jarang dipenuhi dalam praktik, lihat pertanyaan SE terkait ini dan komentar bijak dari @Glen_b dan @Luca.
Karena itu pertanyaan saya adalah:
Di mana tepatnya asumsi iid menjadi penting dalam praktik?
[Konteks]
Saya menanyakan hal ini karena saya dapat memikirkan banyak situasi di mana asumsi ketat seperti itu tidak diperlukan untuk melatih model tertentu (misalnya metode regresi linier), atau setidaknya satu dapat bekerja di sekitar asumsi awal dan memperoleh hasil yang kuat. Sebenarnya hasil biasanya akan tetap sama, itu bukan kesimpulan bahwa seseorang dapat menggambar yang akan berubah (misalnya heteroskedastisitas dan autokorelasi konsisten estimator HAC dalam regresi linier: idenya adalah untuk menggunakan kembali bobot regresi OLS tua yang baik tetapi untuk mengadaptasi perilaku hingga-sampel dari estimator OLS untuk menjelaskan pelanggaran asumsi Gauss-Markov).
Oleh karena itu dugaan saya adalah bahwa asumsi awal diperlukan untuk tidak dapat melatih algoritma pembelajaran tertentu, tetapi lebih untuk menjamin bahwa teknik seperti cross-validasi memang dapat digunakan untuk menyimpulkan ukuran yang dapat diandalkan dari kemampuan model generalisasi dengan baik , yang adalah satu-satunya hal yang kami tertarik pada akhir hari dalam pembelajaran statistik karena itu menunjukkan bahwa kami memang dapat belajar dari data. Secara intuitif, saya memang dapat memahami bahwa menggunakan validasi silang pada data dependen dapat menjadi bias secara optimis (seperti yang diilustrasikan / dijelaskan dalam contoh menarik ini ).
Bagi saya, iid tidak ada hubungannya dengan pelatihan model tertentu, tetapi semuanya berkaitan dengan generalisasi model itu . Ini tampaknya setuju dengan makalah yang saya temukan oleh Huan Xu et al, lihat "Robustness and Generalizability for Markovian Samples" di sini .
Apakah Anda setuju dengan itu?
[Contoh]
Jika ini dapat membantu diskusi, pertimbangkan masalah menggunakan algoritma LASSO untuk melakukan pemilihan cerdas di antara fitur diberikan sampel pelatihan dengan Selanjutnya kita dapat mengasumsikan bahwa:N ( X i , y i ) ∀ i = 1 , . . . , N X i = [ X i 1 , . . . , X i P ]
- Input tergantung karenanya menyebabkan pelanggaran asumsi iid (misalnya untuk setiap fitur kita amati seri waktu titik , maka memperkenalkan korelasi-temporal temporal)j=1,. . ,PN
- Respons bersyarat independen.
- Kami memiliki .
Dengan cara apa pelanggaran asumsi iid dapat menimbulkan masalah dalam kasus itu dengan asumsi kami berencana untuk menentukan koefisien penalti LASSO menggunakan pendekatan validasi silang (pada set data lengkap) + menggunakan validasi silang bersarang untuk mengetahui kesalahan generalisasi dari strategi pembelajaran ini (kita dapat mengabaikan diskusi mengenai pro / kontra yang melekat dari LASSO, kecuali jika itu berguna).
Jawaban:
Asumsi awal tentang pasangan , , sering dibuat dalam statistik dan pembelajaran mesin. Terkadang karena alasan yang baik, terkadang karena kenyamanan dan kadang-kadang hanya karena kita biasanya membuat asumsi ini. Untuk menjawab dengan memuaskan jika asumsi itu benar-benar diperlukan, dan apa konsekuensinya dari tidak membuat asumsi ini, saya akan dengan mudah akhirnya menulis buku (jika Anda dengan mudah akhirnya melakukan sesuatu seperti itu). Di sini saya akan mencoba memberikan gambaran singkat tentang apa yang saya temukan sebagai aspek paling penting.(Xi,yi) i=1,…,N
Asumsi mendasar
Mari kita asumsikan bahwa kita ingin mempelajari model probabilitas diberikan , yang kita sebut . Kami tidak membuat asumsi tentang model ini sebagai priorat, tetapi kami akan membuat asumsi minimal bahwa model seperti itu ada sehinggay X p(y∣X)
Yang perlu diperhatikan tentang asumsi ini adalah bahwa distribusi bersyarat dari tergantung pada hanya melalui . Inilah yang membuat model berguna, misalnya untuk prediksi. Asumsi tersebut berlaku sebagai konsekuensi dari bagian yang terdistribusi secara identik berdasarkan asumsi iid, tetapi lebih lemah karena kami tidak membuat asumsi tentang .yi i Xi Xi
Dalam fokus berikut sebagian besar akan pada peran kemerdekaan.
Pemodelan
Ada dua pendekatan utama untuk mempelajari model diberikan . Satu pendekatan dikenal sebagai pemodelan diskriminatif dan yang lainnya sebagai pemodelan generatif .y X
Untuk kedua pendekatan pemodelan, asumsi pemodelan kerja digunakan untuk menurunkan atau mengusulkan metode pembelajaran (atau penduga). Itu bisa dengan memaksimalkan log (kemungkinan) log, meminimalkan risiko empiris atau dengan menggunakan metode Bayesian. Sekalipun asumsi pemodelan yang bekerja salah, metode yang dihasilkan masih dapat memberikan kecocokan masuk akal .p(y∣X)
Beberapa teknik yang digunakan bersama dengan pemodelan diskriminatif, seperti mengantongi (agregasi bootstrap), bekerja dengan mencocokkan banyak model dengan data sampel secara acak dari dataset. Tanpa asumsi iid (atau pertukaran), dataset yang di-resampled tidak akan memiliki distribusi bersama yang serupa dengan dataset asli. Setiap struktur ketergantungan telah menjadi "kacau" oleh resampling. Saya belum memikirkan hal ini secara mendalam, tetapi saya tidak melihat mengapa hal itu seharusnya mematahkan metode ini sebagai metode untuk belajar . Setidaknya tidak untuk metode yang didasarkan pada asumsi independensi kerja. Saya senang dibuktikan salah di sini.p(y∣X)
Batas konsistensi dan kesalahan
Pertanyaan sentral untuk semua metode pembelajaran adalah apakah mereka menghasilkan model yang dekat dengan . Ada literatur teoritis yang luas dalam statistik dan pembelajaran mesin berurusan dengan konsistensi dan batas kesalahan. Tujuan utama dari literatur ini adalah untuk membuktikan bahwa model yang dipelajari dekat dengan ketika adalah besar. Konsistensi adalah jaminan kualitatif, sementara batas kesalahan menyediakan (semi-) kontrol kuantitatif eksplisit kedekatan dan memberikan tingkat konvergensi.p(y∣X) p(y∣X) N
Hasil teoritis semua bergantung pada asumsi tentang distribusi gabungan dari pengamatan dalam dataset. Seringkali asumsi pemodelan kerja yang disebutkan di atas dibuat (yaitu, independensi bersyarat untuk pemodelan diskriminatif dan id untuk pemodelan generatif). Untuk pemodelan diskriminatif, konsistensi dan batas kesalahan akan mensyaratkan bahwa memenuhi kondisi tertentu. Dalam regresi klasik satu syarat seperti itu adalah bahwa untuk , di mana menunjukkan matriks desain dengan barisXi 1NXTX→Σ N→∞ X XTi . Kondisi yang lebih lemah mungkin cukup untuk konsistensi. Dalam jarang belajar kondisi lain seperti kondisi nilai eigen terbatas, lihat misalnya Pada kondisi yang digunakan untuk membuktikan hasil oracle untuk Lasso . Asumsi iid bersama-sama dengan beberapa asumsi distribusi teknis menyiratkan bahwa beberapa kondisi yang cukup dipenuhi dengan probabilitas besar, dan dengan demikian asumsi iid dapat membuktikan menjadi cukup tetapi bukan asumsi yang diperlukan untuk mendapatkan konsistensi dan batas kesalahan untuk pemodelan diskriminatif.
Asumsi pemodelan kerja independensi mungkin salah untuk salah satu pendekatan pemodelan. Sebagai aturan praktis, kita masih bisa mengharapkan konsistensi jika data berasal dari proses ergodik , dan kita masih bisa mengharapkan beberapa batas kesalahan jika proses pencampuran cukup cepat . Definisi matematis yang tepat dari konsep-konsep ini akan membawa kita terlalu jauh dari pertanyaan utama. Cukup untuk dicatat bahwa ada struktur ketergantungan selain asumsi awal yang metode pembelajarannya dapat dibuktikan berhasil karena cenderung tak hingga.N
Jika kita memiliki pengetahuan yang lebih terperinci tentang struktur ketergantungan, kita dapat memilih untuk mengganti asumsi independensi kerja yang digunakan untuk pemodelan dengan model yang menangkap struktur ketergantungan juga. Ini sering dilakukan untuk deret waktu. Model kerja yang lebih baik dapat menghasilkan metode yang lebih efisien.
Penilaian model
Daripada membuktikan bahwa metode pembelajaran memberikan model mendekati , adalah nilai praktis yang bagus untuk mendapatkan penilaian (relatif) dari "seberapa baik model yang dipelajari adalah". Skor penilaian tersebut dapat dibandingkan untuk dua atau lebih model yang dipelajari, tetapi mereka tidak akan memberikan penilaian absolut tentang seberapa dekat model yang dipelajari dengan . Perkiraan skor penilaian biasanya dihitung secara empiris berdasarkan pemisahan dataset menjadi pelatihan dan dataset pengujian atau dengan menggunakan validasi silang.p ( y ∣ X )p(y∣X) p(y∣X)
Seperti halnya mengantongi, pemisahan acak dari dataset akan "mengacaukan" struktur ketergantungan apa pun. Namun, untuk metode yang didasarkan pada asumsi independensi kerja, asumsi ergodisitas yang lebih lemah daripada yang seharusnya cukup untuk perkiraan penilaian menjadi masuk akal, meskipun kesalahan standar pada perkiraan ini akan sangat sulit untuk muncul.
[ Sunting: Ketergantungan di antara variabel-variabel akan menghasilkan distribusi model yang dipelajari yang berbeda dari distribusi berdasarkan asumsi awal. Estimasi yang dihasilkan oleh validasi silang jelas tidak terkait dengan kesalahan generalisasi. Jika ketergantungannya kuat, kemungkinan besar itu merupakan estimasi yang buruk.]
Ringkasan (tl; dr)
Semua hal di atas adalah dengan asumsi bahwa ada model probabilitas kondisional tetap, . Dengan demikian tidak mungkin ada tren atau perubahan mendadak dalam distribusi bersyarat yang tidak ditangkap oleh .Xp(y∣X) X
Saat mempelajari model diberikan , independensi berperan sebagaiXy X
Untuk memahami dengan tepat apa alternatif untuk iid yang juga mencukupi adalah non-sepele dan sampai batas tertentu subjek penelitian.
sumber
Apa asumsi iid menyatakan adalah bahwa variabel acak independen dan terdistribusi secara identik . Anda dapat secara formal menentukan apa artinya, tetapi secara informal dikatakan bahwa semua variabel memberikan jenis informasi yang sama secara independen satu sama lain (Anda dapat membaca juga tentang pertukaran yang terkait ).
Dari ide-ide abstrak, mari kita lompat sejenak ke contoh konkret: dalam kebanyakan kasus data Anda dapat disimpan dalam sebuah matriks, dengan observasi baris-bijaksana dan variabel-bijaksana kolom. Jika Anda menganggap data Anda iid , berarti Anda hanya perlu repot tentang hubungan antar kolom dan tidak perlu repot tentang hubungan antar baris. Jika Anda peduli tentang keduanya maka Anda akan memodelkan ketergantungan kolom pada kolom dan baris pada baris, yaitu semuanya pada segalanya. Sangat sulit untuk membuat penyederhanaan dan membangun model statistik segala sesuatu tergantung pada semuanya.
Anda dengan benar memperhatikan bahwa exchengeability memungkinkan kami untuk menggunakan metode seperti cross-validation, atau bootstrap, tetapi juga memungkinkan untuk menggunakan teorema limit pusat dan memungkinkan kami untuk membuat penyederhanaan bermanfaat untuk pemodelan (berpikir dalam istilah kolom-bijaksana) ).
Seperti yang Anda perhatikan dalam contoh LASSO, asumsi independensi seringkali dilunakkan menjadi independensi bersyarat . Bahkan dalam kasus seperti itu kita perlu "bagian" yang independen dan terdistribusi secara identik. Asumsi yang serupa dan lebih lunak sering dibuat untuk model deret waktu, yang Anda sebutkan, yang mengasumsikan stasioneritas (jadi ada ketergantungan tetapi ada juga distribusi umum dan deret stabil dari waktu ke waktu - lagi-lagi bagian "iid"). Ini adalah masalah mengamati sejumlah hal serupa yang membawa ide yang sama tentang beberapa fenomena umum. Jika kita memiliki sejumlah hal yang berbeda dan tergantung, kita tidak dapat membuat generalisasi.
Yang harus Anda ingat adalah bahwa ini hanya asumsi, kami tidak ketat tentang itu. Ini adalah tentang memiliki cukup banyak hal yang semuanya, secara independen, menyampaikan informasi serupa tentang beberapa fenomena umum. Jika hal-hal saling mempengaruhi, mereka jelas akan menyampaikan informasi yang sama sehingga mereka tidak akan berguna.
Bayangkan Anda ingin belajar tentang kemampuan anak-anak di kelas, jadi Anda memberi mereka beberapa tes. Anda dapat menggunakan hasil tes sebagai indikator kemampuan anak-anak hanya jika mereka melakukannya sendiri, satu sama lain. Jika mereka berinteraksi maka Anda mungkin akan mengukur kemampuan anak yang paling pintar, atau yang paling berpengaruh. Itu tidak berarti bahwa Anda perlu berasumsi bahwa tidak ada interaksi, atau ketergantungan, antara anak-anak sama sekali, tetapi hanya bahwa mereka melakukan tes sendiri. Anak-anak juga perlu "didistribusikan secara identik", sehingga mereka tidak dapat berasal dari negara yang berbeda, berbicara bahasa yang berbeda, berada di usia yang berbeda karena akan mempersulit untuk menginterpretasikan hasilnya (mungkin mereka tidak memahami pertanyaan dan menjawab secara acak). Jika Anda dapat menganggap bahwa data Anda adalah idmaka Anda bisa fokus membangun model umum. Anda dapat menangani data non- iid tetapi Anda harus lebih khawatir tentang "noise" dalam data Anda.
Selain pertanyaan utama Anda, Anda juga bertanya tentang validasi silang dengan data non- iid . Meskipun Anda tampaknya meremehkan pentingnya asumsi iid , pada saat yang sama Anda melebih-lebihkan masalah tidak memenuhi asumsi ini berpose untuk validasi silang. Ada beberapa cara bagaimana kita dapat menangani data seperti itu ketika menggunakan metode resampling seperti bootstrap, atau validasi silang. Jika Anda berurusan dengan deret waktu, Anda tidak dapat mengasumsikan bahwa nilainya independen, jadi mengambil pecahan acak dari nilai akan menjadi ide yang buruk karena akan mengabaikan struktur data yang terkait otomatis. Karena itu, dengan deret waktu, kita biasanya menggunakan validasi silang selangkah lebih maju, yaitu Anda mengambil bagian dari seri untuk memprediksi nilai berikutnya (tidak digunakan untuk pemodelan). Demikian pula, jika data Anda memiliki struktur cluster , Anda mencicipi seluruh cluster untuk menjaga sifat data. Jadi seperti halnya dengan pemodelan, kita dapat menangani non- iid juga ketika melakukan validasi silang, tetapi kita perlu menyesuaikan metode kita dengan sifat data karena metode yang dirancang untuk data iid tidak berlaku dalam kasus seperti itu.
sumber
Satu-satunya tempat di mana seseorang dapat dengan aman diabaikan adalah dalam statistik sarjana dan kursus pembelajaran mesin. Anda telah menulis itu:
Ini hanya benar jika bentuk fungsional model pada dasarnya dianggap benar. Tapi, anggapan seperti itu bahkan lebih tidak masuk akal daripada iid.
Setidaknya ada dua cara di mana iid sangat penting dalam hal pemodelan terapan:
Ini adalah asumsi eksplisit dalam sebagian besar inferensi statistik, seperti yang Anda catat dalam pertanyaan Anda. Dalam kebanyakan pemodelan dunia nyata, pada tahap tertentu kita perlu menggunakan inferensi untuk menguji spesifikasi, seperti selama pemilihan variabel dan perbandingan model. Jadi, sementara masing-masing model yang cocok mungkin OK meskipun ada pelanggaran, Anda tetap bisa memilih model yang salah.
Saya menemukan bahwa berpikir melalui pelanggaran iid adalah cara yang berguna untuk berpikir tentang mekanisme menghasilkan data, yang pada gilirannya membantu saya berpikir tentang spesifikasi model apriori yang sesuai. Dua contoh:
Tentu saja, dalam model yang hampir pernah saya buat, saya gagal dalam upaya saya untuk mengurangi distribusi residu menjadi apa pun yang mendekati distribusi yang benar-benar normal. Tetapi, bagaimanapun, saya selalu mendapatkan banyak dengan berusaha benar-benar, sangat sulit untuk melakukannya.
sumber
Menurut pendapat saya ada dua alasan yang lumrah mengapa asumsi iid penting dalam pembelajaran statistik (atau statistik secara umum).
Banyak di belakang layar matematika bergantung pada asumsi ini. Jika Anda ingin membuktikan bahwa metode pembelajaran Anda benar-benar berfungsi untuk lebih dari satu set data, asumsi awal akan muncul pada akhirnya. Dimungkinkan untuk menghindarinya, tetapi matematika menjadi beberapa kali lebih sulit.
Jika Anda ingin belajar sesuatu dari data, Anda perlu berasumsi bahwa ada sesuatu untuk dipelajari. Belajar tidak mungkin jika setiap titik data dihasilkan oleh mekanisme yang berbeda. Jadi penting untuk mengasumsikan bahwa sesuatu menyatukan set data yang diberikan. Jika kita mengasumsikan bahwa data itu acak, maka sesuatu ini secara alami merupakan distribusi probabilitas, karena distribusi probabilitas mencakup semua informasi tentang variabel acak.
Jadi jika kita memiliki data ( dapat berupa vektor atau skalar), kita asumsikan bahwa itu berasal dari distribusi :x1,...,xn xi Fn
Di sini kita punya masalah. Kita perlu memastikan bahwa terkait dengan , untuk dan berbeda , jika tidak kita memiliki masalah awal, bahwa setiap titik data dihasilkan secara berbeda. Masalah kedua adalah bahwa walaupun kita memiliki titik data, kita pada dasarnya memiliki satu titik data untuk memperkirakan , karena adalah distribusi probabilitas -variate. Solusi paling sederhana untuk dua masalah ini adalah asumsi awal. Dengan itu di mana . Kami mendapatkan hubungan yang sangat jelas antara dan dan kami memilikiFn Fm n m n Fn Fn n Fn=Fn, xi∼F Fn Fm n Data menunjukkan untuk memperkirakan satu . Ada cara-cara lain kedua masalah ini diselesaikan, tetapi penting untuk dicatat bahwa setiap metode pembelajaran statistik perlu menyelesaikan masalah ini dan kebetulan bahwa asumsi pertama sejauh ini adalah cara yang paling tidak rumit untuk melakukannya.F
sumber
Saya ingin menekankan bahwa dalam beberapa keadaan, data tidak iid dan pembelajaran statistik masih memungkinkan. Sangat penting untuk memiliki model yang dapat diidentifikasi untuk distribusi bersama dari semua pengamatan; jika pengamatannya benar maka distribusi bersama ini mudah diperoleh dari distribusi marginal pengamatan tunggal. Tetapi dalam beberapa kasus, distribusi bersama diberikan secara langsung, tanpa menggunakan distribusi marginal.
Model yang banyak digunakan di mana pengamatannya tidak iid adalah model linear campuran: dengan , , , , , dan . Matriks (desain) dan dianggap tetap, adalah vektor parameter, adalah vektor acak dan , dan
Model ini paling baik diungkapkan dengan memberikan distribusi : Parameter yang akan dipelajari adalah , , . Vektor tunggal dari dimensi diamati; komponennya tidak iidY ∼ N ( X α , τ Z Z ′ + σ 2 I n ) . α τ σ 2 Y nY
sumber