Asumsikan saya memiliki dua kelompok data, berlabel A dan B (masing-masing berisi misalnya 200 sampel dan 1 fitur), dan saya ingin tahu apakah mereka berbeda. Saya bisa:
a) melakukan uji statistik (misalnya uji-t) untuk melihat apakah mereka berbeda secara statistik.
b) menggunakan pembelajaran mesin yang diawasi (mis. dukungan vektor klasifikasi atau klasifikasi hutan acak). Saya bisa melatih ini pada sebagian data saya dan memverifikasinya sisanya. Jika algoritma pembelajaran mesin mengklasifikasikan sisanya dengan benar setelah itu, saya dapat yakin bahwa sampel dapat dibedakan.
c) menggunakan algoritma yang tidak diawasi (misalnya K-Means) dan membiarkannya membagi semua data menjadi dua sampel. Saya kemudian dapat memeriksa apakah dua sampel yang ditemukan ini setuju dengan label saya, A dan B.
Pertanyaan saya adalah:
- Bagaimana tiga cara yang berbeda ini tumpang tindih / eksklusif?
- Apakah b) dan c) berguna untuk argumen ilmiah apa pun?
- Bagaimana saya bisa mendapatkan "signifikansi" untuk perbedaan antara sampel A dan B dari metode b) dan c)?
- Apa yang akan berubah jika data memiliki banyak fitur daripada 1 fitur?
- Apa yang terjadi jika mengandung jumlah sampel yang berbeda, misalnya 100 vs 300?
Jawaban:
Pertanyaan bagus Apa pun bisa baik atau buruk, bermanfaat atau tidak, berdasarkan apa tujuan Anda (dan mungkin pada sifat situasi Anda). Sebagian besar, metode ini dirancang untuk memenuhi tujuan yang berbeda.
Dengan mengingat hal ini, mari jawab pertanyaan Anda:
sumber
Tidak akan membahas pengelompokan karena sudah ditangani di jawaban lain, tetapi:
Secara umum, masalah pengujian apakah dua sampel berbeda bermakna dikenal sebagai pengujian dua sampel .
Mungkin lebih mudah untuk memikirkan beberapa masalah ini jika Anda membuat tes dua sampel dari classifier, misalnya seperti yang baru-baru ini diusulkan oleh Lopez-Paz dan Oquab (2017) . Prosedurnya adalah sebagai berikut:
Dengan memeriksa classifier yang dipelajari, Anda mungkin juga dapat menafsirkan perbedaan antara distribusi secara semi-bermakna. Dengan mengubah keluarga pengklasifikasi yang Anda pertimbangkan, Anda juga dapat membantu memandu tes untuk mencari beberapa jenis perbedaan.
Perhatikan bahwa penting untuk melakukan split tes kereta: jika tidak, sebuah classifier yang hanya menghafal inputnya akan selalu memiliki diskriminasi yang sempurna. Meningkatkan porsi poin dalam set pelatihan memberi Anda lebih banyak data untuk mempelajari pengklasifikasi yang baik, tetapi lebih sedikit peluang untuk memastikan bahwa akurasi klasifikasi benar-benar berbeda dari kebetulan. Pengorbanan ini adalah sesuatu yang akan bervariasi berdasarkan masalah dan keluarga klasifikasi dan belum dipahami dengan baik.
Lopez-Paz dan Oquab menunjukkan kinerja empiris yang baik dari pendekatan ini pada beberapa masalah. Ramdas et al. (2016) juga menunjukkan bahwa secara teoritis, pendekatan yang terkait erat adalah tingkat-optimal untuk satu masalah sederhana tertentu. Hal yang "tepat" untuk dilakukan dalam pengaturan ini adalah bidang penelitian aktif, tetapi pendekatan ini setidaknya masuk akal di banyak pengaturan jika Anda ingin sedikit lebih banyak fleksibilitas dan interpretasi daripada hanya menerapkan beberapa tes standar yang tidak berlaku.
sumber
Hanya pendekatan (a) yang melayani tujuan pengujian hipotesis.
Dalam hal menggunakan algoritma pembelajaran mesin yang diawasi (b), mereka tidak dapat membuktikan atau menyangkal hipotesis tentang perbedaan kelompok. Jika algoritme pembelajaran mesin tidak mengklasifikasikan grup dengan benar, itu mungkin terjadi karena Anda menggunakan algoritme "salah" untuk masalah Anda, atau Anda tidak cukup menyetelnya, dll. Di sisi lain, Anda dapat "menyiksa" data yang benar-benar "acak" selama cukup untuk menghasilkan model overfitting yang membuat prediksi yang baik. Namun masalah lain adalah kapan dan bagaimana Anda tahu bahwa algoritma membuat prediksi "baik"? Hampir tidak pernah Anda menargetkan akurasi klasifikasi 100%, jadi kapan Anda tahu bahwa hasil klasifikasi membuktikan sesuatu?
Algoritma pengelompokan (c) tidak dirancang untuk pembelajaran yang diawasi. Mereka tidak bertujuan membuat ulang label, tetapi untuk mengelompokkan data Anda dalam hal kesamaan. Sekarang, hasilnya tergantung pada algoritma apa yang Anda gunakan dan apa persamaan yang Anda cari. Data Anda mungkin memiliki berbagai jenis kesamaan, Anda mungkin ingin mencari perbedaan antara anak laki-laki dan perempuan, tetapi algoritma tersebut mungkin menemukan kelompok anak-anak miskin dan kaya, atau cerdas dan kurang cerdas, tangan kanan dan kiri dll. Tidak menemukan pengelompokan yang Anda maksud tidak membuktikan bahwa pengelompokan tidak masuk akal, tetapi hanya bahwa ia menemukan pengelompokan "bermakna" lainnya. Seperti pada kasus sebelumnya, hasilnya mungkin tergantung pada algoritma yang digunakan dan parameter. Apakah akan cocok dengan Anda jika satu dari sepuluh algoritma / pengaturan ditemukan "Anda" label? Bagaimana jika itu satu dari seratus? Berapa lama Anda mencari sebelum berhenti? Perhatikan bahwa ketika menggunakan pembelajaran mesin di sebagian besar kasus, Anda tidak akan berhenti setelah menggunakan satu algoritma dengan pengaturan default dan hasilnya mungkin tergantung pada prosedur yang Anda gunakan.
sumber
a) hanya menjawab pertanyaan Anda apakah distribusinya berbeda, tetapi tidak bagaimana membedakannya. b) juga akan menemukan nilai terbaik untuk membedakan antara dua distribusi. c) akan berfungsi jika kedua distribusi memiliki beberapa properti tertentu. Misalnya ia akan bekerja dengan distribusi normal tetapi tidak dengan beberapa distribusi modal, karena metode ini dapat membedakan dua mode dari kelompok yang sama, bukan dua kelompok yang berbeda.
c) tidak berguna untuk argumen ilmiah karena dua distribusi modal. b) dapat digunakan untuk membedakan dua distribusi, karena Anda dapat menghitung signifikansi (lihat 3.) Meskipun saya tidak pernah bertemu.
Dengan bootstrap. Anda menghitung model berdasarkan sampel acak 1000 kali. Anda mendapatkan skor, misalnya jumlah minimum kesalahan alfa dan beta. Anda mengurutkan skor naik. Untuk kepercayaan 5% Anda memilih nilai 950. Jika nilai ini lebih rendah dari 50% (untuk jumlah poin yang sama untuk grup A dan B) maka dengan kepercayaan 95% Anda dapat mengabaikan hipotesis nol bahwa distribusinya sama. Masalahnya adalah jika distribusi keduanya normal, memiliki rata-rata yang sama, tetapi memiliki variasi yang berbeda maka Anda tidak akan dapat memahami bahwa distribusinya berbeda dengan teknik ML. Di sisi lain, Anda dapat menemukan tes variasi yang akan dapat membedakan kedua distribusi. Dan bisa jadi sebaliknya ML akan lebih kuat dari tes statistik dan akan dapat membedakan distribusi.
Ketika Anda hanya memiliki satu fitur dalam ML, Anda hanya perlu menemukan satu nilai untuk membedakan distribusi. Dengan dua fitur, batas bisa menjadi sinus dan dalam ruang multi-dimensi itu bisa sangat aneh. Jadi akan jauh lebih sulit untuk menemukan perbatasan yang tepat. Di sisi lain, fitur tambahan membawa informasi tambahan. Jadi secara umum akan memungkinkan untuk membedakan dua distribusi dengan lebih mudah. Jika kedua variabel terdistribusi secara normal maka perbatasan adalah garis.
Sampel yang lebih kecil dapat berperilaku tidak normal karena Teorema Limit Sentral tidak dapat diterapkan. Sampel yang lebih besar mulai berperilaku lebih normal karena Teorema Limit Pusat mulai bekerja. Misalnya rata-rata dari kedua kelompok akan terdistribusi secara normal jika sampelnya cukup besar. Tetapi biasanya bukan 100 vs 300 tetapi 10 pengamatan terhadap 1000 pengamatan. Jadi menurut situs ini , uji-t untuk perbedaan rata-rata akan bekerja terlepas dari distribusi jika jumlah pengamatan lebih besar dari 40 dan tanpa outlier.
sumber
Pengujian statistik adalah untuk membuat kesimpulan dari data, ini memberi tahu Anda bagaimana hal-hal terkait. Hasilnya adalah sesuatu yang memiliki makna dunia nyata. Misalnya bagaimana merokok dikaitkan dengan kanker paru-paru, baik dari segi arah dan besarnya. Itu masih tidak memberi tahu Anda mengapa hal-hal terjadi. Untuk menjawab mengapa sesuatu terjadi, kita perlu mempertimbangkan juga hubungan timbal balik dengan variabel-variabel lain dan membuat penyesuaian yang sesuai (lihat Pearl, J. (2003) PENYEBAB: MODEL, REASONING, DAN INFERENSI).
Pembelajaran terawasi adalah untuk membuat prediksi, memberi tahu Anda apa yang akan terjadi. Misalnya, mengingat status merokok seseorang, kita dapat memperkirakan apakah dia menderita kanker paru-paru. Dalam kasus-kasus sederhana, ia masih memberi tahu Anda "bagaimana", misalnya dengan melihat cutoff status merokok yang diidentifikasi oleh algoritma. Tetapi model yang lebih kompleks lebih sulit atau tidak mungkin untuk ditafsirkan (pembelajaran mendalam / meningkatkan dengan banyak fitur).
Pembelajaran tanpa pengawasan sering digunakan dalam memfasilitasi kedua hal di atas.
Ketika jumlah fitur / variabel semakin besar, perbedaan antara pengujian statistik dan pembelajaran yang diawasi menjadi lebih besar. Pengujian statistik mungkin belum tentu mendapat manfaat dari ini, itu tergantung pada misalnya apakah Anda ingin membuat kesimpulan kausal dengan mengendalikan faktor-faktor lain atau mengidentifikasi heterogenitas dalam asosiasi seperti yang disebutkan di atas. Pembelajaran terawasi akan berkinerja lebih baik jika fitur-fiturnya relevan dan itu akan menjadi lebih seperti kotak hitam.
Ketika jumlah sampel bertambah besar, kita bisa mendapatkan hasil yang lebih tepat untuk pengujian statistik, hasil yang lebih akurat untuk pembelajaran yang diawasi dan hasil yang lebih kuat untuk pembelajaran yang tidak diawasi. Tetapi ini tergantung pada kualitas data. Data berkualitas buruk dapat menimbulkan bias atau noise pada hasilnya.
Terkadang kita ingin tahu "bagaimana" dan "mengapa" untuk menginformasikan tindakan intervensi, misalnya dengan mengidentifikasi bahwa merokok menyebabkan kanker paru-paru, kebijakan dapat dibuat untuk mengatasinya. Terkadang kita ingin tahu "apa" untuk menginformasikan pengambilan keputusan, misalnya mencari tahu siapa yang kemungkinan menderita kanker paru-paru dan memberi mereka perawatan dini. Ada masalah khusus yang diterbitkan di Science tentang prediksi dan batasannya ( http://science.sciencemag.org/content/355/6324/468). “Keberhasilan tampaknya dicapai secara paling konsisten ketika pertanyaan ditangani dalam upaya multidisiplin yang menggabungkan pemahaman manusia tentang konteks dengan kapasitas algoritmik untuk menangani terabyte data.” Menurut pendapat saya, misalnya, pengetahuan yang ditemukan menggunakan pengujian hipotesis dapat membantu pembelajaran yang diawasi dengan memberi tahu kami data / fitur apa yang harus kita kumpulkan di tempat pertama. Di sisi lain, pembelajaran yang diawasi dapat membantu menghasilkan hipotesis dengan menginformasikan variabel mana
sumber