Seorang wanita tempat saya bekerja meminta saya untuk melakukan ANOVA satu arah pada beberapa data. Saya menjawab bahwa data tersebut adalah data pengukuran berulang (time series), dan saya pikir asumsi independensi dilanggar. Dia menjawab bahwa saya tidak perlu khawatir tentang asumsi, lakukan saja tes dan dia akan mempertimbangkan bahwa asumsi mungkin tidak terpenuhi.
Tampaknya itu tidak benar bagi saya. Saya melakukan riset, dan menemukan posting blog yang luar biasa ini oleh David Robinson, pengelompokan K-means bukanlah makan siang gratis , yang membuat saya terpapar pada Teorema Tanpa Makan Siang Gratis. Saya telah melihat kertas asli dan beberapa mengikuti hal-hal, dan terus terang matematika sedikit di atas kepala saya.
Inti dari itu - menurut David Robinson - tampaknya adalah bahwa kekuatan uji statistik berasal dari asumsi. Dan dia memberikan dua contoh yang bagus. Ketika saya mengarungi artikel-artikel lain dan posting blog tentang hal itu, tampaknya selalu menjadi referensi baik dalam hal pembelajaran yang diawasi atau pencarian.
Jadi pertanyaan saya adalah, apakah teorema ini berlaku untuk tes statistik secara umum? Dengan kata lain, dapatkah seseorang mengatakan bahwa kekuatan uji-t atau ANOVA berasal dari kepatuhan pada asumsi, dan mengutip Teorema Makan Siang Gratis?
Saya berutang kepada mantan bos saya sebuah dokumen final mengenai pekerjaan yang saya lakukan, dan saya ingin tahu apakah saya dapat merujuk Teorema Tanpa Makan Siang Gratis dengan menyatakan bahwa Anda tidak bisa mengabaikan asumsi tes statistik dan mengatakan Anda akan membawanya ke akun saat mengevaluasi hasil.
sumber
Jawaban:
Saya tidak tahu buktinya tetapi saya berani bertaruh ini berlaku secara umum. Contohnya adalah percobaan dengan 2 subjek di masing-masing 2 kelompok perlakuan. Tes Wilcoxon tidak mungkin signifikan pada level 0,05, tetapi uji-t dapat. Bisa dibilang kekuatannya lebih dari setengah dari asumsi dan bukan hanya dari data. Untuk masalah awal Anda, tidak tepat untuk melanjutkan seolah-olah pengamatan per subjek independen. Mempertimbangkan hal-hal setelah fakta tentu saja bukan praktik statistik yang baik kecuali dalam keadaan yang sangat khusus (misalnya, penduga sandwich cluster).
sumber
Anda dapat mengutip Teorema Makan Siang Gratis jika Anda mau, tetapi Anda juga bisa mengutip Modus Ponens (juga dikenal sebagai Hukum Detasemen , dasar penalaran deduktif), yang merupakan akar dari Teorema Makan Siang Gratis .
The Tidak ada makan siang gratis Teorema mencakup ide yang lebih spesifik: fakta bahwa tidak ada algoritma yang dapat cocok untuk semua tujuan. Dengan kata lain, Teorema Tanpa Makan Siang Gratis pada dasarnya mengatakan bahwa tidak ada peluru ajaib algoritmik . Ini berakar pada Modus Ponens, karena untuk algoritme atau uji statistik untuk memberikan hasil yang benar, Anda harus memenuhi premis.
Sama seperti dalam semua teorema matematika, jika Anda melanggar premis, maka uji statistik kosong, dan Anda tidak dapat memperoleh kebenaran darinya. Jadi, jika Anda ingin menjelaskan data Anda menggunakan tes Anda, Anda harus mengasumsikan bahwa premis yang diperlukan terpenuhi, jika tidak (dan Anda tahu itu), maka tes Anda salah.
Itu karena penalaran ilmiah adalah berdasarkan deduksi: pada dasarnya, pengujian Anda / hukum / teorema adalah aturan implikasi , yang mengatakan bahwa jika Anda memiliki premisse yang
A
maka Anda dapat menyimpulkanB
:A=>B
, tetapi jika Anda tidak memilikiA
, maka Anda baik dapat memilikiB
atau tidakB
, dan kedua kasus itu benar , itulah salah satu prinsip dasar inferensi / deduksi logis (aturan Modus Ponens). Dengan kata lain, jika Anda melanggar premis, hasilnya tidak masalah, dan Anda tidak dapat menyimpulkan apa pun .Ingat tabel biner implikasinya:
Jadi dalam kasus Anda, untuk menyederhanakan, Anda punya
Dependent_Variables => ANOVA_correct
. Sekarang, jika Anda menggunakan variabel independen, dengan demikianDependent_Variables
adalahFalse
, maka implikasinya akan menjadi kenyataan, karenaDependent_Variables
asumsi dilanggar.Tentu saja ini sederhana, dan dalam praktiknya tes ANOVA Anda mungkin masih memberikan hasil yang bermanfaat karena hampir selalu ada beberapa tingkat independensi antara variabel dependen, tetapi ini memberi Anda gagasan mengapa Anda tidak bisa mengandalkan tes tanpa memenuhi asumsi .
Namun, Anda juga dapat menggunakan tes yang premisnya tidak puas dengan aslinya dengan mengurangi masalah Anda: dengan secara eksplisit mengendurkan kendala independensi, hasil Anda mungkin masih bermakna, meskipun tidak dijamin (karena hasil Anda berlaku untuk masalah yang berkurang, bukan masalah penuh, jadi Anda tidak dapat menerjemahkan setiap hasil kecuali jika Anda dapat membuktikan bahwa kendala tambahan dari masalah baru tidak memengaruhi tes Anda dan dengan demikian hasil Anda).
Dalam praktiknya, ini sering digunakan untuk memodelkan data praktis, dengan menggunakan Naif Bayes misalnya, dengan memodelkan variabel dependen (bukan independen) menggunakan model yang mengasumsikan variabel independen, dan secara mengejutkan ini sering bekerja dengan sangat baik, dan kadang-kadang lebih baik daripada model akuntansi untuk dependensi . Anda juga dapat tertarik dengan pertanyaan ini tentang cara menggunakan ANOVA ketika data tidak sepenuhnya memenuhi semua harapan .
Ringkasnya: jika Anda berniat mengerjakan data praktis dan tujuan Anda bukan untuk membuktikan hasil ilmiah apa pun, tetapi untuk membuat sistem yang hanya berfungsi (yaitu, layanan web atau aplikasi praktis apa pun), asumsi independensi (dan mungkin asumsi lain) bisa santai, tetapi jika Anda mencoba untuk menyimpulkan / membuktikan kebenaran umum , maka Anda harus selalu menggunakan tes yang Anda dapat menjamin secara matematis (atau setidaknya berasumsi dengan aman dan terbukti) bahwa Anda memenuhi semua premis .
sumber