Saya melakukan penilaian berbasis komputer dari berbagai metode pemasangan jenis model tertentu yang digunakan dalam ilmu palaeo. Saya memiliki satu set pelatihan ish besar dan jadi saya secara acak (stratified random sampling) menyisihkan satu set tes. Saya memasang berbagai metode pada sampel set pelatihan dan menggunakan model dihasilkan, saya memperkirakan respons untuk sampel set uji dan menghitung RMSEP atas sampel dalam set uji. Ini adalah sekali jalan .
Saya kemudian mengulangi proses ini berkali-kali, setiap kali saya memilih pelatihan yang berbeda dengan secara acak mengambil sampel tes baru.
Setelah melakukan ini saya ingin menyelidiki apakah ada metode yang memiliki kinerja RMSEP lebih baik atau lebih buruk. Saya juga ingin melakukan beberapa perbandingan metode pasangan-bijaksana.
Pendekatan saya adalah menyesuaikan model efek campuran linier (LME), dengan efek acak tunggal untuk Run . Saya menggunakan lmer()
dari lme4 paket sesuai model dan fungsi saya dari multcomp paket untuk melakukan beberapa perbandingan. Model saya pada dasarnya
lmer(RMSEP ~ method + (1 | Run), data = FOO)
di mana method
ada faktor yang menunjukkan metode mana yang digunakan untuk menghasilkan prediksi model untuk set tes dan Run
merupakan indikator untuk setiap Jalankan tertentu dari "percobaan" saya.
Pertanyaan saya berkaitan dengan residu LME. Mengingat efek acak tunggal untuk Run, saya mengasumsikan bahwa nilai RMSEP untuk menjalankan itu berkorelasi pada tingkat tertentu tetapi tidak berkorelasi antara proses, berdasarkan korelasi yang diinduksi efek acak yang diberikan.
Apakah asumsi independensi antar proses ini valid? Jika tidak, apakah ada cara untuk menjelaskan ini dalam model LME atau haruskah saya mencari untuk menggunakan jenis analisis statis lain untuk menjawab pertanyaan saya?
sumber
Jawaban:
Anda pada dasarnya melakukan beberapa bentuk cross-validasi di sini untuk masing-masing metode m Anda dan kemudian ingin melihat metode mana yang lebih baik. Hasil antara berjalan pasti akan tergantung, karena mereka didasarkan pada data yang sama dan Anda memiliki tumpang tindih antara set kereta / tes Anda. Pertanyaannya adalah apakah ini penting ketika Anda datang untuk membandingkan metode.
Katakanlah Anda hanya akan menjalankan satu kali saja, dan akan menemukan bahwa satu metode lebih baik daripada yang lainnya. Anda kemudian akan bertanya pada diri sendiri - apakah ini hanya karena pilihan set tes yang spesifik? Inilah sebabnya mengapa Anda mengulangi tes Anda untuk banyak set kereta / tes yang berbeda. Jadi, untuk menentukan bahwa suatu metode lebih baik daripada metode lain, Anda menjalankan berkali-kali dan dalam setiap menjalankan membandingkannya dengan metode lain (Anda memiliki opsi berbeda dalam melihat kesalahan / peringkat / dll). Sekarang, jika Anda menemukan bahwa suatu metode melakukan lebih baik pada sebagian besar berjalan, hasilnya adalah apa adanya. Saya tidak yakin akan membantu jika memberikan nilai p untuk ini. Atau, jika Anda ingin memberikan nilai-p, tanyakan pada diri Anda apa model latar belakang di sini?
sumber
Mungkin tidak terlalu mengerti apa yang telah Anda lakukan tetapi
Ya, itu mencerminkan betapa sulitnya set tes dalam menjalankannya
Tidak, mengingat cara Anda mengambil sampel set tes, beberapa akan lebih tumpang tindih daripada yang lain (pasti bukan replikasi independen)
Anda entah bagaimana harus memodelkan ketergantungan berdasarkan pada tumpang tindih atau merancang penilaian sehingga jalannya independen. Saya akan membaca literatur statistik tentang validasi silang ;-)
sumber