Ini adalah sesuatu yang saya lihat dilakukan sebagai semacam metode ad-hoc dan tampaknya sangat mencurigakan bagi saya tetapi mungkin saya kehilangan sesuatu. Saya telah melihat ini dilakukan dalam beberapa regresi tetapi mari kita tetap sederhana:
Sekarang ambil residu dari model yang pas
dan stratifikasi sampel berdasarkan ukuran residu. Sebagai contoh, katakanlah sampel pertama adalah bagian bawah 90% dari residu dan sampel kedua adalah 10% teratas, kemudian lanjutkan untuk melakukan dua perbandingan sampel - Saya telah melihat ini dilakukan baik pada alat prediksi dalam model, , dan pada variabel yang tidak ada dalam model. Logika informal yang digunakan adalah bahwa mungkin poin yang memiliki nilai jauh di atas apa yang Anda harapkan dalam model (yaitu residu besar) berbeda dalam beberapa hal, dan perbedaan itu diselidiki dengan cara ini.
Pikiranku pada subjek adalah:
- Jika Anda melihat perbedaan 2 sampel pada prediktor dalam model, maka ada efek prediktor yang tidak diperhitungkan oleh model dalam kondisi saat ini (yaitu efek non-linear).
- Jika Anda melihat perbedaan 2-sampel pada variabel yang tidak ada dalam model, maka mungkin seharusnya ada dalam model di tempat pertama.
Bagaimanapun, pertanyaan dasar saya adalah: Apakah ada alasan untuk melakukan ini? Jika demikian, dalam situasi apa ini bisa menjadi hal yang bermanfaat untuk dilakukan? Jelas saya tidak berpikir ada tetapi mungkin ada sesuatu yang saya tidak pikirkan dengan cara yang benar.
sumber
IV
s yang sama ? Jika demikian, saya tidak dapat melihat intinya karena split residual sudah menggunakan informasi itu. Bisakah Anda memberi contoh di mana Anda pernah melihat ini, ini baru bagi saya?Jawaban:
Membandingkan berarti terlalu lemah: sebagai gantinya, bandingkan distribusi.
Ada juga pertanyaan mengenai apakah lebih diinginkan untuk membandingkan ukuran residu (seperti yang dinyatakan) atau membandingkan residu itu sendiri. Karena itu, saya mengevaluasi keduanya.
R
x
y
Argumen kelima untuk fungsi ini
abs0
,, secara default menggunakan ukuran (nilai absolut) dari residu untuk membentuk grup. Nanti kita bisa menggantinya dengan fungsi yang menggunakan residu itu sendiri.sd
abs0
n.trials
n
n
, beta, s dansd
). Contoh plot ini muncul di bawah.Mari kita sekarang menggunakan alat-alat ini untuk mengeksplorasi beberapa kombinasi realistis nonlinier dan heteroskedastisitas, menggunakan nilai absolut residu:
Mari kita lakukan hal yang sama, menggunakan data yang persis sama , tetapi menganalisis residu itu sendiri. Untuk melakukan ini, blok kode sebelumnya dijalankan kembali setelah melakukan modifikasi ini:
Mungkin menggabungkan kedua teknik ini akan berhasil. Simulasi-simulasi ini (dan variasi dari mereka, yang dapat dijalankan oleh pembaca yang tertarik di waktu luang) menunjukkan bahwa teknik-teknik ini bukan tanpa prestasi.
sumber
Yang lain berkomentar bahwa ini mungkin hanya alat eksplorasi untuk melihat apakah dua set data harus dimodelkan secara terpisah. Jika demikian, mungkin ini dan mungkin pendekatan eksplorasi lain mungkin baik-baik saja. Namun pertanyaannya kemudian menjadi apa yang Anda lakukan selanjutnya? Jika Anda kemudian akan melakukan dua regresi terpisah dan menarik kesimpulan tentang sampel, saya pikir Anda perlu mempertimbangkan cara Anda membagi sampel.
sumber
Saya kira mungkin ada beberapa motivasi untuk melakukan hal ini misalnya dengan asumsi bahwa residu konsisten maka metode yang Anda sebutkan dapat membantu mengidentifikasi pengamatan yang lebih dekat, sehingga langkah kedua menyediakan penduga yang "dikoreksi". Tetapi, ada teknik yang lebih ketat yang melakukan deteksi outlyers atau yang menyediakan penduga yang kuat dengan kehadiran pengamatan seperti itu, seperti regresi kuantil, LMS (paling tidak rata-rata kotak) atau M-estimator dll di mana semua metode ini telah didefinisikan dengan baik dan properti statistik yang dikenal. (Ini telah ditambahkan oleh @Michael Chernik)
Motivasi lain mungkin identifikasi cluster tetapi ini primitif jika dibandingkan dengan teknik yang tersedia untuk deteksi cluster yang juga didefinisikan dengan baik dan diimplementasikan secara luas.
Dalam kedua kasus, menggunakan residu tampaknya informal dan primitif, tetapi mungkin masih dapat ditoleransi sebagai alat eksplorasi. Ini juga tergantung pada domain pembaca. Saya akan menemukan ini dapat diterima untuk beberapa ilmu sosial di mana alat kuantitatif mungkin kurang populer.
sumber