Pertama, saya harus menyatakan bahwa saya telah mencari jawabannya di situs ini. Saya juga tidak menemukan pertanyaan yang menjawab pertanyaan saya atau tingkat pengetahuan saya sangat rendah sehingga saya tidak menyadari bahwa saya sudah membaca jawabannya.
Saya sedang belajar untuk Ujian Statistik AP. Saya harus belajar regresi linier dan salah satu topiknya adalah residual. Saya memiliki salinan Pengantar Statistik dan Analisis Data pada halaman 253 yang dinyatakannya.
Poin yang tidak biasa dalam kumpulan data bivariat adalah yang jatuh jauh dari sebagian besar titik lain di sebar baik dalam arah atau arahy
Pengamatan berpotensi pengamatan berpengaruh jika memiliki nilai yang jauh dari sisa data (dipisahkan dari sisa data dalam arah ). Untuk menentukan apakah pengamatan itu sebenarnya berpengaruh, kami menilai apakah pemindahan pengamatan ini memiliki dampak besar pada nilai kemiringan atau mencegat garis kuadrat-terkecil.x
Pengamatan adalah pencilan jika memiliki residu yang besar. Pengamatan outlier jauh dari garis kuadrat terkecil di arah .
Stattreck.com menyatakan empat metode untuk menentukan pencilan dari residual:
Poin data yang menyimpang jauh dari pola keseluruhan disebut outlier. Ada empat cara bahwa suatu titik data dapat dianggap sebagai pencilan.
- Itu bisa memiliki nilai X ekstrim dibandingkan dengan titik data lainnya.
- Itu bisa memiliki nilai Y ekstrim dibandingkan dengan titik data lainnya.
- Itu bisa memiliki nilai X dan Y yang ekstrim.
- Mungkin jauh dari sisa data, bahkan tanpa nilai X atau Y yang ekstrim.
Kedua sumber ini tampaknya saling bertentangan. Adakah yang bisa membantu menjernihkan kebingungan saya. Juga, bagaimana seseorang mendefinisikan ekstrim. Statistik AP menggunakan aturan jika titik data di luar (Q1-1.5IQR, Q3 + 1.5IQR) itu adalah outlier. Saya tidak tahu bagaimana menerapkannya hanya dari grafik dari residu.
sumber
Pengaruh adalah fungsi dari titik desain (nilai X), seperti yang dinyatakan oleh buku teks Anda.
Perhatikan bahwa pengaruhnya adalah kekuatan. Dalam percobaan yang dirancang, Anda ingin nilai X yang berpengaruh, dengan asumsi Anda dapat mengukur nilai Y yang sesuai secara akurat. Anda mendapatkan lebih banyak untuk uang dengan cara itu.
Bagi saya, pencilan pada dasarnya adalah kesalahan - yaitu, pengamatan yang tidak mengikuti model yang sama dengan data lainnya. Ini mungkin terjadi karena kesalahan pengumpulan data, atau karena subjek tertentu itu tidak biasa dalam beberapa cara.
Saya tidak terlalu suka definisi stattrek tentang outlier karena beberapa alasan. Regresi tidak simetris dalam Y dan X. Y dimodelkan sebagai variabel acak dan X diasumsikan diperbaiki dan diketahui. Keanehan pada Y's tidak sama dengan keanehan pada X's. Pengaruh dan outliership memiliki arti yang berbeda. Pengaruh, dalam regresi berganda, tidak terdeteksi dengan melihat plot residual. Deskripsi yang baik tentang outlier dan pengaruh untuk kasus variabel tunggal harus membuat Anda memahami banyak kasus juga.
Saya lebih tidak menyukai buku teks Anda, karena alasan yang diberikan oleh John.
Intinya, outlier berpengaruh berbahaya. Mereka perlu diperiksa dengan cermat dan ditangani.
sumber