Baru-baru ini saya menerima komentar pengulas dari pengiriman jurnal yang meminta saya untuk melakukannya
laporkan bagaimana saya menangani outlier dan fringeliers .
Saya belum pernah mendengar istilah "fringeliers" dan ketika saya mencari di Google, ada beberapa artikel, tetapi tidak ada definisi yang ringkas. Jadi saya pikir akan lebih baik untuk memiliki pertanyaan seperti ini yang dapat mengklarifikasi apa itu "fringeliers" dan memberikan definisi untuk saya dan orang-orang di masa depan yang menanyakan pertanyaan yang sama.
terminology
outliers
Jeromy Anglim
sumber
sumber
Jawaban:
Fringeliers tampaknya didefinisikan sebagai jenis pencilan yang kurang ekstrim. Yakni, data di pinggiran distribusi.
Sebagai contoh, jika Anda mendefinisikan cutoff untuk outlier, fringeliers mungkin dioperasionalkan menjadi nilai-nilai yang dekat dengan kedua sisi cutoff (misalnya, untuk cutoff 3 SD, antara 2,7 dan 3,3 SD dari rata-rata).
Osborne dan Overbay (2008) menulis sebagai berikut:
Dan terus memperkenalkan istilah "fringelier" dari Wainer (1976)
Beberapa contoh:
Dalam beberapa konteks, outlier menyarankan bahwa data tidak valid. Misalnya, jika tinggi pria tercatat setinggi 8 kaki (katakanlah 6,5 SD di atas rata-rata), ini mungkin merupakan pengukuran yang tidak valid. Sebaliknya, jika tinggi seseorang tercatat setinggi 6 kaki 10 inci (3 SD di atas rata-rata - fringelier), ini mungkin merupakan pengukuran yang valid, tetapi sama-sama, itu mungkin menunjukkan masalah dengan pengukuran karena ini sangat jarang. Intinya adalah bahwa menentukan apakah suatu nilai tidak valid semakin sulit, semakin tidak ekstrim nilainya.
Dalam konteks lain, outlier menjadi perhatian karena mereka memiliki pengaruh berlebihan pada estimasi parameter, terutama ketika menggunakan metode statistik standar menggunakan kuadrat terkecil dan sebagainya. Dengan demikian, fringelier mungkin memiliki dampak yang lebih besar daripada beberapa kasus kebanyakan, tetapi keputusan tentang apakah menyimpan data atau tidak untuk tujuan pemodelan mungkin kurang jelas.
Referensi
sumber
Saya akan berpikir bahwa Anda perlu mempertimbangkan frekuensi fringeliers wrt titik data yang berada di bawah cutoff. Jika proporsi fringeliers ke data "valid" tinggi (berdasarkan beberapa faktor), mungkin cutoff didefinisikan secara tidak realistis. Bayangkan Anda berada di tenda, dan satu-satunya beruang di daerah itu berjarak 3 mil; tetapi ada 500 dari mereka! :)
sumber