Apa itu "fringeliers"?

8

Baru-baru ini saya menerima komentar pengulas dari pengiriman jurnal yang meminta saya untuk melakukannya

laporkan bagaimana saya menangani outlier dan fringeliers .

Saya belum pernah mendengar istilah "fringeliers" dan ketika saya mencari di Google, ada beberapa artikel, tetapi tidak ada definisi yang ringkas. Jadi saya pikir akan lebih baik untuk memiliki pertanyaan seperti ini yang dapat mengklarifikasi apa itu "fringeliers" dan memberikan definisi untuk saya dan orang-orang di masa depan yang menanyakan pertanyaan yang sama.

Jeromy Anglim
sumber
Inilah jawaban yang diajukan ketika Anda mengirimkan revisi: "Saya berurusan dengan fringeliers dengan memasukkan komentar mereka pada naskah saya ke dalam akun dan merevisi makalah saya sesuai." ;-)
Stephan Kolassa

Jawaban:

10

Fringeliers tampaknya didefinisikan sebagai jenis pencilan yang kurang ekstrim. Yakni, data di pinggiran distribusi.

Sebagai contoh, jika Anda mendefinisikan cutoff untuk outlier, fringeliers mungkin dioperasionalkan menjadi nilai-nilai yang dekat dengan kedua sisi cutoff (misalnya, untuk cutoff 3 SD, antara 2,7 dan 3,3 SD dari rata-rata).

Osborne dan Overbay (2008) menulis sebagai berikut:

Meskipun definisi bervariasi, pencilan umumnya dianggap sebagai titik data yang jauh di luar norma untuk variabel atau populasi (misalnya, Jarrell, 1994; Rasmussen, 1988; Stevens, 1984). Hawkins (1980) menggambarkan pencilan sebagai pengamatan yang "menyimpang begitu banyak dari pengamatan lain sehingga menimbulkan kecurigaan bahwa itu dihasilkan oleh mekanisme yang berbeda" (hal. 1). Pencilan juga telah didefinisikan sebagai nilai-nilai yang "meragukan di mata peneliti" (Dixon, 1950, hal. 488) dan kontaminan (Wainer, 1976).

Dan terus memperkenalkan istilah "fringelier" dari Wainer (1976)

Wainer (1976) juga memperkenalkan konsep "fringelier," mengacu pada "peristiwa yang tidak biasa yang terjadi lebih sering daripada jarang" (p. 286). Poin-poin ini terletak di dekat tiga standar deviasi dari mean dan karenanya mungkin memiliki pengaruh kuat yang tidak proporsional pada estimasi parameter, namun tidak sejelas atau mudah diidentifikasi sebagai outlier biasa karena kedekatannya dengan pusat distribusi.

Beberapa contoh:

Dalam beberapa konteks, outlier menyarankan bahwa data tidak valid. Misalnya, jika tinggi pria tercatat setinggi 8 kaki (katakanlah 6,5 SD di atas rata-rata), ini mungkin merupakan pengukuran yang tidak valid. Sebaliknya, jika tinggi seseorang tercatat setinggi 6 kaki 10 inci (3 SD di atas rata-rata - fringelier), ini mungkin merupakan pengukuran yang valid, tetapi sama-sama, itu mungkin menunjukkan masalah dengan pengukuran karena ini sangat jarang. Intinya adalah bahwa menentukan apakah suatu nilai tidak valid semakin sulit, semakin tidak ekstrim nilainya.

Dalam konteks lain, outlier menjadi perhatian karena mereka memiliki pengaruh berlebihan pada estimasi parameter, terutama ketika menggunakan metode statistik standar menggunakan kuadrat terkecil dan sebagainya. Dengan demikian, fringelier mungkin memiliki dampak yang lebih besar daripada beberapa kasus kebanyakan, tetapi keputusan tentang apakah menyimpan data atau tidak untuk tujuan pemodelan mungkin kurang jelas.

Referensi

  • Osborne, J. & Overbay, A. (2008). Praktik terbaik dalam pembersihan data: bagaimana outlier dan “fringeliers” dapat meningkatkan tingkat kesalahan dan menurunkan kualitas dan ketepatan hasil Anda. Dalam Osborne, J. Praktik terbaik dalam metode kuantitatif (hal. 205-213). Thousand Oaks, CA: SAGE Publications, Inc. doi: 10.4135 / 9781412995627
  • Wainer, statistik H.Robust: Survei dan beberapa resep1 (4) 285-312 (1976).
Jeromy Anglim
sumber
Saya kira perbedaan hanya dapat memanifestasikan dirinya dalam cara mereka diperlakukan. Apakah orang-orang yang memperhatikan perbedaannya menyarankan untuk memperlakukan "fringelier" dengan penalti yang lembut sementara memperlakukan yang outlier dengan penalti yang keras seperti membuang langsung?
Hans
0

Saya akan berpikir bahwa Anda perlu mempertimbangkan frekuensi fringeliers wrt titik data yang berada di bawah cutoff. Jika proporsi fringeliers ke data "valid" tinggi (berdasarkan beberapa faktor), mungkin cutoff didefinisikan secara tidak realistis. Bayangkan Anda berada di tenda, dan satu-satunya beruang di daerah itu berjarak 3 mil; tetapi ada 500 dari mereka! :)

Jim
sumber
Ini tidak memberikan definisi.
Michael R. Chernick