Pengobatan pencilan yang dihasilkan oleh Kurtosis

10

Saya bertanya-tanya apakah ada yang bisa membantu saya dengan informasi tentang Kurtosis (yaitu apakah ada cara untuk mengubah data Anda untuk menguranginya?)

Saya memiliki dataset kuesioner dengan sejumlah besar kasus dan variabel. Untuk beberapa variabel saya, data menunjukkan nilai-nilai kurtosis yang cukup tinggi (yaitu distribusi leptokurtik) yang berasal dari fakta bahwa banyak peserta memberikan skor yang sama persis untuk variabel. Saya memang memiliki ukuran sampel yang sangat besar, jadi menurut teorema limit pusat, pelanggaran normalitas tetap harus baik-baik saja.

Masalahnya, bagaimanapun, adalah fakta bahwa level Kurtosis yang sangat tinggi menghasilkan sejumlah outlier univariat dalam dataset saya. Dengan demikian, bahkan jika saya mengubah data, atau menghapus / menyesuaikan outlier, tingginya tingkat kurtosis berarti bahwa skor paling ekstrim berikutnya secara otomatis menjadi outlier. Saya bertujuan untuk menggunakan (Analisis fungsi diskriminan). DFA dikatakan kuat untuk menyimpang dari normal asalkan pelanggaran itu disebabkan oleh kemiringan dan bukan pencilan. Selain itu, DFA juga dikatakan sangat dipengaruhi oleh pencilan dalam data (Tabachnick & Fidel).

Adakah ide untuk menyiasatinya? (Pikiran awal saya adalah beberapa cara mengendalikan Kurtosis, tetapi bukankah itu semacam hal yang baik jika sebagian besar sampel saya memberikan peringkat yang sama?)

Kyle Brown
sumber

Jawaban:

8

Cara "akal sehat" yang jelas untuk menyelesaikan masalah Anda adalah dengan

  1. Dapatkan kesimpulan menggunakan set data lengkap. yaitu hasil apa yang akan Anda nyatakan mengabaikan perhitungan menengah?
  2. Dapatkan kesimpulan menggunakan set data dengan kata "outliers" dihapus. yaitu hasil apa yang akan Anda nyatakan mengabaikan perhitungan menengah?
  3. Bandingkan langkah 2 dengan langkah 1
  4. Jika tidak ada perbedaan, lupakan Anda bahkan memiliki masalah. Pencilan tidak relevan dengan kesimpulan Anda . Pencilan dapat memengaruhi beberapa kesimpulan lain yang mungkin ditarik menggunakan data ini, tetapi ini tidak relevan dengan pekerjaan Anda. Itu masalah orang lain.
  5. Jika ada perbedaan, pada dasarnya Anda memiliki pertanyaan tentang "kepercayaan". Apakah "pencilan" ini nyata dalam arti bahwa mereka benar-benar mewakili sesuatu tentang analisis Anda? Atau "outlier" buruk karena berasal dari "sumber yang terkontaminasi"?

Dalam situasi 5 Anda pada dasarnya memiliki kasus "model" apa pun yang Anda gunakan untuk menggambarkan "populasi" tidak lengkap - ada detail yang tidak ditentukan, tetapi yang penting sampai pada kesimpulan. Ada dua cara untuk menyelesaikan ini, sesuai dengan dua skenario "kepercayaan":

  1. Tambahkan beberapa struktur tambahan ke model Anda sehingga menggambarkan "outlier". Jadi alih-alih , pertimbangkan .P(D|θ)P(D|θ)=P(λ|θ)P(D|θ,λ)dλ
  2. Buat "model-model", satu untuk pengamatan "baik", dan satu untuk pengamatan "buruk". Jadi alih-alih Anda akan menggunakan , jika u adalah probabilitas untuk memperoleh observasi "baik" dalam sampel Anda, dan G dan B mewakili model untuk data "baik" dan "buruk".P(D|θ)P(D|θ)=G(D|θ)u+B(D|θ)(1u)

Sebagian besar prosedur "standar" dapat ditunjukkan sebagai perkiraan untuk model semacam ini. Yang paling jelas adalah dengan mempertimbangkan kasus 1, di mana varians dianggap konstan di seluruh pengamatan. Dengan merelaksasi asumsi ini menjadi distribusi, Anda mendapatkan distribusi campuran. Ini adalah hubungan antara distribusi "normal" dan "t". Normal memiliki varian tetap, sedangkan "t" bercampur dengan varian berbeda, jumlah "pencampuran" tergantung pada derajat kebebasan. DF tinggi berarti pencampuran rendah (outlier tidak mungkin), DF rendah berarti pencampuran tinggi (outlier mungkin). Faktanya Anda bisa menganggap kasus 2 sebagai kasus khusus kasus 1, di mana pengamatan "baik" normal, dan pengamatan "buruk" adalah Cauchy (t dengan 1 DF).

probabilityislogic
sumber
Sungguh jawaban yang sangat bagus, @probabilityislogic
Peter Flom - Reinstate Monica
Hanya catatan klarifikasi: Klasifikasi yang optimal membutuhkan pengetahuan tentang distribusi multivariat yang sebenarnya. Jika Anda dapat memperkirakan distribusi ini dengan baik, maka fungsi klasifikasi yang dihasilkan hampir optimal. Pencilan (seperti yang ditunjukkan oleh kurtosis) memang bermasalah karena tidak ada sedikit data di wilayah tersebut untuk memperkirakan kepadatan. Dengan data multivariat, kutukan dimensi juga berkontribusi terhadap masalah ini.
Peter Westfall