Cara menormalkan data dari distribusi yang tidak diketahui

12

Saya mencoba untuk menemukan distribusi karakteristik yang paling tepat dari data pengukuran berulang dari jenis tertentu.

Pada dasarnya, di cabang geologi saya, kami sering menggunakan penanggalan radiometrik mineral dari sampel (bongkahan batu) untuk mengetahui berapa lama peristiwa terjadi (batu itu mendingin di bawah suhu ambang batas). Biasanya, beberapa (3-10) pengukuran akan dilakukan dari masing-masing sampel. Kemudian, mean dan standar deviasi diambil. Ini adalah geologi, sehingga usia pendinginan sampel dapat menskala dari hingga tahun, tergantung pada situasinya.μσ105109

Namun, saya punya alasan untuk percaya bahwa pengukuran itu bukan Gaussian: 'Pencilan', baik dinyatakan secara sewenang-wenang, atau melalui beberapa kriteria seperti kriteria Peirce [Ross, 2003] atau uji-Q Dixon [Dean dan Dixon, 1951] , cukup adil. umum (katakanlah, 1 dalam 30) dan ini hampir selalu lebih tua, menunjukkan bahwa pengukuran ini cenderung miring. Ada alasan yang dipahami dengan baik untuk hal ini berkaitan dengan pengotor mineralogi.

Berarti vs median usia sampel.  Garis merah menunjukkan rata-rata = median.  Perhatikan cara lama yang disebabkan oleh pengukuran yang miring.

Oleh karena itu, jika saya dapat menemukan distribusi yang lebih baik, yang menyertakan ekor dan kemiringan yang gemuk, saya pikir kita dapat membangun parameter lokasi dan skala yang lebih bermakna, dan tidak perlu membuang pencilan dengan begitu cepat. Yaitu jika dapat ditunjukkan bahwa jenis pengukuran ini adalah lognormal, atau log-Laplacian, atau apa pun, maka ukuran kemungkinan maksimum yang lebih dapat digunakan daripada dan , yang tidak kuat dan mungkin bias dalam kasus ini. data miring kanan sistematis.μσ

Saya bertanya-tanya apa cara terbaik untuk melakukan ini. Sejauh ini, saya memiliki database dengan sekitar 600 sampel, dan 2-10 (atau lebih) mereplikasi pengukuran per sampel. Saya telah mencoba menormalkan sampel dengan membagi masing-masing dengan mean atau median, dan kemudian melihat histogram dari data yang dinormalisasi. Ini menghasilkan hasil yang masuk akal, dan tampaknya menunjukkan bahwa data tersebut bersifat log-Laplacian:

masukkan deskripsi gambar di sini

Namun, saya tidak yakin apakah ini cara yang tepat untuk melakukannya, atau jika ada peringatan yang tidak saya sadari yang mungkin bias hasil saya sehingga mereka terlihat seperti ini. Apakah ada yang punya pengalaman dengan hal semacam ini, dan tahu praktik terbaik?

catcatot
sumber
4
Karena 'normalisasi' digunakan untuk memaksudkan beberapa hal berbeda dalam konteks seperti ini, tepatnya apa yang Anda maksudkan dengan "normalisasi"? Informasi apa yang Anda coba dapatkan dari data?
Glen_b -Reinstate Monica
1
@ Glen_b: Dengan 'Normalisasi' Maksud saya menskala hal-hal dengan median (atau rata-rata) semua usia yang diukur dari sampel dengan median (atau rata-rata, atau apa pun). Ada bukti eksperimental bahwa dispersi dalam sampel meningkat secara linear seiring bertambahnya usia. Apa yang saya inginkan dari data adalah untuk melihat apakah jenis pengukuran ini paling baik ditandai dengan distribusi normal, atau log-normal, atau beta, atau apa pun, sehingga lokasi dan skala paling akurat dapat diturunkan, atau L1 vs. Regresi L2 dibenarkan, dll. Dalam posting ini saya bertanya bagaimana saya bisa mengambil data yang telah saya uraikan dan selidiki ini.
cossatot
1
Saya tidak memiliki keahlian dalam bidang ini, tetapi grafik Anda dan pemikiran yang Anda masukkan ini terlihat bagus. Anda mungkin sudah melihatnya, tetapi artikel Wikipedia tentang Log-Laplace menghubungkan ke makalah yang bagus, yang tidak secara langsung menjawab pertanyaan Anda, tetapi mungkin memiliki beberapa wawasan menarik: wolfweb.unr.edu/homepage/tkozubow/0_logs.pdf
Wayne
Saya tidak yakin saya benar-benar mengerti, tetapi mungkin bootstrap dapat membantu? Jika Anda memulihkan varian dll dari distribusi Anda menggunakan metode bootstrap, Anda dapat menggunakan informasi yang dipulihkan untuk menormalkan data Anda. en.wikipedia.org/wiki/Bootstrapping_(statistics)
123

Jawaban:

1

Sudahkah Anda mempertimbangkan untuk mengambil rata-rata pengukuran (3-10) dari setiap sampel? Dapatkah Anda kemudian bekerja dengan distribusi yang dihasilkan - yang akan mendekati distribusi-t, yang akan mendekati distribusi normal untuk n yang lebih besar?

Michael P.
sumber
1

Saya tidak berpikir Anda menggunakan normalisasi untuk berarti apa yang biasanya berarti, yang biasanya seperti menormalkan mean dan / atau varians, dan / atau memutihkan, misalnya.

Saya pikir apa yang Anda coba lakukan adalah menemukan reparameterisasi non-linear dan / atau fitur yang memungkinkan Anda menggunakan model linier pada data Anda.

Ini tidak sepele, dan tidak memiliki jawaban sederhana. Itu sebabnya data ilmuwan dibayar banyak uang ;-)

Salah satu cara yang relatif mudah untuk membuat fitur non-linear adalah dengan menggunakan jaringan saraf umpan-maju, di mana jumlah lapisan, dan jumlah neuron per lapisan, mengontrol kapasitas jaringan untuk menghasilkan fitur. Kapasitas lebih tinggi => lebih banyak non-linearitas, lebih banyak overfitting. Kapasitas lebih rendah => lebih linieritas, bias lebih tinggi, varian lebih rendah.

Metode lain yang memberi Anda sedikit lebih banyak kontrol adalah dengan menggunakan splines.

Akhirnya, Anda dapat membuat fitur seperti itu dengan tangan, yang saya pikir adalah apa yang Anda coba lakukan, tetapi kemudian, tidak ada jawaban 'kotak hitam' yang sederhana: Anda harus menganalisis data dengan hati-hati, mencari pola, dan sebagainya. .

Hugh Perkins
sumber
Normalisasi memiliki beberapa makna lintas matematika dan sains; menyatakan bahwa satu arti yang paling akrab secara pribadi adalah standar adalah apa yang kebanyakan orang tergoda untuk melakukannya, tetapi itu tidak sesuai dengan yang lain. Lebih serius, ini dimulai pada topik tetapi kemudian membelok. Di mana indikasi minat pada model nonlinear? Jaring saraf? Splines? Apa yang harus dilakukan dengan mengidentifikasi distribusi atau keluarga distribusi, yang merupakan pertanyaan? Saya tidak dapat melihat koneksi, jadi sarankan memotong apa yang tidak relevan atau memperluasnya untuk menunjukkan bagaimana itu relevan.
Nick Cox