Praktik terbaik saat memperlakukan data rentang sebagai berkelanjutan

Saya melihat apakah kelimpahan berhubungan dengan ukuran. Ukuran (tentu saja) kontinu, namun, kelimpahan dicatat pada skala sedemikian rupa

A = 0-10
B = 11-25
C = 26-50
D = 51-100
E = 101-250
F = 251-500
G = 501-1000
H = 1001-2500
I = 2501-5000
J = 5001-10,000
etc...

A hingga Q ... 17 level. Saya sedang memikirkan satu pendekatan yang mungkin untuk menetapkan setiap huruf nomor: baik minimum, maksimum, atau median (yaitu A = 5, B = 18, C = 38, D = 75.5 ...).

Apa potensi jebakan - dan karenanya, akan lebih baik untuk memperlakukan data ini sebagai kategori?

Saya telah membaca pertanyaan ini yang memberikan beberapa pemikiran - tetapi salah satu kunci dari kumpulan data ini adalah bahwa kategorinya tidak genap - jadi memperlakukannya sebagai kategorikal akan menganggap perbedaan antara A dan B sama dengan perbedaan antara B dan C ... (yang dapat diperbaiki dengan menggunakan logaritma - terima kasih Anonymouse)

Pada akhirnya, saya ingin melihat apakah ukuran dapat digunakan sebagai prediktor kelimpahan setelah mempertimbangkan faktor lingkungan lainnya. Prediksi ini juga akan berada dalam kisaran: Ukuran yang diberikan X dan faktor A, B, dan C kami memperkirakan bahwa Kelimpahan Y akan jatuh antara Min dan Max (yang saya kira dapat menjangkau satu atau lebih titik skala: Lebih dari Min D dan kurang dari Max F ... meskipun lebih tepat lebih baik).

categorical-data variance model continuous-data Trees4theForest
sumber

Jawaban:

Solusi kategorikal

Memperlakukan nilai-nilai sebagai kategori kehilangan informasi penting tentang ukuran relatif . Metode standar untuk mengatasi ini adalah regresi logistik yang dipesan . Akibatnya, metode ini "tahu" bahwa dan, menggunakan hubungan yang diamati dengan regressor (seperti ukuran) cocok (agak sewenang-wenang) nilai-nilai untuk setiap kategori yang menghormati pemesanan. $A\lt B\lt \cdots \lt J\lt \ldots$

Sebagai ilustrasi, pertimbangkan 30 pasangan (ukuran, kategori kelimpahan) yang dihasilkan sebagai

size = (1/2, 3/2, 5/2, ..., 59/2)
e ~ normal(0, 1/6)
abundance = 1 + int(10^(4*size + e))

dengan kelimpahan dikategorikan ke dalam interval [0,10], [11,25], ..., [10001,25000].

Scatterplot kategori kelimpahan vs ukuran

Regresi logistik yang dipesan menghasilkan distribusi probabilitas untuk setiap kategori; distribusi tergantung pada ukuran. Dari informasi terperinci semacam itu Anda dapat menghasilkan estimasi nilai dan interval di sekitar mereka. Berikut adalah plot dari 10 PDF yang diperkirakan dari data ini (perkiraan untuk kategori 10 tidak dimungkinkan karena kurangnya data di sana):

Kerapatan probabilitas berdasarkan kategori

Solusi berkelanjutan

Mengapa tidak memilih nilai numerik untuk mewakili setiap kategori dan melihat ketidakpastian tentang kelimpahan sebenarnya dalam kategori sebagai bagian dari istilah kesalahan?

$f$ $a$ $f(a)$ $a$

$f$ $\alpha_i$ $i$ $\beta_i$ $i$ $f(\beta_i)$ $\alpha_i$ $\alpha_{i+1}$ $f(a)$

$\varepsilon$ $a+\varepsilon$ $a$ $f(\beta_i)$ $f(\beta_i) - f(a)$

error = f (a + ε) - f (a) - (f (a + ε) - f (β_{i})) .

$\text{error} = f(a + \varepsilon) - f(a) - \left(f(a + \varepsilon) - f(\beta_i)\right).$

$f(a + \varepsilon) - f(a)$ $f$ $\varepsilon$ $\varepsilon$ $\varepsilon$ $i - f(\beta_i) \lt 0$ $i+1 - f(\beta_i) \ge 0$ $f$ $\beta_i$ $f(\beta_i)$ $i$ $i+1$ $\beta_i \approx f^{-1}(i+1/2)$

$f$

$4 \log(10) \approx 9.21$

Hasil regresi

Plot ini menunjukkan kelimpahan yang tidak dikategorikan bersama dengan kecocokan berdasarkan kelimpahan yang dikategorikan (menggunakan cara geometris dari titik akhir kategori seperti yang disarankan) dan kecocokan berdasarkan pada kelimpahan itu sendiri. Kecocokannya sangat dekat, menunjukkan metode penggantian kategori ini dengan nilai numerik yang dipilih dengan tepat bekerja dengan baik dalam contoh .

$\beta_i$ $f$ $1$ $0$ $25000$

whuber
sumber

+1 jawaban bagus! Saya terutama suka bagaimana 2 opsi yang berbeda dijelaskan bersama dengan justifikasi mereka. Saya juga mengumpulkan mengambil log kelimpahan, bukan ukuran, harus menjadi penekanan, yang merupakan pemikiran saya juga. Satu pertanyaan, di bagian 1, Anda menyatakan "Anda dapat menghasilkan estimasi nilai dan interval di sekitar mereka". Bagaimana caranya?

gung - Reinstate Monica

Pertanyaan bagus, @ungung. Cara kasar, yang mungkin efektif, adalah memperlakukan kategori sebagai data bernilai interval dan hasil logit yang dipesan menyediakan distribusi (diskrit) atas interval tersebut untuk setiap nilai yang diberikan dari 'ukuran'. Hasilnya adalah distribusi yang bernilai interval, yang akan memiliki nilai rata-rata interval dan nilai interval kepercayaan yang dinilai.

whuber

@whuber, ada baiknya menyebutkan opsi perangkat lunak. Saya menduga Anda menggunakan Stata (jika saya cukup terlatih untuk grafik Stata dan memberi tahu mereka dari grafik R dan SAS), di mana model ini dipasangi ologit. Dalam R, Anda dapat melakukan ini dengan polrdi MASSpaket.

Tugas

Anda benar, @Stask. Terima kasih untuk referensi ke solusi R. (Grafik adalah semua grafik default di Stata 11; hanya legenda dan gaya garis di yang terakhir yang disesuaikan karena perbedaan merah-hijau mungkin tidak terlihat oleh sekitar 3% dari semua pembaca.)

whuber

@StasK rms::lrmdan paket ordinal ( clm) juga merupakan opsi yang bagus.

chl

Pertimbangkan untuk menggunakan logaritma ukuran.

Memiliki QUIT - Anony-Mousse
sumber

Ha - Jawaban itu menimbulkan telapak wajah sebagian. Benar itu menangani masalah skala - tetapi masih di tangan: untuk mengkategorikan atau tidak, dan nomor yang mematok "nilai" untuk. Jika pertanyaan-pertanyaan ini tidak relevan, saya dapat menangani hal itu juga.

Trees4theForest

Nah, Anda telah menempatkan berbagai masalah menjadi satu. Data yang Anda miliki tampaknya lebih masuk akal pada skala logaritmik. Apakah Anda ingin melakukan binning atau tidak adalah pertanyaan yang terpisah, dan di sana saya hanya memiliki satu balasan telapak tangan untuk Anda: tergantung pada data Anda dan pada apa yang ingin Anda capai. Lalu ada pertanyaan tersembunyi lainnya: bagaimana cara menghitung perbedaan antara interval - menghitung perbedaan cara mereka? atau jarak minimal (maka A ke B akan menjadi 0, B ke C akan menjadi 0, tetapi A ke C tidak). dll

Memiliki QUIT - Anony-Mousse

Poin yang bagus, saya telah memperbarui pertanyaan saya dengan lebih banyak informasi untuk membahas tujuan. Adapun perbedaan dalam interval, saya pikir itu adalah pertanyaan saya - apa yang akan menjadi keuntungan / kerugian relatif menghitung interval berdasarkan pada perbedaan rata-rata, jarak minimal, jarak maksimal, jarak antar menit, jarak antar maks, dll. Saran apa pun tentang hal-hal apa saja yang perlu saya pertimbangkan untuk membuat keputusan ini (atau bahkan jika perlu dipertimbangkan) akan menjadi hal yang hebat.

Trees4theForest

Ada banyak opsi lebih lanjut. Misalnya, untuk menghilangkan semua efek skala, Anda dapat mencoba memprediksi posisi peringkat. Selain itu, ini adalah masalah mengukur kesalahan. Dengan mengambil logaritma, Anda biasanya juga menimbang kesalahan dengan cara ini. Jadi, ketika nilai sebenarnya adalah 10.000 dan nilai prediksi adalah 10100 ini jauh lebih kecil daripada ketika nilai prediksi adalah 1 dan nilai sebenarnya adalah 101. Dengan tambahan melakukan binning dan menghitung mindist di antara nampan, Anda bahkan akan berat kecil kesalahan dengan 0.

Memiliki QUIT - Anony-Mousse