Prosedur otomatis untuk memilih subset poin data dengan korelasi terkuat?

15

Apakah ada beberapa prosedur standar (sehingga orang dapat mengutipnya sebagai referensi) untuk memilih subset poin data dari kumpulan yang lebih besar dengan korelasi terkuat (sepanjang hanya dua dimensi)?

Misalnya, Anda memiliki 100 titik data. Anda menginginkan subset 40 poin dengan korelasi terkuat di sepanjang dimensi X dan Y.

Saya menyadari bahwa menulis kode untuk melakukan ini akan relatif mudah, tetapi saya bertanya-tanya apakah ada sumber untuk mengutipnya?

Julie
sumber
3
"Saya menyadari bahwa menulis kode untuk melakukan ini akan relatif mudah". Ah? Dan bagaimana Anda akan melakukannya?
user603
3
Saya kira dia berarti sesuatu seperti "korelasi subset terbaik"; pilih himpunan bagian dari ( k = 40 dalam contohnya) data menunjukkan dari N Anda ( N = 100 dalam contohnya) dan menghitung estimasi korelasi ρ ( X , Y ) (dengan asumsi bahwa ia bermaksud mengetahui subset poin dengan korelasi linear terbaik ). Namun, proses ini tampaknya mahal secara komputasi untuk N besar , karena Anda harus menghitung ( Nkk=40NN=100ρ(X,Y)N dikalikan koefisien. (Nk)
Néstor
1
Jika Anda ingin melihat kombinasi linear dari variabel , korelasi kanonik adalah yang Anda cari. Jika tidak, pemilihan fitur korelasi mungkin menarik. X
MånsT
Saya pikir beberapa mungkin salah paham. @ Néstor sepertinya benar. Ada 100 item, masing-masing dengan nilai X dan nilai Y. Saya ingin mencari himpunan bagian dari 40 yang memiliki korelasi sekuat mungkin (w / regresi linier) antara nilai X dan Y. Saya dapat menulis kode untuk menjelajahi seluruh ruang pencarian, tetapi apa yang akan saya kutip untuk mendukung metode seperti itu? Apa namanya untuk menemukan korelasi optimal di antara semua himpunan bagian yang mungkin?
Julie
1
Apakah Anda tertarik untuk memaksimalkan korelasi atau mendapatkan garis regresi yang paling cocok, misalnya, diukur dengan varian residu minimum? Keduanya tidak sama ketika Anda harus memilih titik data Anda.
jbowman

Jawaban:

17

Saya akan mengatakan bahwa metode Anda cocok dengan kategori umum yang dijelaskan dalam artikel wikipedia ini yang juga memiliki referensi lain jika Anda memerlukan sesuatu yang lebih dari sekadar wikipedia. Beberapa tautan di dalam artikel itu juga akan berlaku.

Istilah lain yang dapat berlaku (jika Anda ingin melakukan pencarian lagi) termasuk "Pengerukan Data" dan "Menyiksa data sampai ia mengaku".

Perhatikan bahwa Anda selalu bisa mendapatkan korelasi 1 jika Anda hanya memilih 2 poin yang tidak memiliki nilai x atau y yang identik. Ada sebuah artikel di majalah Chance beberapa tahun yang lalu yang menunjukkan ketika Anda memiliki variabel x dan y dengan dasarnya tidak ada korelasi, Anda dapat menemukan cara untuk membuang nilai x dan rata-rata nilai y di dalam kotak sampah untuk menunjukkan tren peningkatan atau penurunan ( Chance 2006, Wahyu Visual: Menemukan Apa yang Tidak Ada melalui Penampakan Hasil yang Disayangkan: Efek Mendel, hlm. 49-52). Juga dengan dataset lengkap yang menunjukkan korelasi positif sedang, dimungkinkan untuk memilih subset yang menunjukkan korelasi negatif. Mengingat ini, bahkan jika Anda memiliki alasan yang sah untuk melakukan apa yang Anda usulkan, Anda memberikan banyak skeptis argumen untuk digunakan terhadap kesimpulan yang Anda buat.

Greg Snow
sumber
Apa nama artikel dari The American Statistician?
Diasumsikan normal
1
Saya salah ingat di mana saya melihat artikel itu, sebenarnya di Chance Magazine daripada The American Statistician. Saya telah memperbaikinya di atas dan memasukkan tahun, judul, dan nomor halaman sehingga pihak yang berkepentingan harus dapat menemukan salinan dengan mudah.
Greg Snow
4

Algoritma RANSAC terdengar seperti apa yang Anda inginkan. Pada dasarnya, ini mengasumsikan data Anda terdiri dari campuran inliers dan outlier, dan mencoba mengidentifikasi inliers dengan berulang kali mengambil sampel himpunan bagian dari data, menyesuaikan model untuk itu, kemudian mencoba menyesuaikan setiap titik data lainnya dengan model. Inilah artikel wikipedia tentang itu .

Dalam kasus Anda, Anda bisa terus mengulangi algoritma sambil menyimpan model terbaik saat ini yang cocok dengan setidaknya 40 poin, sehingga itu tidak akan menjamin Anda korelasi terbaik mutlak, tetapi harus mendekati.

Yusuf
sumber
1

Saya mengalami kesulitan membayangkan konteks di mana ini akan menjadi praktik yang baik, tetapi mari kita asumsikan sejenak bahwa Anda memang memiliki alasan yang baik untuk melakukan ini.

Algoritma brute force bisa jadi seperti ini:

  1. Anda menghitung semua kemungkinan sub-sampel n dari keseluruhan sampel N. Anda. Sebagian besar paket statistik memiliki fungsi untuk menghitung kombinasi tanpa penggantian yang akan melakukan ini untuk Anda.

  2. Anda memperkirakan korelasi antara x dan y untuk masing-masing sub-sampel dan memilih maksimum dari set itu.

Saya baru saja melihat komentar poster asli mengenai referensi untuk prosedur ini. Saya tidak yakin bahwa seseorang memiliki nama spesifik untuk prosedur ini setelah semua Anda hanya menghasilkan distribusi empiris dari semua korelasi yang mungkin dalam dataset Anda dan memilih maksimum. Pendekatan serupa digunakan ketika melakukan bootstraping, tetapi jika Anda tertarik dengan variabilitas empiris, Anda TIDAK menggunakannya untuk memilih sub-sampel spesifik yang terkait dengan maks.

David
sumber
2
1032N=100n=40
Tidak perlu curiga tentang hal itu :-p. Titik adil.
David
Maaf ... Saya suka angka-angka itu, karena mereka memberi kami banyak ruang untuk algoritma yang ditingkatkan :-).
whuber