Apakah ada beberapa prosedur standar (sehingga orang dapat mengutipnya sebagai referensi) untuk memilih subset poin data dari kumpulan yang lebih besar dengan korelasi terkuat (sepanjang hanya dua dimensi)?
Misalnya, Anda memiliki 100 titik data. Anda menginginkan subset 40 poin dengan korelasi terkuat di sepanjang dimensi X dan Y.
Saya menyadari bahwa menulis kode untuk melakukan ini akan relatif mudah, tetapi saya bertanya-tanya apakah ada sumber untuk mengutipnya?
Jawaban:
Saya akan mengatakan bahwa metode Anda cocok dengan kategori umum yang dijelaskan dalam artikel wikipedia ini yang juga memiliki referensi lain jika Anda memerlukan sesuatu yang lebih dari sekadar wikipedia. Beberapa tautan di dalam artikel itu juga akan berlaku.
Istilah lain yang dapat berlaku (jika Anda ingin melakukan pencarian lagi) termasuk "Pengerukan Data" dan "Menyiksa data sampai ia mengaku".
Perhatikan bahwa Anda selalu bisa mendapatkan korelasi 1 jika Anda hanya memilih 2 poin yang tidak memiliki nilai x atau y yang identik. Ada sebuah artikel di majalah Chance beberapa tahun yang lalu yang menunjukkan ketika Anda memiliki variabel x dan y dengan dasarnya tidak ada korelasi, Anda dapat menemukan cara untuk membuang nilai x dan rata-rata nilai y di dalam kotak sampah untuk menunjukkan tren peningkatan atau penurunan ( Chance 2006, Wahyu Visual: Menemukan Apa yang Tidak Ada melalui Penampakan Hasil yang Disayangkan: Efek Mendel, hlm. 49-52). Juga dengan dataset lengkap yang menunjukkan korelasi positif sedang, dimungkinkan untuk memilih subset yang menunjukkan korelasi negatif. Mengingat ini, bahkan jika Anda memiliki alasan yang sah untuk melakukan apa yang Anda usulkan, Anda memberikan banyak skeptis argumen untuk digunakan terhadap kesimpulan yang Anda buat.
sumber
Algoritma RANSAC terdengar seperti apa yang Anda inginkan. Pada dasarnya, ini mengasumsikan data Anda terdiri dari campuran inliers dan outlier, dan mencoba mengidentifikasi inliers dengan berulang kali mengambil sampel himpunan bagian dari data, menyesuaikan model untuk itu, kemudian mencoba menyesuaikan setiap titik data lainnya dengan model. Inilah artikel wikipedia tentang itu .
Dalam kasus Anda, Anda bisa terus mengulangi algoritma sambil menyimpan model terbaik saat ini yang cocok dengan setidaknya 40 poin, sehingga itu tidak akan menjamin Anda korelasi terbaik mutlak, tetapi harus mendekati.
sumber
Saya mengalami kesulitan membayangkan konteks di mana ini akan menjadi praktik yang baik, tetapi mari kita asumsikan sejenak bahwa Anda memang memiliki alasan yang baik untuk melakukan ini.
Algoritma brute force bisa jadi seperti ini:
Anda menghitung semua kemungkinan sub-sampel n dari keseluruhan sampel N. Anda. Sebagian besar paket statistik memiliki fungsi untuk menghitung kombinasi tanpa penggantian yang akan melakukan ini untuk Anda.
Anda memperkirakan korelasi antara x dan y untuk masing-masing sub-sampel dan memilih maksimum dari set itu.
Saya baru saja melihat komentar poster asli mengenai referensi untuk prosedur ini. Saya tidak yakin bahwa seseorang memiliki nama spesifik untuk prosedur ini setelah semua Anda hanya menghasilkan distribusi empiris dari semua korelasi yang mungkin dalam dataset Anda dan memilih maksimum. Pendekatan serupa digunakan ketika melakukan bootstraping, tetapi jika Anda tertarik dengan variabilitas empiris, Anda TIDAK menggunakannya untuk memilih sub-sampel spesifik yang terkait dengan maks.
sumber