Saya memecahkan kubus Rubik sebagai hobi. Saya mencatat waktu yang diperlukan untuk menyelesaikan kubus menggunakan beberapa perangkat lunak, dan sekarang saya memiliki data dari ribuan solusinya. Data pada dasarnya adalah daftar panjang angka yang mewakili waktu setiap pemecahan sekuensial mengambil (mis. 22.11, 20.66, 21.00, 18.74, ...)
Waktu yang saya perlukan untuk menyelesaikan kubus secara alami bervariasi dari satu penyelesaian ke penyelesaian, sehingga ada solves yang baik dan solves buruk.
Saya ingin tahu apakah saya "menjadi panas" - apakah solusinya baik-baik saja. Misalnya, jika saya baru saja menyelesaikan beberapa pemecahan yang baik secara berurutan, apakah lebih mungkin bahwa pemecahan saya berikutnya akan baik?
Analisis seperti apa yang cocok? Saya dapat memikirkan beberapa hal spesifik yang harus dilakukan, misalnya memperlakukan solves sebagai proses Markov dan melihat seberapa baik seseorang memecahkan memprediksi berikutnya dan membandingkan dengan data acak, melihat berapa lama garis terpanjang dari sol berurutan di bawah median untuk yang terakhir 100 dan membandingkan dengan apa yang diharapkan dalam data acak, dll. Saya tidak yakin bagaimana wawasan tes ini, dan bertanya-tanya apakah ada beberapa pendekatan yang dikembangkan dengan baik untuk masalah seperti ini.
sumber
Beberapa pemikiran:
Alur distribusi waktu. Dugaan saya adalah bahwa mereka akan condong positif, sehingga beberapa waktu solusi sangat lambat. Dalam hal ini Anda mungkin ingin mempertimbangkan log atau transformasi lain dari waktu solusi.
Buat plot pencar percobaan pada sumbu x dan waktu solusi (atau waktu solusi log pada sumbu y). Ini akan memberi Anda pemahaman intuitif tentang data. Ini juga dapat mengungkapkan jenis tren lain selain "hot streak".
Pertimbangkan apakah ada efek belajar dari waktu ke waktu. Dengan sebagian besar teka-teki, Anda menjadi lebih cepat dengan latihan. Plot harus membantu mengungkapkan apakah ini masalahnya. Efek seperti ini berbeda dengan efek "hot streak". Ini akan menyebabkan korelasi antara uji coba karena ketika Anda pertama kali belajar, uji coba lambat akan terjadi bersama dengan uji coba lambat lainnya, dan saat Anda semakin berpengalaman, uji coba yang lebih cepat akan terjadi bersama dengan uji coba yang lebih cepat.
Pertimbangkan definisi konseptual Anda tentang "hot streaks". Misalnya, apakah itu hanya berlaku untuk uji coba yang terdekat dalam waktu atau tentang kedekatan pesanan. Katakanlah Anda memecahkan kubus dengan cepat pada hari Selasa, dan kemudian beristirahat dan pada hari Jumat berikutnya Anda memecahkannya dengan cepat. Apakah ini garis panas, atau apakah itu hanya berarti jika Anda melakukannya pada hari yang sama?
Apakah ada efek lain yang mungkin berbeda dari efek hot streak? Misalnya, waktu Anda memecahkan teka-teki (misalnya, kelelahan), sejauh mana Anda benar-benar berusaha keras? dll.
Setelah efek sistematis alternatif telah dipahami, Anda dapat mengembangkan model yang memasukkan sebanyak mungkin dari mereka. Anda dapat memplot residual pada sumbu y dan mencoba pada sumbu x. Kemudian Anda bisa melihat apakah ada korelasi otomatis dalam residual dalam model. Korelasi otomatis ini akan memberikan beberapa bukti hot streaks. Namun, interpretasi alternatif adalah bahwa ada beberapa efek sistematis lain yang belum Anda kecualikan.
sumber
Hitung korelasiogram untuk proses Anda. Jika proses Anda adalah gaussian (berdasarkan sampel Anda), Anda dapat menetapkan batas bawah / atas (B) dan memeriksa apakah korelasi pada lag yang diberikan signifikan. Autokorelasi positif pada lag 1 akan menunjukkan adanya "coretan keberuntungan".
sumber