Saya ingin menyelidiki perilaku pengaturan harga maskapai penerbangan - khususnya bagaimana maskapai penerbangan bereaksi terhadap harga pesaing.
Seperti yang akan saya katakan pengetahuan saya tentang analisis yang lebih kompleks cukup terbatas, saya telah melakukan sebagian besar semua metode dasar untuk mengumpulkan pandangan keseluruhan data. Ini termasuk grafik sederhana yang sudah membantu mengidentifikasi pola yang sama. Saya juga menggunakan SAS Enterprise 9.4.
Namun saya mencari pendekatan yang lebih berbasis angka.
Himpunan data
Kumpulan data (mandiri) yang saya gunakan mengandung sekitar ~ 54.000 tarif. Semua tarif dikumpulkan dalam waktu 60 hari, setiap hari (setiap malam pukul 00:00).
Oleh karena itu, setiap ongkos dalam rentang waktu itu terjadi kali tergantung pada ketersediaan ongkos serta tanggal keberangkatan penerbangan, ketika dilewati oleh tanggal pengumpulan tarif. (Anda tidak dapat mengumpulkan ongkos untuk penerbangan ketika tanggal keberangkatan penerbangan di masa lalu)
Tidak diformat yang pada dasarnya terlihat seperti ini: (data palsu)
+--------------------+-----------+--------------------+--------------------------+---------------+
| requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 915.32 | 16APR2015:13:20:02 | 23APR2015:21:55:04 | XH |
+--------------------+-----------+--------------------+--------------------------+---------------+
"DaysBeforeDeparture" dihitung melalui mana
- I & interval (hari sebelum keberangkatan)
- s & tanggal ongkos (keberangkatan penerbangan)
- c & tanggal dimana tarif dikumpulkan
Berikut adalah contoh kumpulan data yang dikelompokkan oleh I (DaysBeforeDep.) (Data palsu!):
+-----------------+------------------+------------------+------------------+------------------+
| DaysBefDeparture | AVG_of_sale | MIN_of_sale | MAX_of_sale | operatingCarrier |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 880.68 | 477.99 | 2,245.23 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 904.89 | 477.99 | 2,534.55 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 1,044.39 | 920.99 | 2,119.09 | LH |
+-----------------+------------------+------------------+------------------+------------------+
Apa yang saya dapatkan sejauh ini
Melihat grafik garis saya sudah dapat memperkirakan bahwa beberapa baris akan memiliki faktor korelasi yang tinggi. Oleh karena itu, saya mencoba menggunakan analisis korelasi terlebih dahulu pada data yang dikelompokkan. Tetapi apakah itu cara yang benar? Pada dasarnya saya mencoba sekarang untuk membuat korelasi pada rata-rata daripada harga individual? Apakah ada cara lain?
Saya tidak yakin model regresi mana yang cocok di sini, karena harga tidak bergerak dalam bentuk linear apa pun dan tampak non-linear. Apakah saya perlu menyesuaikan model untuk setiap perkembangan harga sebuah maskapai
PS: Ini dinding teks yang panjang. Jika saya perlu mengklarifikasi sesuatu, beri tahu saya. Saya baru ke sub ini.
Adakah yang tahu? :-)
Selain analisis data eksplorasi (EDA), baik deskriptif maupun visual, saya akan mencoba menggunakan analisis deret waktu sebagai analisis yang lebih komprehensif dan canggih . Secara khusus, saya akan melakukan analisis regresi deret waktu . Analisis deret waktu adalah ranah penelitian dan praktik besar, jadi, jika Anda tidak terbiasa dengan dasar-dasarnya, saya sarankan mulai dengan artikel Wikipedia yang terhubung di atas, secara bertahap mencari topik yang lebih spesifik dan membaca artikel, makalah, dan buku yang sesuai.
Karena analisis deret waktu merupakan pendekatan yang sangat populer , analisis ini didukung oleh sebagian besar ilmu data komersial open source dan tertutup dan lingkungan statistik (perangkat lunak) , seperti R , Python , SAS , SPSS , dan banyak lainnya. Jika Anda ingin menggunakan R untuk ini, periksa jawaban saya pada analisis deret waktu umum dan pada klasifikasi deret waktu dan pengelompokan . Saya harap ini membantu.
sumber
ColumnUA(LH) 0.90435 <.0001 ColumnSQ 0.32544 <.0001 ColumnAF(DL) 0.55336 <.0001
Saya berasumsi hasil tersebut menunjukkan pola harga yang serupa. Dengan analisis regresi, apa yang akan saya temukan?