Saya memiliki dataset yang berisi beberapa ratus transaksi dari tiga pemasok yang beroperasi di 100+ negara selama periode tiga tahun.
Kami telah menemukan bahwa negara penjualan bukan merupakan faktor penting dalam harga yang dicapai (produknya adalah komoditas global yang kurang lebih). Semua harga telah menurun secara signifikan dari waktu ke waktu. Setiap hari dapat memiliki beberapa transaksi dengan harga yang berbeda dari pemasok yang sama (yaitu di berbagai negara).
Saya ingin menguji apakah ada perbedaan yang signifikan secara statistik dalam harga yang dibebankan oleh pemasok yang berbeda.
Data terlihat seperti ini:
Country X 1/1/2010 $200 Supplier A
Country Y 1/1/2010 $209 Supplier A
Country Z 1/1/2010 $187 Supplier A
Country A 1/1/2010 $200 Supplier B
Country X 1/2/2010 $188 Supplier B
Ada ide tentang bagaimana melakukan ini? .....
Jawaban:
Sepertinya Anda perlu menggunakan metode deret waktu, seperti ARMA atau ARIMA, yang memungkinkan Anda menghitung regresi menggunakan waktu sebagai variabel independen tanpa melanggar asumsi pengamatan independen dari OLS.
Anda mungkin ingin mencoba analisis dua langkah: - penggunaan pertama kali sebagai variabel prediktor tunggal dan menggunakan metode deret waktu yang sesuai - dua melihat apakah ada perbedaan yang berarti dalam residu antara kedua pemasok. (Uji-t sederhana mungkin cukup.)
sumber
Ada beberapa cara. Sebuah opsi adalah untuk mengubah tanggal menjadi beberapa hari setelah hari pertama. Anda juga dapat memiliki variabel tambahan hari dalam seminggu (tren sepanjang minggu) dan bulan (untuk melihat tren pada waktu tertentu dalam setahun). Dengan melakukannya, Anda dapat menggunakan regresi berganda.
Untuk mendapatkan variabel "# hari setelah hari pertama", saya percaya (baik excel dan R) Anda cukup mengurangi data sebelumnya dari tanggal terakhir dan mendapatkan perbedaan hari. Jadi mungkin coba kurangi 1/1/2010 dari semua kencan Anda. Anda juga harus memberi tahu R bahwa nilai baru numerik menggunakan as.numeric ()
EDIT: R sepertinya membaca di tahun pertama, jadi Anda mungkin harus sedikit mengacaukan tanggal. lihat ini: /programming/2254986/how-to-subtract-days-in-r
Analisis deret waktu adalah pendekatan lain, tetapi saya tidak terlalu terbiasa dengannya.
sumber
Saya dapat menyarankan Anda untuk menggunakan fungsi non-linear untuk variabel waktu karena harga jatuh lebih rendah dengan setiap unit waktu tambahan. Kalau tidak, harga akhirnya akan jatuh di bawah nol. Selain itu, mungkin ada periode ketika tren berubah. Jadi saya merekomendasikan untuk menggunakan splines kubik untuk variabel waktu.
Pengalaman membisikkan kepada saya bahwa saya akan memeriksa model berikut:
Y = country_parameter * price (t) * e
di mana harga (t) adalah fungsi, lebih disukai spline kubik, tetapi mungkin juga apa saja, bahkan tren linier. Perhatikan bahwa ada tanda-tanda multiplikasi, bukan penjumlahan, dalam model.
sumber
Pilih tanggal referensi, katakanlah 1/1/2010, dan buat variabel baru
time
yang merupakan perbedaan antara tanggal dan tanggal referensi, di mana perbedaannya dihitung dalam, katakanlah, hari.Sekarang jalankan regresi linier (atau yang serupa) dengan
time
dansupplier
sebagai dua variabel prediktor danprice
sebagai variabel respons.Ini hanyalah titik awal.
sumber