Regresi data yang mencakup tanggal

8

Saya memiliki dataset yang berisi beberapa ratus transaksi dari tiga pemasok yang beroperasi di 100+ negara selama periode tiga tahun.

Kami telah menemukan bahwa negara penjualan bukan merupakan faktor penting dalam harga yang dicapai (produknya adalah komoditas global yang kurang lebih). Semua harga telah menurun secara signifikan dari waktu ke waktu. Setiap hari dapat memiliki beberapa transaksi dengan harga yang berbeda dari pemasok yang sama (yaitu di berbagai negara).

Saya ingin menguji apakah ada perbedaan yang signifikan secara statistik dalam harga yang dibebankan oleh pemasok yang berbeda.

Data terlihat seperti ini:

    Country X  1/1/2010  $200 Supplier A
    Country Y  1/1/2010  $209 Supplier A
    Country Z  1/1/2010  $187 Supplier A
    Country A  1/1/2010  $200 Supplier B
    Country X  1/2/2010  $188 Supplier B

Ada ide tentang bagaimana melakukan ini? .....

Tom
sumber
3
Analisis data longitudinal adalah bidang yang luas. Untuk memberikan jawaban yang baik untuk pertanyaan ini, diperlukan lebih banyak info tentang efek yang Anda harapkan dari waktu. Tanpa ini, tidak jelas apakah jawaban yang Anda terima baik atau tidak (inilah sebabnya mengapa baik untuk memperjelas pertanyaan sebelumnya, bukan setelah, Anda menjawab ...) . Saya tahu Anda mengatakan harga menurun seiring waktu tetapi, apakah ada yang lebih dari itu? Misalnya, apakah pengukuran berulang di negara yang sama diharapkan berkorelasi? Jika demikian, tak satu pun dari jawaban yang ada akan melakukan apa yang Anda butuhkan.
Makro
1
Poin bagus! @ Macro Saya akan mengharapkan beberapa korelasi antara beberapa titik data dalam negara yang sama (harga bisa sedikit lengket). Juga, saya menjalankan tes durban-watson dan menemukan bahwa residu tersebut berkorelasi otomatis. Sepertinya yang ini mungkin berada di luar jangkauanku. Mungkin ada waktu untuk memanggil ahli statistik sejati.
Tom
2
jika Anda berada di R, ada fungsi untuk berurusan dengan tanggal, dan saya tidak akan terkejut jika R mampu menangani data seperti ini dengan cukup elegan tanpa Anda harus menetapkan lebih banyak daripada yang biasa Anda lakukan. Lihat ini
bdeonovic
Anda pasti perlu memperhitungkan korelasi-otomatis dan bergabung. Tampaknya analisis deret waktu sedang dilakukan. +1 untuk mengetahui perlunya membawa "seorang ahli statistik sejati." Ada banyak ahli statistik terkemuka yang tersedia melalui situs web American Statistics Association dan banyak yang dapat ditemukan di universitas setempat.
StatsStudent

Jawaban:

2

Sepertinya Anda perlu menggunakan metode deret waktu, seperti ARMA atau ARIMA, yang memungkinkan Anda menghitung regresi menggunakan waktu sebagai variabel independen tanpa melanggar asumsi pengamatan independen dari OLS.

Anda mungkin ingin mencoba analisis dua langkah: - penggunaan pertama kali sebagai variabel prediktor tunggal dan menggunakan metode deret waktu yang sesuai - dua melihat apakah ada perbedaan yang berarti dalam residu antara kedua pemasok. (Uji-t sederhana mungkin cukup.)

Ezra Boyd
sumber
0

Ada beberapa cara. Sebuah opsi adalah untuk mengubah tanggal menjadi beberapa hari setelah hari pertama. Anda juga dapat memiliki variabel tambahan hari dalam seminggu (tren sepanjang minggu) dan bulan (untuk melihat tren pada waktu tertentu dalam setahun). Dengan melakukannya, Anda dapat menggunakan regresi berganda.

Untuk mendapatkan variabel "# hari setelah hari pertama", saya percaya (baik excel dan R) Anda cukup mengurangi data sebelumnya dari tanggal terakhir dan mendapatkan perbedaan hari. Jadi mungkin coba kurangi 1/1/2010 dari semua kencan Anda. Anda juga harus memberi tahu R bahwa nilai baru numerik menggunakan as.numeric ()

EDIT: R sepertinya membaca di tahun pertama, jadi Anda mungkin harus sedikit mengacaukan tanggal. lihat ini: /programming/2254986/how-to-subtract-days-in-r

Analisis deret waktu adalah pendekatan lain, tetapi saya tidak terlalu terbiasa dengannya.

Hotaka
sumber
0

Saya dapat menyarankan Anda untuk menggunakan fungsi non-linear untuk variabel waktu karena harga jatuh lebih rendah dengan setiap unit waktu tambahan. Kalau tidak, harga akhirnya akan jatuh di bawah nol. Selain itu, mungkin ada periode ketika tren berubah. Jadi saya merekomendasikan untuk menggunakan splines kubik untuk variabel waktu.

Pengalaman membisikkan kepada saya bahwa saya akan memeriksa model berikut:
Y = country_parameter * price (t) * e

di mana harga (t) adalah fungsi, lebih disukai spline kubik, tetapi mungkin juga apa saja, bahkan tren linier. Perhatikan bahwa ada tanda-tanda multiplikasi, bukan penjumlahan, dalam model.

Przemyslaw Remin
sumber
-1

Pilih tanggal referensi, katakanlah 1/1/2010, dan buat variabel baru timeyang merupakan perbedaan antara tanggal dan tanggal referensi, di mana perbedaannya dihitung dalam, katakanlah, hari.

Sekarang jalankan regresi linier (atau yang serupa) dengan timedan suppliersebagai dua variabel prediktor dan pricesebagai variabel respons.

Ini hanyalah titik awal.

zkurtz
sumber
4
Hai saya melakukan ini, tetapi apakah itu melanggar salah satu asumsi regresi? yaitu poin pengamatan independen? plot sisa terlihat oke.
Tom
2
Poin yang bagus. Selalu baik untuk curiga terhadap hasil regresi linier, karena asumsi tidak pernah dipenuhi 100%. Secara khusus, kesalahan standar dapat sangat dikecilkan jika residu berkorelasi, seperti yang Anda sarankan. Untuk memeriksa independensi, pilihannya adalah menggunakan Durban Watson Test, seperti ini: tc.umn.edu/~ryoox001/images/DurbinWatson_test.pdf
zkurtz
Poin bagus! Saya berharap ada korelasi antara beberapa titik data dalam negara yang sama (harga bisa sedikit lengket). Juga, saya menjalankan tes durban-watson dan menemukan bahwa residu tersebut berkorelasi otomatis. Sepertinya yang ini mungkin berada di luar jangkauanku. @ zkurtz Mungkin saatnya untuk memanggil ahli statistik sejati.
Tom
1
Ini adalah kesalahpahaman bahwa pengamatan regresi harus tepat. Kesalahan hanya perlu tidak berkorelasi dan dengan varian konstan. Jika ada, menambahkan efek tetap untuk waktu dapat membantu memastikan bahwa kondisi ini terpenuhi. Satu-satunya hal yang bisa salah di sini adalah overfitting dan / atau kehilangan presisi karena memiliki terlalu banyak parameter untuk data. Mungkin perlu menunjukkan bahwa persamaan untuk pemasangan model stationary (V) ARMA berkurang menjadi OLS.
shadowtalker
Untuk menangani korelasi serial, Anda mungkin ingin menggunakan pendekatan analisis deret waktu atau minimal model GEE atau efek campuran yang mampu menangani sifat berkorelasi dari data Anda.
StatsStudent