Saya mengajukan pertanyaan ini di situs stackexchange matematik dan direkomendasikan untuk bertanya di sini.
Saya sedang mengerjakan proyek hobi dan butuh bantuan dengan masalah berikut.
Sedikit konteks
Katakanlah ada koleksi item dengan deskripsi fitur dan harga. Bayangkan daftar mobil dan harga. Semua mobil memiliki daftar fitur, misalnya ukuran mesin, warna, tenaga kuda, model, tahun dll. Untuk setiap make, kira-kira seperti ini:
Ford:
V8, green, manual, 200hp, 2007, $200
V6, red, automatic, 140hp, 2010, $300
V6, blue, manual, 140hp, 2005, $100
...
Lebih jauh lagi, daftar mobil dengan harga diterbitkan dengan beberapa interval waktu yang berarti kita memiliki akses ke data harga historis. Mungkin tidak selalu termasuk mobil yang persis sama.
Masalah
Saya ingin memahami bagaimana memodelkan harga untuk setiap mobil berdasarkan informasi dasar ini, yang paling penting mobil tidak ada dalam daftar awal.
Ford, v6, red, automatic, 130hp, 2009
Untuk mobil di atas, hampir sama dengan yang ada di daftar, hanya sedikit berbeda dalam tenaga kuda dan tahun. Untuk harga ini, apa yang dibutuhkan?
Apa yang saya cari adalah sesuatu yang praktis dan sederhana, tetapi saya juga ingin mendengar tentang pendekatan yang lebih kompleks bagaimana membuat model seperti ini.
Apa yang saya coba
Inilah yang telah saya coba sejauh ini:
1) menggunakan data historis untuk mencari mobil X. Jika tidak ditemukan, tidak ada harga. Ini tentu saja sangat terbatas dan seseorang hanya dapat menggunakan ini dalam kombinasi dengan beberapa pembusukan waktu untuk mengubah harga mobil yang dikenal dari waktu ke waktu.
2) menggunakan skema pembobotan fitur mobil bersama-sama dengan mobil sampel yang diberi harga. Pada dasarnya ada harga dasar dan fitur hanya mengubah itu dengan beberapa faktor. Berdasarkan ini harga mobil apa pun diturunkan.
Yang pertama terbukti tidak cukup dan yang kedua terbukti tidak selalu benar dan saya mungkin tidak memiliki pendekatan terbaik untuk menggunakan bobot. Ini juga tampaknya agak berat untuk mempertahankan bobot, jadi itu sebabnya saya pikir mungkin ada beberapa cara untuk menggunakan data historis sebagai statistik dalam beberapa cara untuk mendapatkan bobot atau untuk mendapatkan sesuatu yang lain. Aku hanya tidak tahu harus mulai dari mana.
Aspek penting lainnya
- mengintegrasikan ke dalam beberapa proyek perangkat lunak yang saya miliki. Baik dengan menggunakan perpustakaan yang ada atau menulis algoritma sendiri.
- perhitungan ulang cepat ketika data historis baru masuk
Adakah saran bagaimana masalah seperti ini bisa didekati? Semua ide lebih dari diterima.
Terima kasih banyak sebelumnya dan berharap untuk membaca saran Anda!
sumber
Saya setuju dengan @whuber, bahwa regresi linier adalah cara untuk pergi, tetapi kehati-hatian harus diambil ketika menafsirkan hasil. Masalahnya adalah bahwa dalam ekonomi harga selalu terkait dengan permintaan. Jika permintaan naik, harga naik, jika permintaan turun, harga turun. Jadi harga ditentukan oleh permintaan dan sebaliknya permintaan ditentukan oleh harga. Jadi jika kita memodelkan harga sebagai regresi dari beberapa atribut tanpa permintaan ada bahaya nyata bahwa estimasi regresi akan salah karena bias variabel dihilangkan .
sumber
Setelah semacam diskusi, di sini adalah pandangan lengkap saya tentang hal-hal itu
Masalah
Tujuan: untuk memahami cara memberi harga mobil dengan cara yang lebih baik
Konteks: dalam proses pengambilan keputusan mereka, orang memecahkan beberapa pertanyaan: apakah saya memerlukan mobil, jika saya melakukannya, atribut apa yang paling saya sukai (termasuk harga, karena, karena rasional, saya ingin memiliki mobil dengan rasio kualitas / harga terbaik) , bandingkan jumlah atribut antara mobil yang berbeda dan pilih nilai mereka secara bersama .
Dari posisi penjual, saya ingin menetapkan harga setinggi mungkin, dan menjual mobil secepat mungkin. Jadi jika saya menetapkan harga terlalu tinggi dan saya menunggu berbulan-bulan itu dapat dianggap tidak diminta di pasar dan ditandai dengan 0 dibandingkan dengan set atribut yang sangat dituntut.
Pengamatan: transaksi nyata yang menghubungkan atribut mobil tertentu dengan harga yang ditetapkan dalam proses tawar-menawar (mengenai komentar sebelumnya, penting untuk mengetahui berapa lama waktu yang dibutuhkan untuk mengatur kesepakatan).
Pro: Anda mengamati hal-hal yang sebenarnya dibeli di pasar, jadi Anda tidak menebak apakah ada orang dengan harga pemesanan cukup tinggi yang ingin membeli mobil tertentu
Cons:
Metode solusi
Yang pertama, seperti yang disarankan oleh whuber, adalah model regresi kuadrat terkecil klasik
Pro:
Cons:
Dalam kasus regresi klasik, karena Anda tidak dibatasi dalam derajat kebebasan, untuk mencoba juga istilah interaksi yang berbeda.
Oleh karena itu solusi yang lebih rumit akan berupa model tobit atau Heckman , Anda mungkin ingin berkonsultasi dengan AC Cameron dan PK Trivedi Microeconometrics: metode dan aplikasi untuk detail lebih lanjut tentang metode inti.
Pro:
Cons:
Dan, akhirnya, jika Anda hanya tertarik pada bagaimana harga mempengaruhi probabilitas untuk dibeli, Anda dapat bekerja dengan beberapa jenis model logit .
Kami sepakat, bahwa analisis konjoin tidak cocok di sini, karena Anda memiliki konteks dan pengamatan yang berbeda.
Semoga berhasil.
sumber
Sepertinya masalah regresi linear saya juga, tapi bagaimana dengan K tetangga terdekat KNN . Anda dapat menemukan formula jarak antara setiap mobil dan menghitung harga sebagai rata-rata antara K (katakanlah 3) terdekat. Formula jarak dapat berdasarkan euclidian seperti perbedaan dalam silinder plus perbedaan di pintu, ditambah perbedaan tenaga kuda dan sebagainya.
Jika Anda menggunakan regresi linier, saya akan menyarankan beberapa hal:
Gagasan lain adalah membuat hibrida antar model. Gunakan regresi dan KNN sebagai titik data dan buat harga akhir sebagai rata-rata tertimbang atau sesuatu.
sumber
Selain apa yang telah dikatakan, dan tidak jauh berbeda dari beberapa saran yang telah dibuat, Anda mungkin ingin melihat literatur yang luas tentang model penetapan harga hedonis . Apa yang menjadi intinya adalah model regresi yang mencoba menjelaskan harga barang komposit sebagai fungsi dari atributnya.
Ini akan memungkinkan Anda memberi harga pada mobil yang mengetahui atributnya (tenaga kuda, ukuran, merek, dll.), Bahkan jika campuran atribut yang persis sama tidak ada dalam sampel Anda. Ini adalah pendekatan yang sangat populer untuk menilai aset yang pada dasarnya tidak dapat direplikasi - seperti properti negara nyata. Jika Anda Google untuk "model hedonis" Anda akan menemukan banyak referensi dan contoh.
sumber