Saya sedang mengerjakan suatu proyek dan saya mengalami kesulitan dalam menentukan algoritma mana yang dipilih regression
. Saya ingin tahu dalam kondisi apa seseorang harus memilih linear regression
atau Decision Tree regression
atau Random Forest regression
? Apakah ada karakteristik spesifik dari data yang akan membuat keputusan untuk menuju algoritma spesifik di antara pohon yang disebutkan di atas? Apa karakteristik yang harus saya perhatikan dalam dataset saya untuk membuat keputusan? Dan apakah ada beberapa alasan yang akan membuat seseorang memilih algoritma decision tree
atau random forest
bahkan jika kebenaran yang sama dapat dicapai linear regression
?
machine-learning
algorithms
random-forest
linear-regression
decision-trees
machine-learning
predictive-modeling
forecast
r
clustering
similarity
data-mining
dataset
statistics
text-mining
text-mining
data-cleaning
data-wrangling
machine-learning
classification
algorithms
xgboost
data-mining
dataset
dataset
regression
graphs
svm
unbalanced-classes
cross-validation
optimization
hyperparameter
genetic-algorithms
visualization
predictive-modeling
correlation
machine-learning
predictive-modeling
apache-spark
statistics
normalization
apache-spark
map-reduce
r
correlation
confusion-matrix
r
data-cleaning
classification
terminology
dataset
image-classification
machine-learning
regression
apache-spark
machine-learning
data-mining
nlp
parsing
machine-learning
dimensionality-reduction
visualization
clustering
multiclass-classification
evaluation
unsupervised-learning
machine-learning
machine-learning
data-mining
supervised-learning
unsupervised-learning
machine-learning
data-mining
classification
statistics
predictive-modeling
data-mining
clustering
python
pandas
machine-learning
dataset
data-cleaning
data
bigdata
software-recommendation
Jason Donnald
sumber
sumber
Jawaban:
Biarkan saya menjelaskannya menggunakan beberapa contoh untuk intuisi yang jelas:
Regresi linier adalah model linier, yang berarti itu bekerja dengan sangat baik ketika data memiliki bentuk linier. Tetapi, ketika data memiliki bentuk non-linear, maka model linier tidak dapat menangkap fitur non-linear.
Jadi dalam hal ini, Anda dapat menggunakan pohon keputusan, yang melakukan pekerjaan yang lebih baik dalam menangkap non-linearitas dalam data dengan membagi ruang menjadi sub-ruang yang lebih kecil tergantung pada pertanyaan yang diajukan.
Saya kira jawaban Quora di sini akan melakukan pekerjaan yang lebih baik daripada saya, untuk menjelaskan perbedaan antara mereka dan aplikasi mereka. Izinkan saya mengutipnya untuk Anda:
sumber
when the data has a non-linear shape, then a linear model cannot capture the non-linear features
Ini adalah kesalahpahaman umum. Pertama-tama, regresi linier sederhana dapat memodelkan bahkan seri statik harmonik.stackexchange.com/questions/60500/… . Kedua, interaksi fitur dapat diperkenalkan dan, tentu saja, ada model linier umum di mana fungsi non-linear pada istilah linear diperkenalkan (misalnya, regresi logistik).Sejauh yang saya tahu, tidak ada aturan untuk mengatakan algoritma mana yang berfungsi untuk dataset mana. Pastikan dataset dan variabel yang Anda minati memenuhi pra-asumsi menjalankan setiap algoritma dan mencobanya. Sebagai contoh, regresi linier memiliki beberapa pra-asumsi seperti normalitas resudual, homoscedastisitas (variabilitas dalam variabel respon sama pada semua level variabel penjelas) dan seterusnya. Periksa ini untuk variabel Anda dan cobalah algoritma.
Anda dapat menggunakan titik dan klik perangkat lunak untuk melihat hasilnya tanpa terlibat dalam pengaturan kode dan parameter. Jika Anda adalah pengguna R, paket rattle akan menjadi alat yang sangat berguna pada tahap ini. Anda melakukan pekerjaan Anda dalam mode titik dan klik dan Anda memiliki akses ke kode di belakangnya.
sumber