uji statistik untuk melihat apakah hubungan itu linier atau non-linear

9

Saya punya contoh data yang diatur sebagai berikut:

Volume <- seq(1,20,0.1)
var1 <- 100 
x2 <- 1000000
x3 <- 30

x4 = sqrt(x2/pi)
H = x3 - Volume
r = (x4*H)/(H + Volume)

Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r))

Power <- jitter(Power, factor = 1, amount = 0.1)
plot(Volume,Power)

masukkan deskripsi gambar di sini

Dari gambar tersebut, dapat disarankan bahwa antara rentang tertentu 'Volume' dan 'Daya' hubungan itu linier, maka ketika 'Volume' menjadi relatif kecil hubungan menjadi non-linear. Apakah ada tes statistik untuk menggambarkan ini?

Berkenaan dengan beberapa rekomendasi yang ditunjukkan dalam tanggapan terhadap OP:

Contoh yang ditampilkan di sini hanyalah sebuah contoh, dataset saya terlihat mirip dengan hubungan yang terlihat di sini meskipun lebih ribut. Analisis yang telah saya lakukan sejauh ini menunjukkan bahwa ketika saya menganalisis volume cairan tertentu, kekuatan sinyal meningkat secara drastis ketika ada volume rendah. Jadi, katakanlah saya hanya memiliki lingkungan di mana volumenya antara 15 dan 20, itu hampir akan terlihat seperti hubungan linear. Namun, dengan meningkatkan rentang poin yaitu memiliki volume yang lebih kecil, kita melihat bahwa hubungannya tidak linier sama sekali. Saya sekarang mencari beberapa saran statistik tentang cara menunjukkan ini secara statistik. Semoga ini masuk akal.

KatyB
sumber
5
Ada beberapa hal yang terjadi di sini. Pertama, tentu saja hubungan akan terlihat linier asalkan rentang variabel dibatasi secara tepat. Kedua, heteroskedastisitas data merupakan fitur yang hampir sama menonjolnya dengan hubungan nonlinear: sebaran lebih besar pada volume tinggi dan kekuatan rendah daripada pada volume rendah dan kekuatan tinggi. Terlepas dari itu, apa tepatnya yang ingin Anda uji? Linearitas hubungan di seluruh rentang?
whuber
4
Sebenarnya, saya ingin menarik kembali komentar tentang heteroskedastisitas: plot memberikan tampilan seperti itu, tetapi itu ilusi yang disebabkan oleh lereng yang relatif curam pada volume yang lebih rendah. (Volume dalam hal kekuasaan, bagaimanapun, memiliki hubungan yang sangat heteroskedastik.) Setelah kami menentukan bahwa variasi dalam kekuasaan tidak heteroskedastik, ini mengesampingkan beberapa jenis analisis (kami tidak ingin menerapkan transformasi kekuasaan nonlinier) dan menyarankan mendukung orang lain (seperti kuadrat terkecil nonlinier atau model linier umum), setelah nonlinier itu jelas didirikan.
whuber
Saya sekarang telah menambahkan deskripsi singkat tentang masalah yang dihadapi. Terima kasih atas komentar Anda sejauh ini, ini benar-benar dihargai dan membantu saya memikirkan masalahnya.
KatyB
Mengapa tidak menguji efek kuadratik?
AdamO
2
@Simon Saya tidak menggunakan tes apa pun, tetapi Anda dapat melihat bahwa ini adalah homoscedastic dengan memplot ukuran residual yang khas terhadap Volume. Berikut beberapa Rkode: plot(s <- by(cbind(Power, Volume), groups <- cut(Volume, 10), function(d) summary(lm(Power ~ Volume, data=d))$sigma), xlab="Volume range", ylab="Residual SD", ylim=c(0, max(s))); abline(h=mean(s), lty=2, col="Blue"). Ini menunjukkan ukuran residu hampir konstan di seluruh rentang.
whuber

Jawaban:

4

Ini pada dasarnya masalah pemilihan model. Saya mendorong Anda untuk memilih satu set model yang masuk akal secara fisik (linier, eksponensial, mungkin hubungan linear terputus) dan menggunakan Akaike Information Criterion atau Bayesian Information Criterion untuk memilih yang terbaik - dengan mengingat masalah heteroskedastisitas yang ditunjukkan oleh @whuber.

Drew Steen
sumber
2

Sudahkah Anda mencoba googling ini !? Salah satu cara untuk melakukan ini adalah menyesuaikan daya yang lebih tinggi atau istilah non-linear lainnya dengan model Anda dan menguji apakah koefisiennya berbeda secara signifikan dari 0.

Ada beberapa contoh di sini http://www.albany.edu/~po467/EPI553/Fall_2006/regress_assumptions.pdf

Dalam kasus Anda, Anda mungkin ingin membagi set data Anda menjadi dua bagian untuk menguji non-linearitas untuk volume <5 dan linearitas untuk volume> 5.

Masalah lain yang Anda miliki adalah bahwa data Anda heteroskedastik, yang melanggar asumsi normalitas untuk data regresi. Tautan yang diberikan juga memberikan contoh pengujian untuk ini.

Simon Hayward
sumber
Tautan rusak.
Jatin
2

Saya sarankan menggunakan regresi nonlinear agar sesuai dengan satu model untuk semua data Anda. Apa gunanya memilih volume yang sewenang-wenang dan menyesuaikan satu model dengan volume kurang dari itu dan model lain untuk volume yang lebih besar? Apakah ada alasan, di luar tampilan gambar, untuk menggunakan 5 sebagai ambang batas yang tajam? Apakah Anda benar-benar percaya bahwa setelah ambang volume tertentu, kurva ideal adalah linier? Bukankah itu lebih mungkin mendekati horisontal dengan meningkatnya volume, tetapi tidak pernah cukup linier?

Tentu saja, pemilihan alat analisis harus bergantung pada pertanyaan ilmiah apa yang Anda coba jawab dan pengetahuan Anda sebelumnya tentang sistem.

Harvey Motulsky
sumber