Saya memiliki dataset yang dikumpulkan secara empiris yang menghubungkan dua variabel. Pada rentang yang kecil hubungan tampak linier, namun pada rentang yang lebih besar jelas ada beberapa hubungan polinomial urutan kedua seperti yang dapat dilihat pada gambar di http://imgur.com/W7f9p .
Saya mencoba untuk mendapatkan ukuran linearitas untuk rentang yang berbeda dipertimbangkan. Misalkan pada 20 <x <60 atau 100 <x <120 itu sangat linier, tetapi pada 20 <x <180 itu tidak terlalu linier. Saya telah mencoba untuk mencocokkan garis lurus ke data dan menghitung data R ^ 2 (goodness of fit) tetapi ini menunjukkan bahwa garis lurus pada rentang yang lebih besar memiliki kesesuaian yang lebih baik daripada pada rentang yang lebih kecil. Meskipun ini mungkin benar dengan MS Excel, dari gambar itu jelas bahwa rentang yang lebih besar kurang linier ... jika Anda memegang sisi selembar kertas terhadap titik.
Apakah ada cara yang lebih baik untuk mengukur "linearitas" suatu dataset?
sumber
Jawaban:
Cocokkan kuadrat bukan fungsi linier. Nilai absolut dari estimasi koefisien tertinggi kuadrat berfungsi sebagai ukuran linearitas yang masuk akal, yaitu nol jika data terletak tepat di atas garis. Selain itu, jika data berasal dari model linier dengan noise Gaussian, teorema Gauss-Markov menjamin bahwa estimasi koefisien tidak bias, maka di bawah pengulangan kecocokan dengan beberapa data dari distribusi model yang sama, nilai yang diharapkan dari koefisien akan menjadi nol.
Tentu saja dalam satu kecocokan, satu biasanya tidak mendapatkan nol, jadi seseorang harus menggunakan beberapa tes untuk signifikansi koefisien.
sumber
Salah satu cara untuk menjalankannya adalah menjalankan regresi hierarkis dengan variabel sumbu Y Anda sebagai hasil / kriteria. Pada langkah / blok 1 Anda akan memasukkan variabel X Anda sebagai prediktor, dan pada langkah / blok 2, masukkan istilah produk (X kuadrat atau dikalikan dengan dirinya sendiri). Istilah X kuadrat mewakili komponen kuadratik Anda. Bobot regresi standar (betas) untuk X dan X kuadrat akan memberi Anda rasa "kekuatan" dari komponen linear dan kuadrat relatif satu sama lain, dan perubahan R-kuadrat dari langkah / blok 1 ke langkah / blok 2 merupakan indikasi seberapa baik model tersebut cocok dengan data ketika Anda telah menambahkan komponen kuadratik.
Lihat Bab. 8 dalam Keith, TZ (2005). Regresi berganda dan seterusnya. Allyn & Bacon. 978-0205326440
sumber
Ukuran linearitas terbaik antara dua variabel x dan y adalah koefisien korelasi momen produk Pearson. Semakin dekat ke 1 dalam nilai absolut, semakin dekat fit ke garis lurus yang sempurna. Sekarang jika Anda berpikir ada linearitas yang baik di subkawasan, hitung korelasinya hanya untuk pasangan di subkawasan tersebut. Jika ada perubahan bentuk di luar wilayah itu harus muncul dalam penurunan korelasi ketika semua data dimasukkan.
sumber
Alat statistik standar adalah koefisien korelasi (lihat jawaban Michael Chernick) yang merupakan nilai antara [-1,1] dan unit independen. Terkait dengan koefisien korelasi adalah kovarians. Kovarians dipengaruhi oleh unit tetapi mungkin lebih mudah untuk ditafsirkan. Namun, saya tidak suka salah satu opsi tersebut dalam kasus umum. Saya tidak suka mereka karena mereka tidak transformasi konformal independen. Pertimbangkan bahwa garis horizontal atau vertikal lurus dianggap tidak linier oleh kedua langkah tersebut.
Pilihan unitless yang lebih baik adalah menggunakan dekomposisi nilai singular (SVD). SVD memecah data menjadi bagian-bagian komponen yang diberi peringkat berdasarkan besarnya kontribusinya terhadap keseluruhan. Rasio bilangan singular terbesar dengan bilangan singular terbesar kedua karenanya merupakan metrik linearitas. Perhatikan, bahwa untuk menggunakan metode ini, Anda harus memusatkan data terlebih dahulu (membuat rata-rata koordinat X, Y, Z, dll sama dengan nol).
Contoh: Poin: 1126640.141 233575.2013; 1126630.008 233572.8567; 1126625.829 233572.7434;
1126625.416 233577.3781;
Poin Terpusat: 9.792639127 0.656480018; -0.340591673 -1.68817349; -4.519928343 -1.801499913; -4.932119113 2.833193384;
SVD, D matrix: 11.86500017 0; 0 3.813448344
Rasio Nilai singular 3.111357
Rasio di atas dapat secara kasar diartikan sebagai data yang tiga kali lebih panjang ke arah garis yang paling cocok karena cross-linear.
Untuk solusi dengan unit yang memiliki unit dan tidak memerlukan SVD. Lakukan beberapa penyetelan garis yang memiliki garis tengah sebagai salah satu parameter. Menggunakan data terpusat di atas ini sederhana: baris pt = 0 0 (selalu menjadi kasus untuk data terpusat) arah garis = -0.999956849 -0.009289783
Vektor dari pusat garis ke setiap titik adalah koordinat titik yang terpusat. Tentukan panjang proyeksi vektor-vektor ini ke garis (nilai absolut vektor dot arah garis), dan panjang komponen vektor tegak lurus (panjang arah vektor garis silang). Panjang Paralel, Panjang Tegak Berbulu 9.798315123, 0.565480194; 0.356259742, 1.684936621; 4.536468847, 1.759433021; 4.905586534, 2.878889448;
Proyeksi paralel maksimum adalah bentangan data di sepanjang garis. Panjang maksimum proyeksi tegak lurus adalah ukuran dari non-linearitas. Rasio keduanya adalah perkiraan rasio nilai singular di atas.
Catatan 1. Affine invariance dalam linearitas tidak mungkin. Pertimbangkan, dalam transformasi affine kita dapat skala semua kecuali satu dari sumbu koordinat hingga mendekati nol (membuat setiap set poin linier). Jadi invarian konformal adalah yang terbaik yang bisa kita lakukan. 2. Metode-metode ini TIDAK ROBUST untuk data outlier. 3. Contoh adalah 2D tetapi digeneralisasi ke N-dimensional.
sumber