Hitung ketidakpastian kemiringan regresi linier berdasarkan ketidakpastian data

12

Bagaimana cara menghitung ketidakpastian kemiringan regresi linier berdasarkan ketidakpastian data (mungkin dalam Excel / Mathematica)?

Contoh: Contoh plot Mari kita memiliki titik data (0,0), (1,2), (2,4), (3,6), (4,8), ... (8, 16), tetapi setiap nilai y memiliki ketidakpastian 4. Sebagian besar fungsi yang saya temukan akan menghitung ketidakpastian sebagai 0, karena poinnya cocok dengan fungsi y = 2x. Tapi, seperti yang ditunjukkan pada gambar, y = x / 2 cocok dengan poinnya juga. Ini contoh yang dilebih-lebihkan, tapi saya harap ini menunjukkan apa yang saya butuhkan.

EDIT: Jika saya mencoba menjelaskan sedikit lebih banyak, sementara setiap titik dalam contoh memiliki nilai y tertentu, kami berpura-pura tidak tahu apakah itu benar. Misalnya titik pertama (0,0) sebenarnya bisa (0,6) atau (0, -6) atau apa pun di antaranya. Saya bertanya apakah ada algoritma di salah satu masalah populer yang memperhitungkan ini. Dalam contoh poin (0,6), (1,6,5), (2,7), (3,7,5), (4,8), ... (8, 10) masih jatuh dalam kisaran ketidakpastian, jadi mereka mungkin adalah titik yang tepat dan garis yang menghubungkan titik-titik tersebut memiliki persamaan: y = x / 2 + 6, sedangkan persamaan yang kita dapatkan dari tidak memperhitungkan faktor dalam ketidakpastian memiliki persamaan: y = 2x + 0. Jadi ketidakpastian k adalah 1,5 dan n adalah 6.

TL; DR: Dalam gambar, ada garis y = 2x yang dihitung menggunakan kuadrat terkecil dan cocok dengan data. Saya mencoba untuk menemukan berapa banyak k dan n di y = kx + n dapat berubah tetapi masih sesuai dengan data jika kita tahu ketidakpastian dalam nilai y. Dalam contoh saya, ketidakpastian k adalah 1,5 dan di n itu 6. Dalam gambar ada garis fit 'terbaik' dan garis yang hampir tidak cocok dengan titik.

bedanec
sumber
1
Jika Anda memiliki ketidakpastian dalam Andax Anda, Anda biasanya tidak boleh menggunakan regresi linier biasa karena itu bias (meskipun ketidakpastian kecil akan menghasilkan bias kecil; mungkin Anda tidak terlalu peduli). Apakah ketidakpastian dalam y Anda selalu konstan atau bervariasi? Bagaimana Anda menyesuaikan kalimat Anda?
Glen_b -Reinstate Monica
Saya terutama bertanya tentang ketidakpastian pada y. Tapi saya akan senang jika solusi akan mempertimbangkan ketidakpastian di x juga. Secara umum mereka tidak konstan, tetapi solusi yang mengharuskan mereka untuk menjadi konstan juga akan baik-baik saja, saya mencoba menyesuaikan dengan linearfit, fit, findfit dalam Mathematica and Linest (dan fungsi kustom yang saya temukan yang menimbang nilai dengan ketidakpastian) di unggul.
bedanec
Bisakah Anda menjelaskan sejelas mungkin bagaimana nilai "ketidakpastian" akan terkait dengan apa yang akan terjadi dengan mengulangi percobaan? yaitu apa, tepatnya, yang dilambangkan ketidakpastian ini?
Glen_b -Reinstate Monica
Misr misalnya jika y adalah berat, tetapi skala digital hanya akurat ke + -6. (Bukan contoh terbaik dengan nilai-nilai ini, tetapi misalnya ketika skala menunjukkan 255g bisa jadi 255.0 atau 255.9)
bedanec
Bisakah Anda menjelaskan bagaimana kaitannya dengan kalimat pertama pertanyaan saya?
Glen_b -Reinstate Monica

Jawaban:

8

kny=kx+ny

y100(1α)(k,n)(kxi+nyi)2/σi2<χd,α2σiyid(x,y)χd,α2αd

yiyi(k,n)204(k2)2+72n(k2)+9n2=152.271

masukkan deskripsi gambar di sini

Ray Koopman
sumber
4

Saya melakukan sampling langsung naif dengan kode sederhana ini di Python:

import random
import numpy as np
import pylab
def uncreg(x, y, xu, yu, N=100000):
    out = np.zeros((N, 2))
    for n in xrange(N):
        tx = [s+random.uniform(-xu, xu) for s in x]
        ty = [s+random.uniform(-yu, yu) for s in y]
        a, b = np.linalg.lstsq(np.vstack([tx, np.ones(len(x))]).T, ty)[0]
        out[n, 0:2] = [a, b]
    return out
if __name__ == "__main__":
    P = uncreg(np.arange(0, 8.01), np.arange(0, 16.01, 2), 0.1, 6.)
    H, xedges, yedges = np.histogram2d(P[:, 0], P[:, 1], bins=(50, 50))
    pylab.imshow(H, interpolation='nearest', origin='low', aspect='auto',
                 extent=[xedges[0], xedges[-1], yedges[0], yedges[-1]])

dan dapatkan ini: Histogram hasil pengambilan sampel langsung

Tentu saja Anda dapat menambang Puntuk data yang Anda inginkan, atau mengubah distribusi ketidakpastian.

E.Mroz
sumber
0

Saya pernah berburu yang sama sebelumnya dan saya pikir ini mungkin tempat yang berguna untuk memulai. Fungsi makro excel memberikan syarat fit linear dan ketidakpastiannya berdasarkan pada poin tabular dan ketidakpastian untuk setiap poin di kedua ordinat. Mungkin mencari makalah yang didasarkan pada untuk memutuskan apakah Anda ingin menerapkannya di lingkungan yang berbeda, memodifikasi, dll. (Ada beberapa kerja keras yang dilakukan untuk Mathematica.) Tampaknya memiliki dokumentasi walk-through yang baik di permukaan tetapi surga dapat membuka makro untuk melihat seberapa baik itu beranotasi.

tamu simpatik
sumber