Bagaimana cara menemukan nilai yang tidak diberikan dalam tabel statistik (interpolasi dalam)?

19

Seringkali orang menggunakan program untuk mendapatkan nilai-p, tetapi kadang-kadang - untuk alasan apa pun - mungkin perlu untuk mendapatkan nilai kritis dari serangkaian tabel.

Diberikan tabel statistik dengan jumlah tingkat signifikansi yang terbatas, dan jumlah derajat kebebasan yang terbatas, bagaimana cara saya mendapatkan nilai-nilai kritis perkiraan pada tingkat signifikansi lain atau tingkat kebebasan (seperti dengan tabel t , chi-square, atau F ) ?

Yaitu, bagaimana cara menemukan nilai "di antara" nilai dalam tabel?

Glen_b -Reinstate Monica
sumber

Jawaban:

26

Jawaban ini ada dalam dua bagian utama: pertama, menggunakan interpolasi linier , dan kedua, menggunakan transformasi untuk interpolasi yang lebih akurat. Pendekatan yang dibahas di sini cocok untuk perhitungan tangan ketika Anda memiliki tabel terbatas, tetapi jika Anda menerapkan rutinitas komputer untuk menghasilkan nilai-p, ada banyak pendekatan yang lebih baik (jika membosankan jika dilakukan dengan tangan) yang harus digunakan sebagai gantinya.

Jika Anda tahu bahwa nilai kritis 10% (satu ekor) untuk z-test adalah 1,28 dan nilai kritis 20% adalah 0,84, tebakan kasar pada nilai kritis 15% akan menjadi setengah jalan antara - (1,28 + 0,84) / 2 = 1.06 (nilai aktual adalah 1.0364), dan nilai 12.5% ​​dapat ditebak di tengah-tengah antara itu dan nilai 10% (1.28 + 1.06) / 2 = 1.17 (nilai aktual 1.15+). Inilah yang dilakukan oleh interpolasi linier - tetapi alih-alih 'setengah jalan antara', interpolasi linier melihat, di mana ada fraksi jalan antara dua nilai.

Interpolasi linier univariat

Mari kita lihat kasus interpolasi linier sederhana.

Jadi kami memiliki beberapa fungsi (katakanlah ) yang menurut kami kira-kira linear di dekat nilai yang kami coba perkirakan, dan kami memiliki nilai fungsi di kedua sisi nilai yang kami inginkan, misalnya, seperti:x

xy89.316y162015.6

Kedua nilai yang y 's kita tahu adalah 12 (20-8) terpisah. Lihat bagaimana nilai- x (nilai yang kita inginkan untuk nilai- y untuk) membagi selisih 12 ke atas dalam rasio 8: 4 (16-8 dan 20-16)? Artinya, jaraknya 2/3 dari nilai x pertama sampai yang terakhir. Jika hubungannya linier, rentang nilai y yang sesuai akan berada dalam rasio yang sama.xyxyx

interpolasi linier

Jadi harus kira-kira sama dengan16-8y169.315.69.3 .168208

Itu y169.315.69.3168208

menata ulang:

y169.3+(15.69.3)168208=13.5

Contoh dengan tabel statistik: jika kita memiliki t-tabel dengan nilai kritis berikut untuk 12 df:

(2-tail)αt0.013.050.022.680.052.180.101.78

Kami ingin nilai kritis t dengan 12 df dan alfa dua sisi 0,025. Artinya, kami menginterpolasi antara baris 0,02 dan 0,05 dari tabel itu:

αt0.022.680.025?0.052.18

Nilai pada " " Adalah nilai t 0,025 yang ingin kami gunakan untuk interpolasi linier. (Dengan t 0,025 sebenarnya saya maksud 1 - 0,025 / 2 titik dari invers cdf dari distribusi t 12. )?t0.025t0.02510.025/2t12

Seperti sebelumnya, membagi interval dari 0,02 ke 0,05 dalam rasio ( 0,025 - 0,02 ) hingga ( 0,05 - 0,025 ) (yaitu 1 : 5 ) dan nilai- t yang tidak diketahui harus membagi rentang t0.0250.020.05(0.0250.02)(0.050.025)1:5tt hingga 2,18 dalam rasio yang sama; ekuivalen, 0,025 terjadi ( 0,025 - 0,02 ) / ( 0,05 - 0,02 ) = 1 /2.682.180.025 th dari jalan di sepanjang x bintang tiga, sehingga tidak diketahui t -nilai harus terjadi 1 / 6 th dari jalan di sepanjang t bintang tiga.(0.0250.02)/(0.050.02)=1/6xt1/6t

Itu adalah atau setarat0.0252.682.182.680.0250.020.050.02

t0.0252.68+(2.182.68)0.0250.020.050.02=2.680.5162.60

Jawaban aktualnya adalah ... yang tidak terlalu dekat karena fungsi yang kami aproksimasi tidak terlalu dekat dengan linear dalam rentang itu (lebih dekat α = 0,5 ).2.56α=0.5

interpolasi linier dari nilai kritis dalam t-tabel

Perkiraan yang lebih baik melalui transformasi

Kita dapat mengganti interpolasi linier dengan bentuk fungsional lainnya; pada dasarnya, kami mentransformasikan ke skala di mana interpolasi linier bekerja lebih baik. Dalam hal ini, pada bagian ekor, banyak nilai kritis yang ditabulasi lebih linier dari tingkat signifikansi. Setelah kami mengambil log , kami hanya menerapkan interpolasi linier seperti sebelumnya. Mari kita coba pada contoh di atas:loglog

αlog(α)t0.023.9122.680.0253.689t0.0250.052.9962.18

Sekarang

t0.0252.682.182.68log(0.025)log(0.02)log(0.05)log(0.02)=3.6893.9122.9963.912

atau setara

t0.0252.68+(2.182.68)3.6893.9122.9963.912=2.680.50.2432.56

Yang benar untuk jumlah angka yang dikutip. Ini karena - ketika kita mengubah skala x secara logaritmik - hubungannya hampir linier:

interpolasi linier dalam log alpha
Memang, secara visual kurva (abu-abu) terletak rapi di atas garis lurus (biru).

Dalam beberapa kasus, logit dari tingkat signifikansi ( logit(α)=catatan(α1-α)=catatan(11-α-1)αcatatan

Interpolasi di berbagai tingkat kebebasan

tFν1/ν

120/ν120/ν

F4,νν=601201/νν=80F

F4,80,.95F4,60,.95+1/801/601/1201/60(F4,120,.95F4,60,.95)

invers interp dalam df

(Bandingkan dengan diagram di sini )


Ini sepotong meja chi-squared

            Probability less than the critical value
 df           0.90      0.95     0.975      0.99     0.999
______   __________________________________________________

 40         51.805    55.758    59.342    63.691    73.402
 50         63.167    67.505    71.420    76.154    86.661
 60         74.397    79.082    83.298    88.379    99.607
 70         85.527    90.531    95.023   100.425   112.317

Bayangkan kita ingin menemukan nilai kritis 5% (persentil ke-95) untuk 57 derajat kebebasan.

Melihat lebih dekat, kita melihat bahwa nilai-nilai kritis 5% dalam tabel berkembang hampir secara linear di sini:

masukkan deskripsi gambar di sini

(garis hijau bergabung dengan nilai untuk 50 dan 60 df; Anda dapat melihatnya menyentuh titik untuk 40 dan 70)

Jadi interpolasi linier akan sangat baik. Tetapi tentu saja kita tidak punya waktu untuk menggambar grafik; bagaimana memutuskan kapan harus menggunakan interpolasi linier dan kapan mencoba sesuatu yang lebih rumit?

(x50,0.95+x70,0.95)/2x60,0.95

(67.505+90.531)/2=79.018 , yang bila dibandingkan dengan nilai aktual untuk 60 df, 79.082, kita dapat melihat akurat hingga hampir tiga angka penuh, yang biasanya cukup baik untuk interpolasi, jadi dalam kasus ini, Anda akan tetap dengan interpolasi linier; dengan langkah yang lebih baik untuk nilai yang kita butuhkan sekarang kita harapkan untuk memiliki keakuratan 3 angka secara efektif

x67.50579.08267.50557506050

x67.505+(79.08267.505)5750605075.61 .

Nilai sebenarnya adalah 75.62375, jadi kami memang mendapatkan 3 angka akurasi dan hanya keluar dengan 1 pada angka keempat.

Interpolasi yang lebih akurat masih dapat dilakukan dengan menggunakan metode perbedaan hingga (khususnya, melalui perbedaan yang dibagi), tetapi ini mungkin berlebihan untuk sebagian besar masalah pengujian hipotesis.

Jika derajat kebebasan Anda melewati ujung meja Anda, pertanyaan ini membahas masalah itu.

Glen_b -Reinstate Monica
sumber