Informasi

Memutuskan antara chi square dan uji t

Memutuskan antara chi square dan uji t


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Saya selalu bingung apakah harus melakukan uji chi square atau uji t dalam jumlah yang diberikan oleh guru biostat saya. Apakah ada yang punya aturan sederhana untuk memutuskan ini?


Ini adalah pertanyaan yang sangat halus dan saya mendorong Anda untuk membaca artikel Wikipedia tentang subjek yang berbeda ini (uji t, uji chi-kuadrat, nilai p, dll) karena penulis bekerja keras untuk memerangi kesalahpahaman umum tentang tes statistik yang umum digunakan ini . Berikut adalah aturan praktis yang terlalu disederhanakan untuk tes yang berbeda ini:

  1. t-test: Digunakan saat Anda melihat cara dari populasi yang berbeda. Misalnya, Anda mungkin ingin menentukan apakah perbedaan tingkat ekspresi gen rata-rata antara sel yang diobati dan yang tidak diberi perlakuan berbeda, atau jika tingkat ekspresi gen sel di lingkungan tertentu berbeda dari yang Anda harapkan dalam hipotesis nol. Asumsi: Anda berasumsi bahwa populasi yang Anda lihat terdistribusi normal. Varians dari populasi tidak diketahui (itu akan menjadi uji-Z), tetapi diasumsikan bahwa varians dari setiap populasi adalah sama. Akhirnya, agar uji-t berfungsi, sampel data dari dua populasi diasumsikan independen.
  2. $chi^2$ test: Beberapa kemungkinan untuk ini. Yang paling umum dalam biologi adalah tes Pearson $chi^2$, yang digunakan saat Anda melihat Kategori data, seperti jumlah tanaman kacang polong dengan bunga putih atau ungu dan biji bulat atau keriput, dan mencoba melihat apakah jumlah individu di setiap kategori konsisten dengan beberapa hipotesis nol (seperti jumlah di setiap kategori yang Anda harapkan jika gen untuk warna bunga dan bentuk biji tidak terkait). Asumsi: Titik-titik data dikumpulkan secara acak dan independen dari populasi, dan Anda memiliki jumlah sampel yang cukup besar.

Saya tidak ingin membuat kesalahan besar, jadi harap edit jawaban saya dan/atau sumbangkan jawaban Anda sendiri jika menurut Anda saya benar-benar salah mengartikan topik ini!


Informasi tambahan

Uji-T

Seperti yang dikatakan A.Kennard, uji-t diterapkan ketika variabel acak terdistribusi normal. Bagaimana mengetahui apa yang terdistribusi normal adalah pertanyaan yang relevan. Ukuran reguler yang mengalami beberapa kesalahan pengukuran acak terdistribusi normal. Nilai rata-rata yang diperkirakan dari sampel yang berbeda (percobaan yang menghasilkan sampel itu mungkin memiliki setiap distribusi) mengikuti distribusi normal. Misalnya interval waktu rata-rata peluruhan radioaktif - interval itu sendiri terdistribusi secara eksponensial tetapi rata-rata interval peluruhan rata-rata akan terdistribusi secara normal. Anda dapat beralasan bahwa sekali lagi kesalahan pengukuran yang menyebabkan variasi dalam nilai rata-rata yang dihitung dalam sampel yang berbeda. Ini disebut teorema limit pusat.

Distribusi normal memiliki dua parameter- mean dan varians yaitu Anda perlu mengetahui nilai-nilai ini sebelumnya untuk membangun distribusi normal. Distribusi seragam tidak memiliki parameter- itu tidak berarti bahwa sampel terdistribusi seragam tidak memiliki rata-rata atau varians (dalam hal ini mean dan varians adalah sifat sampel bukan parameter distribusi). Uji-t atau uji-z dilakukan untuk melihat apakah sampel mewakili distribusi normal tertentu. Itu sekali lagi berarti bahwa mean dan varians yang dihitung setara dengan parameter distribusi yang sesuai. Dalam kasus uji-z Anda mengetahui varians populasi (parameter distribusi). Anda mungkin bertanya bagaimana mungkin seseorang mengetahui varians populasi sebelumnya. Contohnya adalah kasus di mana Anda sudah mengetahui tingkat kesalahan alat pengukur Anda (mungkin disediakan oleh pabrikan atau ditafsirkan dari desainnya).

$chi^2$ tes

Ada beberapa varian dari pengujian $chi^2$. Tetapi apa yang umum di antara mereka adalah bahwa mereka merujuk pada distribusi $chi^2$. Varians yang selalu positif tidak dapat berdistribusi normal. Ini mengikuti distribusi $chi^2$. Uji-F untuk varians menggunakan rasio statistik $chi^2$ dari dua variabel acak yang menunjukkan varians. Bahkan dalam uji Pearson $chi^2$, statistik uji adalah jumlah kuadrat yang membuatnya selalu positif. Sebenarnya distribusi $chi^2$ ini juga digunakan dalam uji-t. Sebagai . Kennard mengatakan, salah satu asumsi uji-t adalah varians populasi tidak diketahui tetapi diasumsikan sama. Karena varians populasi tidak diketahui, maka harus diperkirakan dari sampel. Seperti halnya dengan semua perkiraan, Anda tidak memiliki nilai tetap tetapi rentang nilai yang dapat diterima yang jatuh dalam beberapa interval kepercayaan. Distribusi-T pada dasarnya adalah rata-rata dari beberapa distribusi normal dengan nilai varians yang berada dalam interval kepercayaan yang diizinkan dari distribusi $chi^2$.

Data kategorikal tidak perlu diuji dengan uji $chi^2$. Eksperimen lempar koin menimbulkan kategoris tetapi dapat diuji terhadap distribusi binomial. Jadi tes $chi^2$ dapat digunakan untuk data kategorikal tetapi itu bukan satu-satunya tes.

Intinya: statistik yang diuji dengan $chi^2$ test memiliki $chi^2$ distribusi sebagai distribusi samplingnya. Statistik itu harus berupa kuadrat/jumlah kuadrat- sesuatu yang tidak mungkin memiliki nilai negatif. Mungkin itu sebabnya disebut $chi$ kuadrat.


Memang benar bahwa uji-T digunakan ketika variabel dependen Anda adalah Numerik dan uji Chi-Square digunakan ketika Anda adalah variabel kategori analisis. Tapi bagaimana dengan ini:

Anda memiliki tanggapan kategoris (0,1) terhadap kampanye. 1 yang membeli produk dan 0 yang tidak. Jika Anda menjumlahkan respons di grup Uji dan grup Kontrol Anda dan membaginya berdasarkan ukuran populasi masing-masing, katakanlah Anda mendapatkan sesuatu seperti ini - .23% tingkat respons di Grup Uji dan .01% tingkat respons di Grup Kontrol.

Tidak bisakah Anda menggunakan T-Test untuk melihat apakah tingkat respons ini berbeda? Jika ya, maka izinkan saya mengingatkan bahwa variabel-variabel ini adalah kategorikal (0,1) tetapi kami masih menggunakannya sebagai numerik.

Yang ingin saya katakan adalah bahwa jika kita membandingkan tingkat respons atau persentase, maka T-Tests dapat digunakan terlepas dari apakah variabel dependennya adalah karakter atau numerik.

Sachin


Apa Perbedaan Antara T-test dan ANOVA?

Tutorial ini menjelaskan perbedaan antara a uji-t dan ANOVA, beserta kapan harus menggunakan setiap tes.

Uji-T

A uji-t digunakan untuk menentukan apakah ada perbedaan yang signifikan secara statistik antara rata-rata dua kelompok. Ada dua jenis uji-t:

1. Uji t sampel independen. Ini digunakan ketika kita ingin membandingkan perbedaan antara rata-rata dua kelompok dan kelompok-kelompok tersebut benar-benar independen satu sama lain.

Misalnya, peneliti mungkin ingin mengetahui apakah diet A atau diet B membantu orang menurunkan berat badan lebih banyak. 100 orang yang ditugaskan secara acak ditugaskan untuk diet A. 100 orang lainnya yang ditugaskan secara acak ditugaskan untuk diet B. Setelah tiga bulan, para peneliti mencatat total penurunan berat badan untuk setiap orang. Untuk menentukan apakah rata-rata penurunan berat badan antara kedua kelompok berbeda secara signifikan, peneliti dapat melakukan uji-t sampel independen.

2. Uji-t sampel berpasangan. Ini digunakan ketika kita ingin membandingkan perbedaan antara rata-rata dua kelompok dan di mana setiap pengamatan dalam satu kelompok dapat dipasangkan dengan satu pengamatan di kelompok lain.

Sebagai contoh, misalkan 20 siswa dalam satu kelas mengikuti tes, kemudian mempelajari panduan tertentu, kemudian mengulang tes. Untuk membandingkan perbedaan antara skor pada tes pertama dan kedua, kami menggunakan uji t berpasangan karena untuk setiap siswa skor tes pertama mereka dapat dipasangkan dengan skor tes kedua mereka.

Agar uji-t menghasilkan hasil yang valid, asumsi berikut harus dipenuhi:

  • Acak: Sampel acak atau eksperimen acak harus digunakan untuk mengumpulkan data untuk kedua sampel.
  • Normal: Distribusi samplingnya normal atau mendekati normal.

Jika asumsi ini terpenuhi, maka aman untuk menggunakan uji-t untuk menguji perbedaan antara rata-rata dua kelompok.


Bagaimana cara menghitung ukuran sampel dalam studi hewan?

Perhitungan ukuran sampel merupakan salah satu komponen penting dari desain penelitian apapun termasuk studi hewan. Jika seorang peneliti memilih lebih sedikit jumlah hewan, hal itu dapat menyebabkan hilangnya perbedaan yang signifikan bahkan jika ada dalam populasi dan jika lebih banyak jumlah hewan yang dipilih maka hal itu dapat menyebabkan pemborosan sumber daya yang tidak perlu dan dapat menyebabkan masalah etika. Dalam artikel ini, berdasarkan tinjauan literatur yang dilakukan oleh kami, kami menyarankan beberapa metode perhitungan ukuran sampel untuk penelitian pada hewan.

Berapa banyak hewan yang harus saya gunakan untuk studi saya? Ini adalah salah satu pertanyaan paling membingungkan yang dihadapi oleh seorang peneliti. Ukuran sampel yang terlalu kecil dapat menghilangkan efek nyata dalam eksperimen dan ukuran sampel yang terlalu besar akan menyebabkan pemborosan sumber daya dan hewan yang tidak perlu.[1] Masalah ukuran sampel telah disorot secara memadai untuk uji klinis dan studi klinis, tetapi tidak banyak dieksplorasi dalam kasus studi hewan dalam literatur yang diterbitkan. Sangat penting untuk mengajar para peneliti muda dan mahasiswa pascasarjana mengenai pentingnya dan metode perhitungan ukuran sampel. Untuk memperjelas masalah ini ukuran sampel dalam penelitian hewan, kami memutuskan untuk mencari berbagai artikel yang tersedia mengenai ukuran sampel dalam penelitian hewan. Kami melakukan pencarian PubMed dengan menggunakan berbagai istilah MeSH seperti “ukuran sampel,” “perhitungan ukuran sampel,” ȁstudi hewan” dll., dan kombinasinya. Kami juga telah mencari berbagai artikel melalui Google dan Google Cendekia. Kami juga telah menelusuri berbagai situs web yang terkait dengan penelitian hewan (http://www.3rs-reduction.co.uk/html/6__power_and_sample_size.html, http://www.acuc.berkeley.edu/, http://www. bu.edu/orccommittees/iacuc/policies-and-guidelines/sample-size-calculations/, http://www.ucd.ie/researchethics/etc.). Penulis pertama membaca semua literatur yang tersedia dan pemahaman tentang konsep dibuat dengan berkonsultasi dengan penulis kedua. Di sini, kami menjelaskan secara singkat tentang metode perhitungan ukuran sampel dalam studi hewan berdasarkan tinjauan literatur yang kami lakukan.

Pada dasarnya, ada dua metode perhitungan ukuran sampel dalam studi hewan. Metode yang paling disukai dan paling ilmiah adalah perhitungan ukuran sampel dengan analisis daya.[2] Setiap upaya harus dilakukan untuk menghitung ukuran sampel dengan metode ini. Metode ini mirip dengan metode yang digunakan untuk perhitungan ukuran sampel untuk uji klinis dan studi klinis. Perhitungan sederhana dapat dilakukan secara manual dengan bantuan beberapa rumus [Lampiran 1], tetapi untuk perhitungan yang rumit perangkat lunak statistik dapat digunakan atau bantuan dari ahli statistik dapat dicari. Untuk menghitung ukuran sampel dengan analisis daya, seorang peneliti harus memiliki pengetahuan dan informasi tentang konsep-konsep ini:

Ukuran efek: Ini adalah perbedaan antara rata-rata dua kelompok (data kuantitatif) atau proporsi kejadian dalam dua kelompok (data kualitatif). Seorang peneliti harus memutuskan sebelum memulai penelitian bahwa seberapa jauh perbedaan minimum antara dua kelompok dapat dianggap signifikan secara klinis. Gagasan tentang perbedaan yang signifikan secara klinis antara kelompok harus diambil dari penelitian yang diterbitkan sebelumnya [2,3,4,5]

Standar deviasi: Standar deviasi mengukur variabilitas dalam sampel. Informasi tentang standar deviasi diperlukan hanya dalam kasus variabel kuantitatif. Informasi tentang standar deviasi variabel tertentu dapat diambil dari penelitian yang diterbitkan sebelumnya. Jika tidak ada studi tersebut maka penulis harus melakukan studi percontohan terlebih dahulu dan standar deviasi dapat dihitung dari studi percontohan [2,3,4,5]

Kesalahan tipe 1: Ini diukur dengan tingkat signifikansi, yang biasanya ditetapkan pada tingkat 5% (P = 0,05). Ini adalah nilai arbitrer dan dapat dikurangi atau ditingkatkan sesuai dengan pertanyaan penelitian[2,3,4,5]

Kekuatan: Kekuatan studi adalah kemungkinan menemukan efek, yang studi ini bertujuan untuk menemukan. Ini dapat disimpan antara 80% hingga bahkan 99% tergantung pada pertanyaan penelitian, tetapi biasanya disimpan pada 80%[2,3,4,5]

Arah efek (satu sisi atau dua sisi): Ketika seorang peneliti ingin mengeksplorasi efek dari beberapa intervensi, efek yang sebenarnya diamati dalam sampel mungkin dalam arah yang sama seperti yang peneliti pikirkan atau mungkin hanya berlawanan dengan itu. Jika peneliti merasa bahwa efeknya mungkin dalam dua arah maka ia harus menggunakan uji dua arah dan jika ia memiliki alasan kuat untuk percaya bahwa efeknya terletak pada satu arah maka ia dapat menggunakan uji satu arah. Dalam penelitian hewan, tes dua arah biasanya digunakan [2]

Uji statistik: Untuk perhitungan ukuran sampel, penting untuk memiliki gagasan tentang uji statistik, yang akan diterapkan pada data. Untuk uji statistik sederhana seperti Student t-test atau Chi-square test, perhitungan manual berdasarkan rumus dapat dilakukan [Lampiran], tetapi untuk uji kompleks seperti ANOVA atau uji non-parametrik bantuan ahli statistik atau penggunaan perangkat lunak diperlukan[ 2,4]

Pengurangan yang diharapkan atau kematian hewan: Ukuran sampel akhir harus disesuaikan dengan pengurangan yang diharapkan. Misalkan seorang peneliti mengharapkan pengurangan 10% maka ukuran sampel yang dihitung dengan rumus atau perangkat lunak harus dibagi dengan 0,9 untuk mendapatkan ukuran sampel yang sebenarnya. Misalkan ukuran sampel yang dihitung oleh perangkat lunak adalah 10 hewan per kelompok dan peneliti mengharapkan pengurangan 10% maka ukuran sampel akhirnya adalah 11 hewan per kelompok (10/0,9 = 11,11). Demikian pula, untuk ukuran sampel gesekan 20% harus dibagi dengan 0,8.[5] Hal ini dapat dijelaskan dalam bentuk rumus terstruktur yaitu,

Ukuran sampel yang dikoreksi = Ukuran sampel/ (1− [% pengurangan/100])

Kami menyarankan penggunaan perangkat lunak G Power yang dapat diunduh secara gratis (Faul, Erdfelder, Lang dan Buchner, 2007) untuk penghitungan ukuran sampel. Perangkat lunak ini sama baiknya untuk perhitungan ukuran sampel untuk uji klinis juga. Perangkat lunak ini dapat digunakan untuk perhitungan ukuran sampel yang sederhana maupun kompleks.[6] G Power dapat menghitung ukuran sampel berdasarkan ukuran efek yang telah dirancang sebelumnya pada perbedaan kecil, sedang, dan besar antara kelompok berdasarkan prinsip Cohen.[7] Informasi tentang perangkat lunak dan kalkulator lain yang tersedia secara bebas untuk penghitungan ukuran sampel diberikan dalam Lampiran 2. Ukuran sampel yang lebih kompleks akan membutuhkan perangkat lunak yang lebih canggih seperti “nQuery advisor” atau “MINITAB.”

Metode perhitungan kedua adalah metode kasar berdasarkan hukum hasil yang semakin berkurang. Metode ini disebut metode “resource persamaan”.[2,8,9] Metode ini digunakan ketika tidak mungkin untuk mengasumsikan tentang ukuran efek, untuk mendapatkan ide tentang standar deviasi karena tidak ada temuan sebelumnya yang tersedia atau ketika beberapa titik akhir diukur atau prosedur statistik yang kompleks digunakan untuk analisis. Metode ini juga dapat digunakan dalam beberapa studi eksplorasi di mana pengujian hipotesis bukanlah tujuan utama, tetapi peneliti hanya tertarik untuk menemukan tingkat perbedaan antara kelompok.

Menurut metode ini nilai 𠇎” diukur, yang tidak lain adalah derajat kebebasan analisis varians (ANOVA). Nilai E harus antara 10 dan 20. Jika E kurang dari 10 maka penambahan hewan lebih banyak akan meningkatkan peluang mendapatkan hasil yang lebih signifikan, tetapi jika lebih dari 20 maka penambahan hewan tidak akan meningkatkan peluang mendapatkan signifikan. hasil. Padahal, metode ini didasarkan pada ANOVA, ini berlaku untuk semua percobaan hewan. Setiap ukuran sampel, yang menjaga E antara 10 dan 20 harus dianggap memadai. E dapat diukur dengan rumus berikut:

E = Jumlah total hewan − Jumlah total kelompok

Misalkan seorang peneliti ingin melihat efek suatu obat dan dia membuat lima kelompok (satu kelompok sebagai kontrol dan empat kelompok dengan dosis obat yang berbeda) dengan masing-masing 10 ekor tikus. Dalam hal ini E adalah

E = 50 − 5 = 45, yaitu lebih dari 20 maka jumlah sampel dalam percobaan ini lebih dari yang diperlukan. Namun, jika ukuran sampel adalah lima per kelompok maka E akan menjadi 20, yang merupakan batas yang dapat diterima dan karenanya dapat dianggap sebagai ukuran sampel yang memadai.

Metode ini mudah, tetapi tidak dapat dianggap sekuat metode analisis daya.

Kami ingin menyarankan peneliti untuk memasukkan pernyataan tentang metode perhitungan ukuran sampel dan justifikasi ukuran sampel dalam naskah yang ingin mereka terbitkan. Hewan dalam penelitian: Pelaporan in vivo pedoman eksperimen merekomendasikan penyertaan pernyataan yang menyebutkan justifikasi ukuran sampel yang digunakan dalam penelitian dan detail metode penghitungan ukuran sampel.[10] Semua komponen perhitungan ukuran sampel seperti ukuran efek, kesalahan tipe 1 dan tipe 2, uji satu sisi/dua sisi, standar deviasi, dll., harus dilaporkan dalam naskah yang dikirim untuk publikasi seperti yang disarankan untuk penelitian klinis.[11 ] Kekurangan sumber daya (anggaran, tenaga kerja), kendala waktu dll, tidak dapat dianggap sebagai pembenaran yang sah mengenai keputusan ukuran sampel. Banyak peneliti menganggap enam hewan per kelompok sebagai ukuran sampel yang memadai, tetapi setelah meninjau literatur yang tersedia tentang masalah ini, kami sampai pada kesimpulan bahwa gagasan enam hewan per kelompok ini memiliki sedikit dasar ilmiah dan statistik. Ini adalah deskripsi singkat dan pembaca diminta untuk membaca lebih banyak sumber daya yang tersedia untuk pemahaman yang lebih baik tentang berbagai konsep yang berkaitan dengan perhitungan ukuran sampel dalam studi hewan.


VARIABEL

Variabel adalah karakteristik yang bervariasi antara satu individu anggota populasi dengan individu lainnya.[3] Variabel seperti tinggi dan berat badan diukur dengan beberapa jenis skala, menyampaikan informasi kuantitatif dan disebut sebagai variabel kuantitatif. Jenis kelamin dan warna mata memberikan informasi kualitatif dan disebut sebagai variabel kualitatif[3] [ Gambar 1 ].

Klasifikasi variabel

Variabel kuantitatif

Data kuantitatif atau numerik dibagi lagi menjadi pengukuran diskrit dan kontinu. Data numerik diskrit dicatat sebagai bilangan bulat seperti 0, 1, 2, 3,… (bilangan bulat), sedangkan data kontinu dapat mengasumsikan nilai apa pun. Pengamatan yang dapat dihitung merupakan data diskrit dan pengamatan yang dapat diukur merupakan data kontinu. Contoh data diskrit adalah jumlah episode henti napas atau jumlah re-intubasi di unit perawatan intensif. Demikian pula, contoh data kontinu adalah kadar glukosa serum serial, tekanan parsial oksigen dalam darah arteri dan suhu esofagus.

Skala hierarkis dengan presisi yang meningkat dapat digunakan untuk mengamati dan merekam data yang didasarkan pada skala kategoris, ordinal, interval dan rasio [ Gambar 1 ].

Variabel kategori atau nominal tidak berurutan. Data hanya diklasifikasikan ke dalam kategori dan tidak dapat diatur dalam urutan tertentu. Jika hanya ada dua kategori (seperti pada jenis kelamin laki-laki dan perempuan), maka disebut sebagai data dikotomis (atau biner). Berbagai penyebab re-intubasi di unit perawatan intensif karena obstruksi jalan napas atas, gangguan pembersihan sekret, hipoksemia, hiperkapnia, edema paru dan gangguan neurologis adalah contoh variabel kategori.

Variabel ordinal memiliki urutan yang jelas antar variabel. Namun, data yang dipesan mungkin tidak memiliki interval yang sama. Contohnya adalah status American Society of Anesthesiologists atau skala agitasi-sedasi Richmond.

Variabel interval mirip dengan variabel ordinal, kecuali bahwa interval antara nilai-nilai variabel interval sama-sama berjarak. Contoh skala interval yang baik adalah skala derajat Fahrenheit yang digunakan untuk mengukur suhu. Dengan skala Fahrenheit, perbedaan antara 70° dan 75° sama dengan perbedaan antara 80° dan 85°: Satuan pengukuran sama untuk seluruh rentang skala.

Skala rasio mirip dengan skala interval, di mana perbedaan yang sama antara nilai skala memiliki makna kuantitatif yang sama. Namun, skala rasio juga memiliki titik nol yang sebenarnya, yang memberi mereka properti tambahan. Misalnya, sistem sentimeter adalah contoh skala rasio. Ada titik nol yang sebenarnya dan nilai 0 cm berarti tidak adanya panjang sama sekali. Jarak tiromental dari 6 cm pada orang dewasa mungkin dua kali lipat dari seorang anak yang mungkin 3 cm.


Kapan menggunakan uji-z versus uji-t

Bagaimana saya tahu kapan harus menggunakan uji-t alih-alih uji-z?

Hampir setiap siswa statistik yang pernah saya bimbing pernah menanyakan pertanyaan ini kepada saya. Ketika saya pertama kali mulai les, saya akan menjelaskan bahwa itu tergantung pada masalahnya, dan mulai mengoceh tentang teorema limit pusat sampai mata mereka berkaca-kaca. Kemudian saya menyadari, lebih mudah untuk memahami jika saya hanya membuat diagram alur. Jadi begini!

Pada dasarnya, itu tergantung pada empat hal:

  1. Apakah kita bekerja dengan rata-rata (misalnya, "37 siswa") atau proporsi (misalnya, "15% dari semua siswa").
  2. Apakah kita tahu atau tidak populasi simpangan baku ( (sigma) ). Dalam kehidupan nyata kami biasanya tidak melakukannya, tetapi kursus statistik suka membuat masalah di mana kami melakukannya.
  3. Apakah populasi terdistribusi normal atau tidak. Hal ini terutama penting ketika berhadapan dengan ukuran sampel yang kecil.
  4. NS ukuran sampel kami. Angka ajaib biasanya 30 - di bawah yang dianggap sebagai sampel "kecil", dan 30 atau lebih dianggap "besar". Ketika ukuran sampel besar, teorema limit pusat memberi tahu kita bahwa kita tidak perlu khawatir tentang apakah populasi terdistribusi normal atau tidak.

Saat Anda mengerjakan soal statistik kata, inilah hal-hal yang perlu Anda cari. Masalah proporsi bukanlah masalah uji-t - selalu gunakan z! Namun, Anda perlu memeriksa bahwa (np_<0>) dan (n(1-p_<0>)) keduanya lebih besar dari 10, di mana (n) adalah ukuran sampel Anda dan (p_< 0>) adalah hipotesis proporsi populasi Anda. Ini pada dasarnya mengatakan bahwa proporsi populasi (misalnya, % laki-laki dan % perempuan) keduanya harus cukup besar sehingga mereka cukup terwakili dalam sampel.

Secara umum, masalahnya akan secara eksplisit memberi tahu Anda jika deviasi standar populasi diketahui - jika mereka tidak mengatakannya, anggap itu tidak diketahui. Hal yang sama berlaku untuk populasi yang terdistribusi normal - jika mereka tidak mengatakan "anggap populasi terdistribusi normal", atau sesuatu seperti itu, maka tidak buat saja asumsi itu. Untungnya jika ukuran sampelnya cukup besar, tidak masalah!

Mulailah dengan tutor statistik di IU hari ini!

Suka artikel ini? Lihat lebih banyak posting tentang Statistik.

Bloomington Tutor © 2013 - 2021 melayani siswa di Bloomington, Indiana, 47405. Tertarik untuk bekerja dengan kami? Terapkan hari ini. Perlu menghubungi kami? Kunjungi halaman kontak kami atau SMS/hubungi kami di (812) 269-2380. Lihat Tutor College Park untuk bimbingan di University of Maryland (UMD).

Syarat dan Ketentuan · Kebijakan Privasi · Kesehatan dan Keselamatan
Situs ini dilindungi oleh reCAPTCHA dan berlaku Kebijakan Privasi dan Persyaratan Layanan Google.
Kami tidak berafiliasi dengan Indiana University (IU) atau Ivy Tech.


Tes Chi-kuadrat vs. Regresi Logistik: Apakah tes yang lebih menarik lebih baik?

Halo Karin,
Saya seorang mahasiswa MPH dalam biostatistik dan saya ingin tahu tentang menggunakan regresi untuk tes asosiasi dalam analisis statistik terapan. Mengapa menggunakan regresi, atau regresi logistik “lebih baik” daripada melakukan analisis bivariat seperti Chi-square?

Saya membaca banyak studi dalam studi pascasarjana saya, dan sepertinya setengah dari studi menggunakan Chi-Square untuk menguji hubungan antara variabel, dan separuh lainnya, yang tampaknya hanya mencoba untuk menjadi mewah, melakukan beberapa regresi yang rumit -disesuaikan untuk-dikontrol oleh- model. Tapi hasil akhirnya sepertinya sama. Saya telah bekerja dengan beberapa profesional yang mengatakan bahwa sederhana lebih baik, dan menggunakan Chi-Square baik-baik saja, tetapi saya telah bekerja dengan profesor lain yang bersikeras membangun model. Tampaknya juga jauh lebih sederhana untuk melakukan chi-kuadrat ketika Anda melakukan analisis kategoris utama.

Profesor saya sepertinya tidak bisa memberi saya alasan sederhana
jawaban, jadi saya pikir saya akan bertanya kepada Anda. Saya senang membaca situs Anda dan berencana untuk mulai berpartisipasi dalam webinar Anda.

Terima kasih!

Terimakasih banyak. Saya berharap dapat melihat Anda di webinar.

Sesuai pertanyaan Anda, ada sejumlah alasan berbeda yang saya lihat.

Anda benar bahwa ada banyak situasi di mana pendekatan canggih (dan rumit) dan pendekatan sederhana bekerja sama baiknya, dan semuanya sama, sederhana lebih baik.

Tentu saja saya tidak dapat mengatakan mengapa seseorang menggunakan metodologi tertentu dalam studi tertentu tanpa melihatnya, tetapi saya dapat menebak beberapa alasan.

Saya yakin ada bias di antara para peneliti untuk menjadi rumit karena bahkan ketika jurnal mengatakan mereka ingin sederhana, hal-hal mewah itu sangat berkilau dan cantik dan lebih diterima. Terutama karena ini mengomunikasikan (pada tingkat tertentu) bahwa Anda memahami statistik canggih, dan telah memeriksa variabel kontrol, jadi peninjau tidak perlu keberatan. Dan apakah semua ini benar, saya yakin orang-orang mengkhawatirkannya.

Memasukkan kontrol benar-benar penting dalam banyak hubungan. Paradoks Simpson, di mana suatu hubungan membalikkan dirinya sendiri tanpa kontrol yang tepat, benar-benar terjadi.

Sekarang Anda dapat memperdebatkan bahwa regresi logistik bukanlah alat terbaik. Jika semua variabel, prediktor dan hasil, adalah kategoris, analisis log-linear adalah alat terbaik. Sebuah analisis log-linear adalah perpanjangan dari Chi-kuadrat.

Yang mengatakan, saya pribadi tidak pernah menemukan model log-linear yang intuitif untuk digunakan atau ditafsirkan. Jadi, jika diberi pilihan, saya akan menggunakan regresi logistik. Filosofi pribadi saya adalah bahwa jika dua alat sama-sama masuk akal, dan salah satunya sangat tumpul, audiens Anda tidak akan memahaminya, gunakan yang lebih mudah.

Yang membawa kita kembali ke chi-square. Mengapa tidak menggunakan yang paling sederhana saja?

Tes Chi-kuadrat sebenarnya adalah tes deskriptif, mirip dengan korelasi. Ini bukan teknik pemodelan, jadi tidak ada variabel terikat. Jadi pertanyaannya adalah, apakah Anda ingin menggambarkan kekuatan suatu hubungan atau apakah Anda ingin memodelkan faktor-faktor penentu dan memprediksi kemungkinan suatu hasil?

Jadi bahkan dalam model bivariat yang sangat sederhana, jika Anda ingin secara eksplisit mendefinisikan variabel dependen, dan membuat prediksi, regresi logistik adalah tepat.


3 Jawaban 3

Ada alasan mengapa 'chi-kuadrat dua sisi' jarang digunakan: jika Anda melakukan tes $chi^2$ untuk tabel kontingensi, maka statistik pengujiannya adalah (tanpa koreksi kontinuitas):

dimana $o_$ adalah jumlah yang diamati di sel $i,j$ dan $e_$ adalah jumlah sel yang diharapkan di sel $i,j$. Di bawah asumsi yang relatif lemah dapat ditunjukkan bahwa $X^2$ kira-kira mengikuti distribusi $chi^2$ dengan derajat kebebasan $1$ (ini untuk tabel 2x2 seperti dalam kasus Anda).

Jika Anda mengasumsikan independensi antara variabel baris dan kolom, (yaitu $H_0$ ) , maka $e_$ diperkirakan dari probabilitas marjinal.

Ini hanya untuk pengantar singkat ke $chi^2$ untuk tabel kontingensi. Yang paling penting adalah pembilang setiap suku dalam $X^2$ adalah kuadrat perbedaan antara 'jumlah yang diamati' dan 'jumlah yang diharapkan'. Jadi apakah $o_ < e_$ atau $o_ > e_$ tidak ada bedanya dalam hasil untuk $X^2$.

Jadi tes $chi^2$ untuk tabel kontingensi menguji apakah pengamatan lebih kecil atau lebih besar dari yang diharapkan ! Begitulah tes dua sisi bahkan jika wilayah kritis didefinisikan dalam satu ekor (kanan) dari distribusi $chi^2$.

Jadi intinya adalah bahwa $chi^2$-test adalah tes dua sisi (dapat menolak nilai $o_$ yang terlalu kecil atau terlalu besar) tetapi menggunakan wilayah kritis satu sisi (antrian kanan $chi^2$).

Jadi bagaimana Anda harus menginterpretasikan hasil Anda: jika $H_0: ext< 'variabel baris dan variabel kolom independen' >$ maka probabilitas mengamati nilai setidaknya sama ekstremnya dengan $X^2$ yang dihitung adalah 0,059. Ini disebut nilai p dari tes.

(Perhatikan bahwa, dengan 'independen' di atas termasuk 'terlalu tinggi atau terlalu rendah'.)

Untuk 'memutuskan' sesuatu, Anda harus terlebih dahulu memilih tingkat signifikansi. Ini adalah 'risiko yang Anda terima karena membuat kesalahan tipe I'. Tingkat signifikansi $5\%$ biasanya digunakan.

Anda sekarang akan menolak hipotesis nol ketika nilai p (0,059) lebih kecil dari tingkat signifikansi yang dipilih (0,05). Ini tidak berlaku untuk meja Anda, jadi Anda akan melakukannya bukan tolak $H_0$ pada tingkat signifikansi $5\%$.

Sejauh menyangkut pertanyaan Anda di bagian bawah, Anda harus mengatakan (tetapi dalam contoh Anda tidak demikian): nilai p lebih rendah dari atau sama dengan tingkat signifikansi yang dipilih 0,05, sehingga $H_0$ ditolak dan kami menyimpulkan bahwa variabel baris dan kolom adalah dependen. (tetapi, seperti yang dikatakan, dalam contoh Anda, nilai p lebih tinggi dari tingkat signifikansi 0,05).

Mungkin Anda juga harus melihat Kesalahpahaman nilai-P?.


Tes chi-kuadrat: Contoh bekerja dengan baris dan kolom di SAS

Sebagai aturan umum, ketika programmer SAS ingin memanipulasi data baris demi baris, mereka mencapai langkah SAS DATA. Ketika perhitungan membutuhkan statistik kolom, prosedur SQL juga berguna. Ketika operasi baris dan kolom diperlukan, bahasa SAS/IML adalah tambahan yang kuat untuk kotak alat pemrogram SAS.

Saya diingatkan akan fakta ini baru-baru ini ketika seorang programmer SAS (mungkin seorang siswa) bertanya bagaimana cara "secara manual" melakukan uji chi-kuadrat klasik untuk asosiasi dalam tabel frekuensi dua arah. Perhitungan membutuhkan komputasi rata-rata di baris dan kolom bawah, dan siswa berjuang dengan menerapkan perhitungan dalam langkah DATA. Artikel ini mengilustrasikan bagaimana SAS/IML dapat menyederhanakan perhitungan baris dan kolom dalam uji chi-kuadrat klasik.

Tes chi-kuadrat untuk asosiasi di PROC FREQ

Di SAS, cara mudah untuk menghitung uji chi-kuadrat untuk asosiasi adalah dengan menggunakan PROC FREQ. Data berikut berasal dari beberapa contoh dalam dokumentasi PROC FREQ. Data menunjukkan warna rambut dan warna mata dari 762 anak-anak Eropa. Panggilan ke PROC FREQ menghitung uji chi-kuadrat dan tabulasi silang yang menampilkan nilai yang diamati, nilai yang diharapkan (di bawah hipotesis bahwa warna rambut dan warna mata adalah independen), dan penyimpangan, yang merupakan nilai "yang diamati dikurangi yang diharapkan". :

Dalam tabel mata demi rambut, setiap sel berisi tiga nilai. Nilai pertama adalah jumlah sel yang diamati, nilai kedua adalah jumlah sel yang diharapkan (dengan asumsi independensi), dan nilai ketiga adalah perbedaannya, yang kadang-kadang disebut "deviasi". Statistik uji dan nilai p untuk uji chi-kuadrat diuraikan dalam warna merah. Statistik uji adalah 20,92. Probabilitas mengamati nilai tersebut dari penarikan acak distribusi chi-kuadrat dengan 8 derajat kebebasan adalah 0,0073. Karena probabilitas itu sangat kecil, kami menolak hipotesis nol bahwa warna rambut dan warna mata adalah independen.

Hitung uji chi-kuadrat "secara manual" di SAS

Tes chi-kuadrat pada tabel 3 x 4 cukup sederhana untuk dihitung dengan tangan, tetapi misalkan Anda ingin menggunakan SAS untuk memvalidasi atau mereproduksi angka yang dihasilkan PROC FREQ? Ini adalah latihan pemrograman yang baik bagi siswa untuk memastikan mereka memahami perhitungan. Dokumentasi PROC FREQ menyediakan rumus untuk statistik uji dengan menggunakan persamaan

di mana naku j adalah hitungan yang diamati pada baris i dan kolom j dan eaku j is the expected count, but there is nothing like programming a formula to ensure understanding.

    for each row and column, and the grand mean for all cells.
  1. Use an outer product to form the table of expected values from the mean vectors.
  2. Compute the test statistic by using elementwise matrix operations. to compute the p-value.

Notice that the program does not contain any loops, although the formulas contain double summations over the elements of the table. This is an example of "vectorizing" the computations, which means writing the computations as vector or matrix computations rather than scalar operations in a loop.

You can see that the 'Expected' matrix matches the PROC FREQ output for the expected values for each cell. Similarly, the 'Deviance' matrix matches the PROC FREQ output for the difference between observed and expected values. The test statistic is the sum of the ratios of the squared deviances and the expected values. A call to the CDF function computes the p-value.

In summary, you can use the high-level SAS/IML language to implement basic statistical tests such as the chi-square test for association in a two-way frequency table. Such an exercise enables students to understand the details of elementary statistical tests. For programmers who know the statistical details but who are new to the SAS/IML language, this short exercise provides a way to gain proficiency with vectorized programming techniques.

About Author

Rick Wicklin, PhD, is a distinguished researcher in computational statistics at SAS and is a principal developer of PROC IML and SAS/IML Studio. His areas of expertise include computational statistics, simulation, statistical graphics, and modern methods in statistical data analysis. Rick is author of the books Statistical Programming with SAS/IML Software dan Simulating Data with SAS.

1 Comment

Rick,
I think the following code is more readable.

proc iml
cName = <"black" "dark" "fair" "medium" "red">
rName = <"blue" "brown" "green">
C = < 6 51 69 68 28,
16 94 90 94 47,
0 37 69 55 38>
colMarg = C[+, ]/c[+] /* margin probability of each column */
rowMarg = C[ ,+]/c[+] /* margin probability of each row */
expect=(rowMarg*colMarg)#c[+]


Pengantar

In hypothesis testing a decision between two alternatives, one of which is called the null hypothesis and the other the alternative hypothesis, must be made. As an example, suppose you are asked to decide whether a coin is fair or biased in favor of heads. In this situation the statement that the coin is fair is the null hypothesis while the statement that the coin is biased in favor of heads is the alternative hypothesis. To make the decision an experiment is performed. For example, the experiment might consist of tossing the coin 10 times, and on the basis of the 10 coin outcomes, you would make a decision either to accept the null hypothesis or reject the null hypothesis (and therefore accept the alternative hypothesis). So, in hypothesis testing acceptance or rejection of the null hypothesis can be based on a decision rule. As an example of a decision rule, you might decide to reject the null hypothesis and accept the alternative hypothesis if 8 or more heads occur in 10 tosses of the coin.

The process of testing hypotheses can be compared to court trials. A person comes into court charged with a crime. A jury must decide whether the person is innocent (null hypothesis) or guilty (alternative hypothesis). Even though the person is charged with the crime, at the beginning of the trial (and until the jury declares otherwise) the accused is assumed to be innocent. Only if overwhelming evidence of the person's guilt can be shown is the jury expected to declare the person guilty--otherwise the person is considered innocent.

Errors

In the jury trial there are two types of errors: (1) the person is innocent but the jury finds the person guilty, and (2) the person is guilty but the jury declares the person to be innocent. In our system of justice, the first error is considered more serious than the second error. These two errors along with the correct decisions are shown in the next table where the jury decision is shown in bold on the left margin and the true state of affairs is shown in bold along the top margin of the table.


With respect to hypothesis testing the two errors that can occur are: (1) the null hypothesis is true but the decision based on the testing process is that the null hypothesis should be rejected, and (2) the null hypothesis is false but the testing process concludes that it should be accepted. These two errors are called Type I and Type II errors. As in the jury trial situation, a Type I error is usually considered more serious than a Type II error. The probability of a Type I error is denoted by the Greek letter alpha and is also called the significance level of the test, while the probability of a Type II error is denoted by the Greek letter beta. The next table is analogous to the previous table with the decision reached in hypothesis testing shown in bold along the left margin and the true situation shown in bold along the top margin of the table.

Assumptions

In a jury trial the person accused of the crime is assumed innocent at the beginning of the trial, and unless the jury can find overwhelming evidence to the contrary, should be judged innocent at the end of the trial. Likewise, in hypothesis testing, the null hypothesis is assumed to be true, and unless the test shows overwhelming evidence that the null hypothesis is not true, the null hypothesis is accepted.

Contoh

Suppose that you are trying to decide whether a coin is fair or biased in favor of heads. The null hypothesis is H0: the coin is fair (i.e., the probability of a head is 0.5), and the alternative hypothesis is Ha: the coin is biased in favor of a head (i.e. the probability of a head is greater than 0.5). To make this problem easier, assume that the alternative hypothesis is Ha: the probability of a head is 0.7. You are allowed to toss the coin only 10 times, and on the basis of the outcomes, make your decision.

The next graphs show Type I and Type II errors made in testing a null hypothesis of the form H0:p=p0 against H1:p=p1 where p1>p0. In these graphs n is taken to be 10. The red outlined bars show the probability distribution of the number of heads under the assumption that the null hypothesis (fair coin or p=0.5) is true , while the blue shaded bars show the probability distribution of the number of heads under the assumption that the null hypothesis is false (and p=0.7) . The decision rule is based on a critical value--if the number of heads is greater than or equal to this critical value, the null hypothesis is rejected--otherwise the null hypothesis is accepted. At the top of each graph you find the null, H0, and alternative, Ha, hypotheses, the critical value (CV) ranging from 6 to 10, Alpha, the probability of a Type I error, and Beta, the probability of a Type II error. These errors are show by the red and blue shadings, respectively.

Decreasing the Probability of a Type II Error (beta) Without Increasing the Probability of a Type I Error (alpha)

The previous example shows that decreasing the probability of a Type I error leads to an increase in the probability of a Type II error, and vice versa. How probability of a Type I error be held at some (preferably small level) while decreasing the probability of a Type II error? The next series of graphs show that this can be done by using a larger n, that is by increasing the number of coin tosses. An increase in n can be viewed as increasing the sample size for the experiment. In the middle graph of the series of five graphs shown above, the probability of a Type I error, alpha, is approximately 0.05. Suppose the coin was tossed 30 times instead of 10 times. With 30 tosses you would want the critical value to be some number greater than 15. Suppose that 20 is used as the critical value, that is, if 20 or more heads occur in the 30 tosses you would reject the null hypothesis that the coin is fair and accept the alternative hypothesis that the coin is biased in favor of heads (in this situation, we are looking at the alternative that the probability of a head is p=0.7). The next graph displays the results with the probability distribution of the number of heads under the assumption that the null hypothesis is true shown in red , and the probability distribution of the number of heads under the assumption that the null hypothesis is false (and the probability of a head is 0.7) is displayed in blue .

Notice that the probability of a Type I error is approximately 0.05, while the probability of a Type II error is approximately 0.27. Contrast this with the situation when the coin was tossed 10 times--from the middle graph of that series of graphs, alpha is approximately 0.05 but beta, the probability of a Type II error, is about 0.62.

The P-Value Approach to Hypothesis Testing

In the previous examples, a critical value was used in each of the situations in which a coin was tested for fairness. Although it was not explained how the critical value was selected in those examples, the critical value is usually chosen so that the test will have a small probability of Type I error. The values usually used for alpha, the probability of a Type I error, are 0.10, 0.05, or 0.01. Recall that alpha is also called the significance level. These are called 10%, 5%, or 1%, respectively, significance levels.

In the p-value approach neither a significance level nor a critical value are determined before the experiment is carried out or the sample taken. The null and alternative hypotheses are stated, and the experiment is run. A statistic is computed from the outcome of the experiment--the p-value is the probability of the observed outcome or something more extreme than the observed outcome, computed under the assumption that the null hypothesis is true. The determination of an outcome being more extreme than the observed outcome is based on the null and alternative hypotheses. Examples of this will be shown later.

For now, go back to the coin tossing experiment where the null hypothesis is that the coin is fair (p=0.5) and the alternative hypothesis is that the coin is biased in favor of heads (p>0.5). Suppose the coin is tossed 10 times and 8 heads are observed. Since the alternative hypothesis is p>0.5, more extreme values are numbers of heads closer to 10. So, to compute the p-value in this situation, you need only compute the probability of 8 or more heads in 10 tosses assuming the coin is fair. But, the number of heads in 10 tosses of a coin assuming that the coin is fair has a binomial distribution with n=10 and p=0.5. The p-value is P[8 heads] + P[9 heads] + P[10 heads]. From the binomial probability distribution, P[8 heads]=0.044, P[9 heads]=0.01, and P[10 heads]=0.001. Thus the p-value is 0.044+0.010+0.001=0.055.

Now that the p-value is computed, how do you decide whether to accept or reject the null hypothesis? Since the p-value is simply the probability of getting the observed number of heads under the assumption that the null hypothesis is true, if this probability is small, it is unlikely that the null hypothesis is true. So 'small' p-values lead to rejection of the null hypothesis. But 'small' is not defined. The definition of small is up to the reader--if in the opinion of the reader, the p-value is small, the null hypothesis is rejected, while larger values would cause the null hypothesis to be accepted. In statistical practice, 'small' values are usually 0.10, 0.05, or 0.01. In the coin tosses above, the p-value is 0.055, and if a 'small' p-value for you is 0.05, you would fail to reject the null hypothesis, that is, you would say 8 heads in 10 tosses is not enough evidence to conclude that the coin is not fair.

One and Two Tail Tests

In each of the coin tests shown above, the null hypotheses was H0: coin is fair (p=0.5) and the alternative hypothesis was Ha: coin is biased toward heads (p>0.5). With these hypotheses the null hypothesis would only rejected if the number of heads in 10 coin tosses was some number greater than 5. For example, you might reject the null only if you observe 9 or 10 heads in the 10 tosses. The 'rejection region' (shown as the red bars in the above graphs) lies in the right tail of the distribution of the number of heads in 10 tosses of a fair coin. This is a one-tail rejection region or one-tail test. Note that the 'greater than' symbol (>) in Ha points toward the rejection region.

If you were testing H0: coin is fair (p=0.5) against the alternative hypothesis Ha: coin is biased toward tails (p<0.5), you would only reject the null hypothesis in favor of the alternative hypothesis if the number of heads was some number less than 5. For example, you might decide to reject H0 and accept Ha if the number of heads was 2 or fewer. Then the rejection region would lie in the left-hand tail of the probability distribution as shown by the shaded portion of the next graph. This is again a one-tail test. The 'less than' symbol (<) points toward the rejection region.

On the other hand if you were testing H0: coin is fair (p=0.5) against the alternative hypothesis Ha: coin is not fair (p not equal to 0.5), you would reject the null hypothesis in favor of the alternative hypothesis if the number of heads was some number much less than 5 or some number much greater than 5. For example, you might decide to reject H0 and accept Ha if the number of heads was 2 or fewer or 8 or more. Then the rejection region would lie in both tails of the probability distribution of the number of heads. This is shown by the shaded portion of the next graph. This is a two-tail test with rejection regions in both tails.

Specific Hypothesis Tests

Summary of the p-value method

  • Determine the null and alternative hypotheses
  • Determine the test statistic
  • Take a random sample of size n and compute the value of the test statistic
  • Determine the probability of observed value or something more extreme than the observed value of the test statistic (more extreme is based on the null and alternative hypotheses). This is the p-value.
  • Reject the null hypothesis if the p-value is 'small.' (Where a significance level is give for the test, 'small' is usually meant to be any p-value less than or equal to the significance level)

For a population mean with known population standard deviation

(1) Sample is random
(2) If the sample is small (n<30), the population is normal or close to normal.

For a population mean with unknown population standard deviation

(1) Sample is random
(2) If the sample is small (n<30), the population is normal.

For a population proportion

(1) Sample is random
(2) Sample is large (n is 30 or more)
(3) x is the number of sample elements that have the characteristic


Confidence Intervals and Levels

NS interval kepercayaan is the plus-or-minus figure usually reported in newspaper or television opinion poll results. For example, if you use a confidence interval of 4 and 47% percent of your sample picks an answer you can be “sure” that if you had asked the question of the entire relevant population between 43% (47-4) and 51% (47+4) would have picked that answer.

NS tingkat kepercayaan diri tells you how sure you can be. It is expressed as a percentage and represents how often the true percentage of the population who would pick an answer that lies within the confidence interval. The 95% confidence level means you can be 95% certain the 99% confidence level means you can be 99% certain. Most researchers work for a 95% confidence level.

When you put the confidence level and the confidence interval together, you can say that you are 95% sure that the true percentage of the population is between 43% and 51%.

Factors that Affect Confidence Intervals
The confidence interval is based on the margin of error. There are three factors that determine the size of the interval kepercayaan for a given tingkat kepercayaan diri. Ini adalah: ukuran sampel, percentage dan ukuran populasi.

Ukuran sampel
The larger your sample, the more sure you can be that their answers truly reflect the population. This indicates that for a given tingkat kepercayaan diri, the larger your sample size, the smaller your interval kepercayaan. However, the relationship is not linear (i.e., doubling the sample size does not halve the confidence interval).

Persentase
Your accuracy also depends on the percentage of your sample that picks a particular answer. If 99% of your sample said “Yes” and 1% said “No” the chances of error are remote, irrespective of sample size. However, if the percentages are 51% and 49% the chances of error are much greater. It is easier to be sure of extreme answers than of middle-of-the-road ones.

When determining the sample size needed for a given level of accuracy you must use the worst case percentage (50%). You should also use this percentage if you want to determine a general level of accuracy for a sample you already have. To determine the confidence interval for a specific answer your sample has given, you can use the percentage picking that answer and get a smaller interval.

Population Size
How many people are there in the group your sample represents? This may be the number of people in a city you are studying, the number of people who buy new cars, etc. Often you may not know the exact population size. This is not a problem. The mathematics of probability proves the size of the population is irrelevant, unless the size of the sample exceeds a few percent of the total population you are examining. This means that a sample of 500 people is equally useful in examining the opinions of a state of 15,000,000 as it would a city of 100,000. For this reason, the sample calculator ignores the population size when it is “large” or unknown. Population size is only likely to be a factor when you work with a relatively small and known group of people .

Catatan:
The confidence interval calculations assume you have a genuine random sample of the relevant population. If your sample is not truly random, you cannot rely on the intervals. Non-random samples usually result from some flaw in the sampling procedure. An example of such a flaw is to only call people during the day, and miss almost everyone who works. For most purposes, the non-working population cannot be assumed to accurately represent the entire (working and non-working) population.

Most information on this page was obtained from The Survey System


  • This table is designed to help you choose an appropriate statistical test for data with two or more dependent variables .
  • Hover your mouse over the test name (in the Tes column) to see its description.
  • NS Methodology column contains links to resources with more information about the test.
  • NS Bagaimana caranya? columns contain links with examples on how to run these tests in SPSS, Stata, SAS, R and MATLAB.
  • The colors group statistical tests according to the key below:

* This is a user-written add-on

This page was adapted from the UCLA Statistical Consulting Group. We thank the UCLA Institute for Digital Research and Education (IDRE) for permission to adapt and distribute this page from our site.


Tonton videonya: Tutorial Cara Uji Chi Square dengan Program SPSS (November 2022).