Ondokuz Mays niversitesi Eitimde lme ve Deerlendirme Anabilim

Ondokuz Mayıs Üniversitesi Eğitimde Ölçme ve Değerlendirme Anabilim Dalı EĞİTİMDE ÖLÇME VE DEĞERLENDİRME ÖLÇME ARAÇLARINDA BULUNMASI GEREKEN NİTELİKLER Dr. Öğr. Üyesi Selda ÖRS ÖZDİL

Ölçme Araçlarında Bulunması Gereken Nitelikler Güvenirlik Geçerlik Kullanışlılık

Bir soru: Aşağıdaki değişkenlerden hangisi daha kolay ölçülür? (A) Uzunluk (B) Başarı NEDEN? Her ölçme sonucuna mutlaka bir miktar hata karışır. Eğitimdeki başarı, tutum, algı gibi birçok değişken, yapısı gereği soyuttur! Bu değişkenleri doğrudan ölçemeyiz; bazı göstergeler yardımıyla ölçeriz. Bu nedenle, başarı değişkenini ölçmede uzunluğa kıyasla çok daha fazla HATA KARIŞIR!

Bugün Neler Konuşacağız? ■ Ölçmede Hata kavramı ■ Hata türleri ■ Hata kaynakları ■ Korelasyon ■ Güvenirlik teriminin anlamı ■ Güvenirlik belirleme yöntemleri ■ Güvenirliğe etki eden faktörler

Ölçmede Hata ■ Ölçmede amaç, ölçülen niteliğin gerçek değerini ortaya çıkartmaktır. Ancak, çeşitli faktörlere bağlı olarak ölçmeye hata karışır. Bu nedenle gerçek değer, gözlenen değere dayalı olarak tahmin edilmeye çalışılır. ■ Klasik Test Teorisi (KTT), gerçek puanın tahmininde kullanılan teorilerden biridir. KTT’de gözlenen puan şu denklem ile açıklanır. X = T + E Hata Gözlenen Puan Gerçek Puan 13. 2. 2022 Ölçme ve Değerlendirme 5

Bir değişkeni ne kadar hassas ölçerseniz ölçmeye karışan hata o kadar azalır. Hassasiyet/duyarlılık arttıkça hata azalır, hata azaldıkça güvenirlik artar.

Ölçmede Hata ■ Hata = Gözlenen ölçme sonucu – Gerçek ölçme sonucu ■ Normal koşullarda ölçülen özelliğin gerçek değerini bilemeyiz bu nedenle ölçmeye ne kadar hata karıştığını da belirlememiz zorlaşmaktadır. ■ Geçerlik ve güvenirlik çalışması temelde ölçmeye karışan hatanın belirlenmesi sürecidir. ■ Eğitimde; ■ Hata= Gözlenen puan – Gerçek puan ■ !!! Hatanın hem miktarı hem de yönü (pozitif ya da negatif) vardır. 7

Hata Türleri Sabit Hatalar Sistematik Hatalar Tesadüfi Hatalar

Sabit Hatalar Gerçek Değer Ölçülen Değer 5 kg 7 kg 12 kg 14 kg 35 kg 37 kg 23 kg 25 kg 32 kg 34 kg 3 kg 5 kg 8 kg 10 kg Sabit miktarda karışan hata

Ölçmeden ölçmeye ve ölçmeciden ölçmeciye miktarı değişmeyen, bütün ölçme sonuçlarına aynı miktarda karışan hatalara “sabit hatalar” denir. Her öğrencinin puanından 10 puan düşürmek. Yapılan sınavda, dördüncü sorunun okunamaması nedeniyle hiçbir öğrenci tarafından cevaplandırılamaması.

Sistematik Hata Gerçek Değer Ölçülen Değer 10 kg 11 kg 20 kg 22 kg 30 kg 33 kg 40 kg 44 kg 50 kg 55 kg Sanki belli bir kural varmış gibi

Ölçülen özelliğin miktarı değiştikçe hata miktarının da değişmesi sonucu oluşan hataya “sistematik hata” denir. Öğretmenin yaptığı sınavı değerlendirirken hemşerilerine fazladan puan vermesi Sınav sonuçlarının düşük olması üzerine öğretmenin her öğrencinin sınav sonuçlarına %10 puan eklemesi Hiç devamsızlık yapmayan öğrencilere 5 puan eklenmesi

Sistematik Hata

Tesadüfi (random/rastgele)Hata Gerçek Değer Ölçülen Değer 5 kg 12, 5 kg 20 kg 23 kg 8 kg 11 kg 10, 6 kg Ne sabit ne sistematik

Ölçme sonuçlarına tesadüfen karışan; yönü miktarı ve nedeni bir başka deyişle kaynağı belli olmayan hatalar “tesadüfi hata” denir. Hem arttırıcı hem de azaltıcı yönde karışabilmektedir. Tesadüfi hataların miktarı ve yönü bilinmez. Bu nedenle kontrol edilemezler ve öncelikle güvenirliğe etki ederler.

Dikkatsizliği nedeniyle öğretmenin yaptığı sınavı puanlarken olması gerekenden farklı puanlar vermesi Öğretmenin sınavlara verdiği puanları not defterine işlerken farkında olmadan yanlış yazması Sınav günü öğrencinin hasta ya da çok kaygılı olması nedeniyle bildiği soruları cevaplayamaması Öğrencilerin sınavda kopya çekmesi

Hata Kaynakları HATA KAYNAKLARI Ölçme Yapan Kişi Ölçme Aracı Ölçülen Birey Ölçme Ortamı

Eğitimde yapılan ölçmelerin sonuçları ölçütle karşılaştırılarak değerlendirmeler yapılmakta bu değerlendirmeler ile de bireyler hakkında karar verilmektedir. Doğru kararlar verebilmek için ölçme sonuçlarının bir dereceye kadar hatalardan arınık olması gerekmektedir (Turgut, 1988). Sabit ve sistematik hatalar kaynağı bilindiği ve büyük ölçüde farkında olarak yapıldığı için kontrol altına alınabilir. Ancak tesadüfi hataların kaynağı bilinmediği için kontrol edilemez ve büyük oranda güvenirliği tehdit eden hatalar tesadüfi hatlardır (Başol, 2015).

KORELASYON

Güvenirlik Ölçme sonuçlarının (test puanlarının) tesadüfi hatalardan arınık olması, yani ölçme sonuçlarına hata karışmadan ölçme işleminin yapılabilmesidir. Ölçme sonuçlarında hata miktarı ne kadar az olursa ölçme sonuçları gerçeğe yakın olur ve o kadar güvenirliği yüksek olur. Ölçme sonuçlarında karışan hata miktarı yüksek olursa güvenirlik düşer.

GÜVENİRLİK «Ölçme sonuçlarının tesadüfi hatalardan arınık olma derecesi» Kararlılık Tutarlılık Duyarlılı k

GÜVENİRLİK BELİRLEME YÖNTEMLERİ İki Uygulamaya Dayalı Yöntemler Test Tekrar Test Tek Uygulamaya Dayalı Yöntemler Testteki Hatayı Puan Cinsinden İfade Etme İki Yarı (Eşdeğer Yarılar) Yöntemi Paralel (Eşdeğer) Test *KR 20/ KR 21 *Cronbach-Alfa Ölçmenin Standart Hatası

İki uygulamaya dayalı yöntemler Test-Tekrar Test Yöntemi TEST 1 Sorular: 1. …………… 2. …………. . . 3. ……………. . . 20. …………. 1. Uygulama Aynı test belli bir süre sonra aynı gruba tekrar uygulanır. TEST 1 Sorular: 1. ……………. 2. ……………. 3. …………. …. . . 20. …………. . 2. Uygulama

1 saat sonra 2 hafta sonra

Test-Tekrar Test Yöntemi ■ İki uygulama arası bırakılan zaman ne kadar olmalı o Birkaç dakika? o 3 saat? o 2 gün? o 1 hafta? ■ Olası HATA kaynakları

Bu güvenirlik “kararlılık” anlamında güvenirlik olarak bilinir. Kararlılık, bir ölçme aracının tekrar kullanılması sonucu, elde edilen sonuçların aynı ya da benzer olabilme derecesidir. Bir ölçme aracının ölçmeden ölçmeye değişmeyen sonuçlar vermesidir. Güvenirlik katsayısı O - 1 arasında değişir. Güvenirlik belirlerken elde edilen korelasyon katsayısının yüksek olduğunu söyleyebilmemiz için korelasyon katsayısının 0, 70’ten yüksek olması gerekir. Ölçülen değişkende zaman içinde değişmenin az olacağı düşünülüyorsa (duyuşsal alan davranışlarının ölçülmesi gibi) ve aracın kararlılığı hakkında bilgi edinilecekse test-tekrar test yöntemi kullanılır.

Paralel (Eşdeğer) Formlar Yöntemi TEST A Sorular: 1. …………… 2. …………. . . 3. ……………. . . 20. …………. Aynı davranışları ölçen fakat farklı sorulardan oluşan iki test TEST B Sorular: 1. ……………. 2. ……………. 3. …………. …. . . 20. …………. .

Paralel (Eşdeğer) Formlar Yöntemi ■ Paralel Test Nedir? Testlerin paralel olması için, testler aynı özelliği ölçen eşit sayıda soruya sahip testler olmalı ve testi oluşturan soruların güçlük düzeylerinin, ayırıcılık düzeylerinin vb. aynı olması gerekir. Test ve madde istatistiklerinin paralel olması beklenmektedir.

Paralel (Eşdeğer) Formlar Yöntemi Birbirine paralel yani aynı davranışları ölçen, fakat farklı sorulardan oluşan iki test hazırlanır. İki test aynı öğrencilere uygulanır ve öğrencilerin aldıkları puanlar arasındaki korelasyon katsayısı hesaplanır. Korelasyon katsayısı güvenirlik katsayısı olarak kabul edilir. Bu yöntemle elde edilen güvenirlik katsayısı “eşdeğerlik katsayısı” olarak da ifade edilir. Eşdeğerlik katsayısı, hem ölçme sonuçlarının zaman içindeki kararlılığının hem de değişik test maddelerine verilen yanıtların tutarlılığının ölçüsünü verir.

Olası HATA Kaynakları

Tek uygulamaya dayalı yöntemler İki Yarı (Eşdeğer Yarılar) Yöntemi SORULAR 1. … 2. … 3. …. . . 20. … 1. YARI SORULAR 1. … 3. … 5. …. . 19. … Uygula Tutarlılık 2. YARI SORULAR 2. … 4. … 6. …. . 20. …

■ Testi yarılama(eşdeğer yarılar): Testi oluşturan soruların hepsi aynı özelliği ölçüyorsa yarılama işlemi tekler / çiftler, ilk yarı / son yarı ya da tesadüfi şekilde yapılabilir. Fakat, sorular farklı özellikleri ölçüyorsa benzer özellikleri ölçen sorular farklı yarılarda yer almalıdır.

Elde edilen korelasyon katsayısı testin yarısına ait korelasyon katsayısıdır. Testin tamamı için güvenirlik kestiriminde, “Spearman - Brown düzeltme formülü” kullanılır. Olası HATA Kaynakları

■ Örnek: Uygulanan bir testin iki yarısından elde edilen puanlar arasındaki korelasyon katsayısı 0, 60 olsun. Bu testin tamamına ilişkin güvenirlik katsayısını hesaplayalım:

İç Tutarlılık Güvenirliği Hesaplama Yöntemi (KR 20/21 - Cronbach Alfa) Bir testin, bir defa uygulanması ve testte yer alan maddelerin analiz edilmesine dayanır. İç tutarlılık güvenirliği bir testteki maddelerin birbirleriyle ne derece tutarlı olduğunun belirlenmesi için kullanılan bir güvenirlik hesaplama yöntemidir. Test maddelerinin birbirleriyle tutarlı olması, testte ilgisiz ya da hatalı soru olmadığı anlamına gelir. İç Tutarlılık: Bir testi oluşturan birimlerin birbirine benzerliğidir.

KR-20 / KR-21: 1 -0 şeklinde puanlanan maddeli testlerde uygulanabilir (çoktan seçmeli ya da doğru-yanlış). Test bir kez uygulanır. İç tutarlılık katsayısı olarak adlandırılır. Testteki maddelerin aynı yeterliği ölçtüğü anlamına gelir (testin tek boyutlu olduğu). Testi oluşturan maddeler homojendir.

KR-20 / KR-21: 1 -0 şeklinde puanlanan maddeli testlerde uygulanabilir (çoktan seçmeli ya da doğru-yanlış). KR-20: Testteki her bir maddenin güçlük derecelerinin hesaplanmış olması gerekir. (Madde analizi yapılmış testler)

KR-20 / KR-21: 1 -0 şeklinde puanlanan maddeli testlerde uygulanabilir (çoktan seçmeli ya da doğru-yanlış). KR-21: Testteki her bir maddenin güçlük dereceleri bilinmiyor ve güçlük derecelerinin eşit olduğu varsayılıyor. (Madde analizi yapılmamış testler)

KR-20 ve KR-21 Arasındaki İlişki KR-21 < KR-20 KR-21 güvenirliğin alt sınırıdır. Güvenirlik ister KR-21 ister KR-20 ile hesaplansın yapılacak yorum değişmez.

Cronbach Alfa: KR yöntemlerinden tek farkı 1 -0 şeklinde puanlanmayan çoklu puanlanan maddelerin yer aldığı testlerde maddeler arasındaki tutarlılığı bulmak için kullanılır. (Likert tipi tutum ölçekleri gibi)

Puanlayıcı Güvenirliği: Özellikle öznel puanlamanın söz konusu olduğu testlerde kullanılan güvenirlik belirleme yöntemidir. Testin, farklı kişiler tarafından puanlanmasıyla elde edilen puanlar arasındaki korelasyonu ifade etmektedir. Puanlama Güvenirliği: Testin, aynı kişi tarafından farklı zamanlarda iki kez puanlanması sonucunda elde edilen puanlar arasındaki korelasyondur.

Ölçmenin standart hatası ■ 85 IQ puanına sahip Mert’in zeka geriliği olduğunu söyleyebilir miyiz? 90 Zeka geriliği 110 normal üstün zekalı • Bireysel puanları yorumlama • Belli olasılıklarla testten alınabilecek maksimum ve minimum puanları belirleme 13. 2. 2022 Ölçme ve Değerlendirme 46

Ölçmenin Standart Hatası Güvenirlik için hatasızlığın bir ölçüsü olduğunu söylemiştik. Güvenirlik katsayısı ölçme işleminde yapılan hatanın miktarını belirtmez. Standart hata bize hatanın miktarını söyler. Öğrencilerin gerçek puan aralıklarını bulmamızı sağlar.

■ Ortalaması 100 standart sapması 10 olan normal bir dağılım düşünelim. ■ Normal dağılan, ortalaması 100, standart sapması 10 olan puanların neredeyse tamamına yakını 70 ile 130 arasında olacaktır. ■ Puanların herhangi bir dağılımı (ortalama ve standart sapma değerlerinden bağımsız olarak), eğer dağılım normalse, puanların hemen %100’ü ortalamadan -3 ile +3 standart sapma arasına yerleşecektir.

Ortalamadan uzaklık İçerdiği Yüzde İçerdiği Puanlar (Ortalama=100 SS=10 ise) Ortalama ve 1 ss arası %34, 13 100 -110 1 ss ve 2 ss arası %13, 59 110 -120 2 ss ve 3 ss arası %2, 15 120 -130 3 ss ve üstü %0, 13 130 ve üstü Ortalama ve -1 ss arası %34, 13 90 -100 -1 ss ve -2 ss arası %13, 59 80 -90 -2 ss ve -3 ss arası %2, 15 70 -80

Normal dağılımda puanların yaklaşık; %68’i +1 SS ile -1 SS aralığındadır. %95’i +2 SS ile -2 SS aralığındadır. 68 -95 -99 KURALI %99’u +3 SS ile -3 SS aralığındadır. %68. 2 %95. 4 %99. 7 SS Yüzde -3 SS -2 SS -1 SS 0. 13 2, 27 15, 86 1 SS 50 2 SS 84, 12 97, 71 3 SS 99, 85

■ ÖSH, bireyin testten aldığı puana karışmış olması muhtemel tesadüfi hata miktarının ölçüsüdür. ■ Ölçmede yapılan hataların standart değeridir. ■ Güvenirlik katsayıları ölçülen özellik bakımından gruba bağlı değişme gösterirken, ölçmenin standart hatası grup değişikliğinden daha az etkilenir. ■ Aynı araçla birey için sonsuz sayıda ölçme yapılsa, bireyin aldığı puanlar, belli bir dağılım gösterecektir. Bu dağılımın ortalaması, kişinin gerçek puanının iyi bir tahminidir. Böyle bir dağılımın standart kayması, ölçmenin standart hatası olarak adlandırılır.

Standart sapması 4, güvenirlik katsayısı 0, 75 olan bir testin standart hatası kaçtır?

■ Ölçmenin standart hatası (SHö), bilinmesi durumunda, belli olasılıklar dahilinde gerçek puanların alabileceği alt ve üst sınır değerleri (güven aralığı, GA) bulunabilir. Ölçme Sonuçlarının Güven Aralığının Hesaplanması Bir öğrenci X puanı almışsa… ■ %68 olasılıkla Güven Aralığı: X ± 1 ÖSH (X-ÖSH, X+ÖSH) ■ %95 olasılıkla Güven Aralığı: X ± 2 ÖSH (X-2ÖSH, X+2ÖSH) ■ %99 olasılıkla Güven Aralığı: X ± 3 ÖSH (X-3ÖSH, X+3ÖSH) Örneğin; X=80 ve ÖSH=4 ■ %68 olasılıkla Güven Aralığı: 80 ± 4 (80 -4, 80+4) (76, 84) ■ %95 olasılıkla Güven Aralığı: 80 ± 2(4) (80 -8, 80+8) (72, 88) ■ %99 olasılıkla Güven Aralığı: 80 ± 3(4) (80 -12, 80+12) (68, 92)

%95 olasılıkla 66 -74 arasında Öğrenci puanı: 70 %68 olasılıkla 68 -72 arasında Se = 2 -3 Se -2 Se -1 Se %99 olasılıkla 64 -76 arasında 2 Se 3 Se

Güvenirliği Arttıran Faktörler Yönergelerin ve testteki maddelerin açık, net ve anlaşılır olması Testteki madde sayısının artması

Güvenirliği Artıran Faktörler Testteki maddelerin güçlük düzeyi (orta güçlük) Şans başarısının düşük olması Testi alan bireye özgü durumlar (Psikolojik durum) Test edilen grubun (test puanlarının) heterojen olması Testi yanıtlama süresinin yeterli olması Testin uygulama koşulları Puanlama ve puanlayıcı nesnelliği (Puanlama güvenirliği)