VALIDITAS DAN PENGEMBANGAN TES ARI KRISTIAWAN SELFINA R

VALIDITAS DAN PENGEMBANGAN TES ARI KRISTIAWAN SELFINA R SUNBANU DWI HASTUTI OT BILL WILSON SELAN 832015006 832015007 832015008 832015009

PENDAHULUAN � Sebagaimana diketahui hampir setiap mahasiswa psikologi, kegunaan tes psikologi pertama-tama ditentukan oleh reliabilitasnya tetapi kemudian oleh validitasnya � validitas tes berarti seberapa jauh tes tersebut mengukur apa yang hendak diukur. � Para ahli psikometri telah lama mengakui bahwa validitas adalah karakteristik yang paling penting dan mendasar dari suatu tes. � Validitas tes adalah proses perkembangan yang bermula dari konstruksi tes dan berlanjut untuk jangka waktu yang tak terbatas. Setelah suatu tes dipublikasikan untuk penggunaan operasional, makna interpretatif skornya akan terus dipertajam, diperhalus, dan diperkaya melalui akumulasi observasi klinis yang bertahap dan melalui proyek-proyek penelitian khusus. Validitas tes adalah sesuatu yang hidup, yaitu tidak mati dan diawetkan ketika tes tersebut dipublikasikan ( Anastasi, 1986).

VALIDITAS 1. DEFINISI VALIDITAS Validitas yang dikutip dari sumber yang sangat berpengaruh, Standards for Educational and Psychological Testing ( AERA, APA, & NCME, 1999): sebuah tes dikatakan valid selama kesimpulan yang dibuat berdasarkan tes tersebut tepat, bermakna, dan berguna. Validitas merupakan kesatuan konsep yang ditentukan oleh sejauh mana suatu tes mengukur apa yang hendak diukur. Kesimpulan yang ditarik dari sebuah tes yang valid akan menjadi kesimpulan yang tepat, bermakna, dan berguna. Dalam konteks ini harus terlihat nyata bahwa pada hakikatnya studi empiris manapun yang menghubungkan skor tes dengan lainnya merupakan sumber informasi validitas yang potensial (Anastasi, 1986; Messick, 1995). 2. VALIDITAS ISI (CONTENT VALIDITY) Validitas isi ditentukan oleh seberapa jauh soal-soal mampu mencerminkan perilaku yang ingin diukur. Pada dasarnya, isu mengenai validitas isi tidak lebih dari isu mengenai sampling soal-soal tes itu sendiri ( Bausell, 1986). Soal-soal pada tes dapat dilihat sebagai beberapa sampel soal yang dipilih dari seluruh populasi soal yang ada-yang dapat mengukur perilaku yang dikehendaki. Jika soal-soal pada tes telah mewakili populasi soal yang ada, maka dapat dikatakan bahwa tes tersebut telah memiliki validitas isi. Sebagai contoh, ketika seorang peneliti ingin mengembangkan sebuah tes untuk mengukur kemampuan mengeja siswa kelas III SD. Tes tersebut akan memiliki validitas isi yang baik jika soal-soalnya terdiri dari kata-kata dengan tingkat kesulitan berbeda yang diambil secara acak dari seluruh kata-kata yang telah dikuasai siswa kelas III SD.

� Validitas isi akan sulit diukur apabila tes tersebut dirancang untuk mengukur trait atau aspek -aspek kepribadian tertentu. Bagaimana seorang pengembang tes dapat melakukan spesifikasi terhadap soal-soal apa saja yang mampu mengukur kecemasan seseorang? Dalam kasus dimana trait yang diukur tidak nyata terlihat. Pengembang tes tidak akan mencoba mengkonstruksi seluruh soal tes yang mungkin dalam tes tersebut. Untuk kasus seperti ini, validitas isi akan diperoleh dengan meminta pertimbangan dari para ahli. Dengan adanya pertimbangan tersebut, pengembang tes dapat menyatakan bahwa, “beberapa ahli telah meninjau spesifikasi domain tes secara seksama dan menurut penilain mereka, soal tes ini telah memiliki validitas isi. Gambar 4. 1 akan memperlihatkan contoh lembar penilaian soal yang digunakan untuk menentukan validitas isi dari butir-butir soal tes. � Gambar 4. 1 Peninjau : _____________ Tanggal : _____________ Bacalah spesifikasi domain tes ini dengan seksama. Selanjutnya tentukan seberapa baik setiap soal mencerminkan spesifikasi domain tes. Beri nilai pada masing-masing soal berdasarkan kecocokannya dengan isi yang ditetapkan oleh spesifikasi domain tes. Gunakan skala empat-poin dibawah ini : 1 2 3 4 Tidak relevan agak relevan cukup relevan sangat relevan Sumber : berdasarkan Martuza (1977), Hambleton (1984), Bausell (1986) GAMBAR 4. 1. Contoh lembar penilaian soal para ahli untuk menentukan validitas isi

b. Validitas muka (Face validity) Sebuah tes dapat dikatakan memiliki validitas muka jika tes tersebut terlihat valid oleh pembuat, penguji, dan terutama peserta tes. Isu validitas muka tidak lain adalah isu mengenai penerimaan sosial dan bukanlah bentuk teknis validitas dalam kategori yang sama seperti validitas isi, validitas terkait kriteria, maupun validitas konstruk (Nevo, 1985). 3. VALIDITAS TERKAIT KRITERIA (CRITERION-RELATED VALIDITY) • • • Sebuah tes dikatakan memiliki validitas terkait kriteria apabila tes tersebut mampu mengistimasi kinerja yang ingin diukur dari peserta tes secara efektif. Dalam hal ini variabel yang paling utama adalah hal yang ingin diukur dalam tes itu sendiri yang disebut dengan kriteria. Validitas terkait kriteria memiliki dua pendekatan bukti validitas yang berbeda. Pendekatan Validitas konkuren ( concurrent validity) ukuran kriteria diperoleh pada waktu yang kira-kira bersamaan dengan skor tes. Sebagai contoh, diagnosis psikiatri pasien saat ini merupakan ukuran kriteria yang tepat untuk menyediakan bukti validitas tes psikodiagnostik tertulis. Pada Validitas Prediktif ( predictive validity) ukuran kriteria diperoleh pada masa mendatang biasanya beberapa bulan atau tahun setelah skor tes tersebut didapatkan, seperti IPK mahasiswa yang diprediksikan oleh tes masuk perguruan tinggi. a. Karakterisik kriteria yang baik • • Kriteria merupakan ukuran hasil dari sebuah tes yang divalidasi. Sebuah kriteria haruslah bersifat reliabel jika ingin dijadikan indeks yang berguna bagi apa yang diukur suatu tes. Suatu kriteria yang tidak reliabel akan sulit diprediksi, terlepas dari manfaat tes itu sendiri. Ukuran untuk kriteria juga harus sesuai untuk tes dalam pegawasan tertentu. Buku The Standards for Educational and Psychological Testing (AERA, APA, & NCME, 1985) memasukkan point penting berikut ini sebagai standar terpisah: semua ukuran kriteria harus dideskripsikan secara akurat, dan logika untuk memilih kriteria-kriteria tersebut sebagai kriteria yang relevan harus dibuat eksplisit.

b. Validitas konkuren • • Dalam studi validitas konkuren skor tes dan informasi kriteria diperoleh secara simultan. Bukti konkuren validitas tes biasanya diperlukan untuk tes prestasi, tes untuk memperoleh sertifikasi atau lisensi, dan tes diagnosis klinis. Sebagai contoh tes prestasi aritmatika mengandung validitas konkuren jika skornya dapat digunakan untuk memprediksi posisi siswa saat ini dalam kursus matematika, dengan akurasi yang cukup baik. Suatu tes kepribadian akan memiliki validitas konkuren jika klasifikasi diagnostik yang dihasilkan paling tidak sesuai dengan opini dari para psikiater atau psikolog klinis. c. Validitas prediktif Dalam studi validasi prediktif, skor tes digunakan untuk mengestimasi ukuran –ukuran hasil yang diperoleh pada masa mendatang. • Secara khusus validitas prediktif relevan untuk ujian masuk dan tes kepegawaian. Ketika tes digunakan untuk tujuan prediksi maka suatu persamaan regresi perlu dikembangkan. Persamaan regresi menggambarkan kedudukan garis lurus terbaik untuk mengestimasi kriteria tes. � Ghiselli, dkk (1981) memberikan contoh sederhana tentang regresi dalam melakukan prediksi, yang akan dijabarkan berikut ini. Anggaplah kita mencoba memprediksikan keberhasilan pekerjaan Y ( yang dievaluasi oleh supervisor pada skala 7 poin yang berkisar dari kinerja yang paling buruk hungga kinerja yang paling baik) dari skor tes penerimaan pegawai X (dengan 0 sebagai nilai terendah dan 100 sebagai nilai tertinggi). Persamaan regresi: • Rumus Y = 0, 07 X +0, 2 • Mungkin bisa menggambarkan kedudukan garis lurus sehingga menghasilkan prediksi yang paling akurat. Untuk individu yang mendapatkan skor 55 pada tes 4, 05; yaitu 0, 07 (55) + 0, 2. Skor tes sebesar 33 memunculkan suatu tingkat prediksi kinerja 2, 52, yaitu 0, 07(33)+ 0, 2. Prediksi tambahan dilakukan dengan prosedur serupa.

� Gambar 4. 4 � Para pendukung teori keputusan membuat dua asumsi dasar mengenai penggunaan tes-tes seleksi: 1. Nilai dari berbagai hasil yang muncul pada institusi dapat ekspresikan dalam skala utilitas yang umum. Sebagai contoh, ketika menggunakan tes minat untuk menyeleksi calon salesman, perusahaan akan mendapatkan keuntunagn dari calon pegawai itu jika karyawan bersangkutan berhasil dalam pekerjaannnya. Disisi lain perusahaan akan mengalami kerugian ketika beberapa dari pegawai tersebut tidak dapat menjual produk perusahaan dengan baik bahkan untuk menyokong gaji mereka sendiri. Biaya yang dibutuhkan untuk prosedur seleksi juga harus dipertimbangkan dalam skala utilitas. 2. Pada keputusan seleksi institusional, strategi yang paling efektif adalah memaksimalkan keuntunagn rata. Sebagai contoh, rasio seleksi manakala yang mampu menghasilkan keuntunagn rata-rata terbaik pada skala utilitas? Oleh karena itu, maksimalisasi merupakan prinsip keputusan yang fundamental.

4. VALIDITAS KONSTRUK • • Istilah konstruk mengacu pada sifat atau kualitas abstrak dan teoritis yang membedakan individu (Messick, 1995). Beberapa contoh konstruk adalah kemampuan kepemimpinan, depresi, dan inteligensi. Pada contoh tersebut dapat dilihat bahwa konstruk memang disimpulkan dari perilaku namun konstruk adalah sesuatu yang lebih dari sekedar perilaku itu sendiri. Secara umum, konstruk secara teori memiliki beberapa bentuk eksistensi independen namun tetap berpengaruh terhadap perilaku manusia. Tes yang dirancang untuk mengukur sebuah konstruk harus mengistimasi keberadaan karakteristik terkait yang disimpulkan berdasarkan sampel perilaku yang terbatas. Validitas konstruk mengacu pada kesesuaian dari penarikan kesimpulan tentang konstruk terkait. Setiap konstruk psikologis memiliki dua karakteristik umum: Ø Tidak ada satupun kesimpulan eksternal yang dapat memvalidasi keberadaan konstruk terkait yaitu konstruk tersebut tidak dapat didefinisikan secara operasional (Cronbach & Meehl, 1955) Ø Akan tetapi, sekumpulan dugaan yang berhubungan satu sama lain bisa didapatkan dari teori yang ada tentang konstruk tersebut (AERA, APA, & NCME, 1985). • • Validitas konstruk berhubungan dengan tes-tes psikologis yang mengukur atribut-atribut psikologi yang kompleks, terdiri dari berbagai aspek, dan berdasarkan pada teori seperti psychopathy, inteligensi, kepemimpinan, dan sebagainya. Poin penting yang harus dipahami pada validitas konstruk adalah: “tidak ada kriteria atau keseluruhan konten atau isi yang memadai secara keseluruhan untuk mendefinisikan kualitas yang diukur” (Cronbach & Meehl, 1955). Oleh karena itu demonstrasi validitas konstruk selalu bergantung pada program penelitian dengan menggunakan berbagai prosedur. Untuk mengevaluasi validitas konstruk suatu tes, harus mengumpulkan bukti-bukti dari berbagai sumber.

5. PENDEKATAN DALAM VALIDITAS KONSTRUK �Validitas konstruk dapat ditemukan secara praktris dalam berbagai studi empiris yang menguji skor tes pada kelompok subjek yang sesuai. Sebagian besar studi validitas konstruk meliputi satu dari kategori-kategori berikut

�Analisis untuk menentukan apakah soal-soal tes atau subtes bersifat homogen sehingga mengukur konstruk yang sama �Studi tentang perubahan yang disebabkan oleh perkembangan untuk menentukan apakah studi tersebut konsisten dengan teori konstruk �Penelitian untuk memastikan apakah perbedaan kelompok pada skor-skor tes konsisten dengan teori �Analisis untuk menentukan apakah dampak intervensi terhadap skor-skor tes konsisten dengan teori �Korelasi tes dengan tes dan pengukuran lainnya yang terkait maupun yang tidak terkait �Analisis faktor skor tes dalam kaitannya dengan sumber informasi lainnya �Analisis untuk menentukan apakah skor tes menyediakan klasifikasi peserta tes yang akurat.

Sumber-sumber bukti validitas konstruk tersebut secara lebih rinci a. Homogenitas Tes Tujuan dari pengembangan tes adalah untuk memilih soal yang akan membentuk skala yang homogen. b. Perubahan Berbasis Perkembangan yang Sesuai. Terdapat berbagai konstruk yang diasumsikan bisa menunjukan perubahan yang terjadi dimasa kanak-kanak awal hingga dewasa atau bahkan lebih tua lagi. Konstruk pengetahuan kosa kata dapat dijadikan contoh dari perubahan perkembangan. Sejak awal penciptaan tes inteligensi pada pergeseran abad telah diketahui bahwa pengetahuan kosa kata meningkat secara signifikan dari awal masa kanak-kanak hingga ahir masa kanak-kanak.

c. Perbedaan Kelompok yang Konsisten dengan Teori (Theory-Consistent Group Differences) � Salah satu cara yang dapat digunakan untuk menunjang validitas instrument baru adalah menunjukan bahwa, secara rata-rata, orang yang dengan latar belakang dan karakteristik yang berbeda mendapatkan skor tes yang konsisten dengan teori. Secara spesifik, orang yang diperkirakan tinggi pada konstruk yang diukur oleh tes harus mendapatkan skor yang tinggi, sementara orang yang diperkirakan rendah pada konstruk tersebut harus mendapatkan skor yang juga rendah. � Tabel 4. 1 menyajikan skor rata-rata SIS untuk 12 kelompok subjek yang telah ditetapkan. individu yang memiliki kecenderungan pada perhatian sosial yang tinggi (seperti biarawati) mendapatkan skor rata-rata tertinggi pada (Social Interest Scale SIS) , sedangkan skor terendah diperkirakan didapatkan oleh individu yang perhatiannya terpusat pada dirinya sendiri (seperti model) dan pada pribadi yang sepenuhnya anti sosial (seperti narapidana)

d. Dampak Intervensi yang Konsisten dengan Teori (Theory-Consistent Intervention Effects) � Pendekatan lain untuk validitas konstruk adalah menunjukan bahwa skor tes berubah dalam arah dan jumlah yang sesuai sebagai reaksi terhadap intervensi yang terencana maupun yang tidak terencana. � Sebagai contoh, skor yang lebih tua pada tes kemampuan orientasi spasial harus meningkat setelah subjek tersebut menerima pelatihan kognitif yang dirancang secara kusus untuk meningkatkan kemampuan orientasi spasial mereka. e. Validasi Konvergen dan Diskriminan Validitas konvergen ditunjukan ketika suatu tes memilki korelasi yang tinggi dengan variable atau tes lainnya yang saling berbagi konstruk yang tumpang tindih. • Validitas diskriminan ditunjukan ketika suatu tes tidak berhubungan dengan variabel atau tes yang berbeda dengannya. F. Analisis Faktor • Analisis faktor merupakan teknik statistik khusus yang sering digunakan untuk menginvestigasi validitas konstruk. • • Tujuan dari analisis faktor adalah untuk menemukan kumpulan dimensi yang lebih kecil, yang disebut faktor, yang dapat menjelaskan deretan interkkorelasi antar tes. Pendekatan yang biasanya digunakan dalam analisis faktor adalah melakukan serangkaian tes pada ratusan subjek dan kemudian mengkalkulasi matriks korelasi skor pada pasangan tes yang ada.

g. Ketepatan Klasifikasi � Berbagai tes telah digunakan dalam penyaringan untuk mengidentifikasi para peserta tes yang memenuhi (atau tidak memenuhi) kriteria diagnostik tertentu. Bagi instrumen-instrumen semacam itu, klasifikasi yang akurat merupakan indeks validitas yang penting. � Mari kita gunakan Mini-Mental State Examination (MMSE), sebuah tes penyaringan (screening test) fungsi kognitif singkat. � Tujuan utama MMSE adalah mengidentifikasi individu-individu usia lanjut yang mungkin sedang mengalami dementia. Dementia adalah istilah yang menunjukan adanya penurunan fungsi kognitif yang signifikan dan hilangnya memori yang disebabkan oleh proses penyakit seperti Alzheimer’s Diseasase atau akumulasi dari stroke ringan.

6. PERIHAL EKSTRAVALIDITAS DAN PERLUASAN CAKUPAN VALIDITAS TES Bagian ini dimulai dengan ulasan mengenai perihal ekstravaliditas, termasuk efek samping dan akibat yang tidak diharapkan dari tes. Dengan mengetahui pentingnya domain ekstravaliditas, para psikolog menegaskan bahwa keputusan untuk mengunakan suatu tes melibatkan pertimbangan sosial, legal, dan politis dan jauh melampaui pertanyaan tradisional tentang validitas teknis. Meskipun tes itu dikatakan valid, tidak bias, dan adil, pengunaan tes tersebut juga akan ditentukan oleh beberapa pertimbangan lainnya. Cole dan Moss (1998) menjabarkan faktor-faktor berikut ini. � Apa tujuan dari pengunaan tes tersebut? � Sejauh mana tujuan itu dicapai dengan tindakan yang dilakukan? � Apa saja efek samping atau akibat yang tidak diinginkan yang mungkin muncul dalam pengunaan tes? � Alternative apakah yang mungkin dapat menyediakan tujuan yang sama? � Kita akan membahas perihal ekstravaliditas yang paling menonjol dan memahami bagaimana hal tersebut memperluas cakupan validitas tes.

a. Efek Samping Tes yang Tidak Dikehendaki � Hasil yang diharapkan dari pengunaan tes psikologis bukankah satu-satunya konsekuensi. Berbagai efek samping dari sebuah tes juga sering terjadi. Cole dan Mosess(1998) mengutip contoh tes psikologi untuk menentukan kelayakan bagi pendidikan khusus. Meskipun tes tersebut diharapkan dapat membantu pembelajaran para siswa, proses identifikasi siswa yang layak menerima pendidikan kusus tersebut ternyata memberikan banyak efek samping, yaitu: � Anak yang masuk kedalam daftar identifikasi akan merasa bodoh dan berbeda dari teman-temannya � Anak-anak lain yang tidak teridentifikasi akan mengolok-ngolok anak yang teridentifikasi � Guru akan mengangap anak tersebut tidak layak diperhatikan � Proses tersebut akan menghasilkan segregasi kelas berdasarkan rasa tau kelas sosial.

b. Cakupan Validitas Tes yang Semakin Meluas � Beberapa ahli psikologi memperkenalkan definisi validitas yang lebih luas dan bermanfaat, yang menegaskan bahwa sebuah tes dapat dikatakan valid jika memenuhi tujuan dari pengunaannya (Cronbach 1988; Messick, 1995). � Sebagai contoh, tes prestasi membaca akan digunakan untuk mengidentifikasi siswa yang harus mengikuti kelas perbaikan. Menurut perspektif fungsionalis, tes dapat dikatakan valid dan pengunaannya sesuai jika siswa yang terpilih untuk mengikuti kelas perbaikan benar-benar mendapatkan manfaat akademis dari aplikasi tes tersebut. c. Utilitas: Horizon Terakhir dari Validitas Wood, Garb dan Nezworski (2007) mengemukakan bahwa utilitas tes dapat dirangkum dalam pertanyaan, “ apakah pengunaan tes ini akan menghasilkan pasien yang lebih baik atau pelayanan yang lebih efisien? ”

B. KONSTRUKSI TES (Penyusunan Alat Ukur) Tes yg valid tidak muncul begitu saja. Validitas muncul dari perlahan-lahan dari proses yg berkembang dan berevolusi scr valid sejak awal pembuatannya

1. MENDEFINISIKAN TES § Dalam menyusun alat tes, perlu diketahui gagasan yang jelas mengenai apa yang hendak diukur, dan perbedaan tes tersebut dengan instrumen yg lain. § Tujuan utama dari penyusunan alat tes harus jelas dan memiliki dasar yg kuat Contoh Alat Ukur inteligensi untuk anak-anak Kaufmaan Assesment Batterry For Children (K-ABC) Ø Mengukur intelegensi berdasarkan basis teoritis dan penelitian Ø Memisahkan pengetahuan faktual yang dapat dipelajari dari kemampuan Ø Ø memecahkan masalah yang tidak biasa dihadapi individu Menghasilkan skor yang dapat digunakan untuk intervensi edukasional Mencakup tugas-tugas baru Mudah dijalankan dan memiliki sistem penilaian yang objektif Peka terhadap kebutuhan yang berbeda dari anak-anak prasekolah, kelompok minoritas, dan anak-anak dengan kebutuhan tertentu.

2. MEMILIH METODE SCALLING � Tujuan penting dalam pengukuran psikologis adalah memberikan skala pada respons tes sehingga kita dapat menilai tinggi rendahnya karakteristik tes yang dimiliki para peserta tes � seperangkat lambang atau angka yang dibuat sehingga melalui aturan lambang atau angka itu dapat ditempatkan posisi individu atau perilaku yang menjadi sasaran penggunaan skala

KATEGORI SKALA

KATEGORI SKALA § Skala Nominal (Skala yg digunakan utk memberikan kategori/penamaan saja) § Skala Ordinal (menunjukkan bentuk peringkat (ranking) atau urutan)

§ Skala Interval (menyediakan informasi mengenai urutan serta untuk mengukur perbedaan antar urutan). Misalnya seseorang diminta untuk menilai dari skala 1 sampai 100 mengenai seberapa besar keinginannya untuk memiliki jenis mobil tertentu. penilaiannya adalah sebagai berikut : Cadillac, 90; Chevrolet, 70; Volkswagen , 60; Hyundai, 50. § Skala Rasio (memiliki seluruh karakteristik skala interval serta memiliki konsep titik nol mutlak yang menunjukkan kekosongan )

3. MEMILIH METODE SCALING Expert Rankings (peringkat oleh ahli) Misalnya utk menyusun alat ukur koma, diperlukan beberapa neurolog untuk mengamati perilaku koma. Setelah data diagnostik perilaku terkumpul, pembuat alat tes dapat mengurutkan peringkat pada indikator perilaku mulai dari koma sangat parah hingga orientasi dasar. 1.

2. Method of Equal-Appearing Intervals (Metode Interval Kemunculan. Setara) Metode penskalaan dengan menyusun satu set pernyataan mengenai variabel yg akan diukur. Dengan mengikutsertakan partisipan, pernyataan 2 tersebut kemudian akan dikategorikan dari yg paling favorable dan unfavorable Contoh : Developing an AIDS attitude scale � people get AIDS by engaging in immoral behavior � you can get AIDS from toilet seats � AIDS is the wrath of God � anybody with AIDS is either gay or a junkie � AIDS is an epidemic that affects us all � people with AIDS are bad � people with AIDS are real people � AIDS is a cure, not a disease � you can get AIDS from heterosexual sex � people with AIDS are like my parents � you can get AIDS from public toilets � women don’t get AIDS

Method of Equal-Appearing Intervals (Metode Interval Kemunculan-Setara)

METODE SCALING ABSOLUT (METHOD OF ABSOLUTE SCALING) ME �Prosedur mendapatkan derajat kesulitan soal yang absolut berdasarkan hasil tes peserta dengan kelompok yang usianya berbeda. �Seperangkat soal tes yang serupa dijalankan pada dua atau lebih kelompok usia yang berbeda. �Kesukaran relatif soal-soal antara dua kelompok usia manapun akan menjadi dasar untuk membuat serangkaian perbandingan yang menghubungkan seluruh soal pada seluruh kelompok usia.

SKALA LIKERT � Skala Likert menyediakan 5 jenis respon yang berurutan pada kontinum setuju hingga tidak setuju, bagi peserta tes. � metode pengukuran sikap (attitude) yang banyak digunakan dalam penelitian sosial karena kesederhanaannya.

SKALA GUTTMAN � Skala Guttman dihasilkan dengan cara memilih soal-soal atau pernyataan yang akan dibuat menjadi sebuah urutan, yang selanjutnya akan dipilih oleh responden.

METODE EMPIRICAL KEYING (METODE JAWABAN EMPIRIS) �Skala pengukuran berdasarkan pertimbangan empiris tanpa adanya teori �pemilihan soal-soal pada skala sepenuhnya berdasarkan seberapa baik soal-soal tersebut dapat membedakan kelompok kriteria dari sampel normatif Misalnya : Sekelompok orang/peserta yang mengalami depresi mayor dan telah melewati tahap seleksi ketat, dikumpulkan untuk menjawab sederetan pertanyaan benar atau salah.

KONSTRUKSI SKALA RASIONAL (KONSISTENSI INTERNAL) � Biasa digunakan dalam pengembangan Inventori kepribadian/self- report. Pendekatan ini disebut jg dng konsistensi internal Contoh : B (benar)dan S (salah) pada setiap pernyataan menunjukkan arahan atau pilihan yang ditentukan secara rasional (keyed direction) untuk potensi kepemimpinan

4. MEMBUAT SOAL TES § Membutuhkan kreativitas dari pengembang tes § Terdapat beberapa pertanyaan yang harus direnungkan sebelum membuat soal tes: Ø Apakah soal pada tes akan bersifat homogen? Pada pengukuran yang luas homogenitas dan variabilitas soal tes ditentukan oleh bagaimana pengembang tes mendefinisikan instrument baru tersebut. Contoh sebuah tes inteligensi umum yang dapat digunakan diberbagai budaya. Instrumen tersebut dapat terdiri dari soal yang bervariasi. Pengembang tes dapat memasukkan soal baru yang sama asingnya bagi seluruh peserta tes. Ø Tingkat kesulitan apakah yang harus dicakup oleh soal-soal tersebut? Derajat kesulitan soal harus disesuaikan agar tes tersebut dapat membedakan para peserta tes dari kedua ekstrim (yang mampu dan tidak mampu mengerjakan tes). Ceiling effect (dampak batas) muncul ketika sejumlah besar peserta tes mendapat skor sempurna, sedangkan Floor effect (dampak batas bawah) muncul ketika sejumlah besar pesera tes mendapatkan nilai rendah yang mendekati batas bawah skala. Sebagai contoh tes WAIS-R memiliki floor effect yang cukup serius sehingga tes tersebut gagal membedakan retardasi mental sedang, parah, dan sangat parah. Ø Berapa banyak initial soals (soal-soal uji coba) yang akan dibuat tersebut? Ø Proses kognitif dan domain soal seperti apakah yang diberlakukan? Ø Soal tes seperti apakah yang akan digunakan?

Sebelum pengembang tes dimulai pembuat soal biasanya melakukan: � Tabel spesifikasi menyajikan informasi dan tugas kognitif yang akan diukur dari para peserta tes. Tabel spesifikasi yang paling umum adalah matriks content-byprocess yang memaparkan data mengenai jumlah pasti soal yang mengukur content areas (area isi) yang bersangkutan dan jumlah pasti soal yang akan mengukur proses kognitif yang berbeda Contoh tes prestasi sains bagi siswa SMA. Tes tersebut harus mencakup berbagai contenct areas yang berbeda dan harus dapat mengukur berbagai proses kognitif yang terdiri dari mengingat kembali memori sedehana hingga penalaran untuk menarik kesimpulan. Dengan adanya tabel spesifikasi dalam tahap penulisan soal, pengembang tes dapat memastikan bahwa tes yang dihasilkan memiliki topik a. Pengetahuan faktual : soal dijawab pembahasan yang seimbang dan menyediakan seluruh kemampuan kognitif yang berdasarkan pengenalan fakta dasar diinginkan sederhana Tabel. 4. 5 bkompetensi informasi : soal membutuhkan penggunaan informasi yang disediakan dalam teks tertulis cpenarikan kesimpulan : soal dapat dijawab dengan membuat deduksi atau menarik kesimpulan

� Format soal Disini formal soal disesuaikan dengan subjek yang akan di ukur. Dapat dipilih format soal dalam bentuk multiple choice, esay, benar-salah dan sebagainya. 5. MENGUJI SOAL-SOAL TES Tujuan analisis soal adalah menetapkan soal ujicoba yang harus dipertahankan, direvisi, dan dihilangkan. Banyak prosedur statistik yang tersedia untuk analisis soal, diantaranya: Ø indeks kesulitan soal dapat digunakan untuk mengidentifikasi soal yang harus direvisi atau dihilangkan. Misalnya satu soal memiliki indeks kesulitan hampir 0, 0 yang berarti hampir semua peserta tes menjawab soal tersebut dengan salah. Soal ini tidaklah produktif karena tidak menyediakan informasi tentang perbedaan di antara peserta, sehingga soal harus direvisi atau dibuang. Hal tersebut serupa dengan soal yang indeks kesulitannya berada disekitar 1, 0 dimana hampir semua subjek memberikan jawaban yang benar. Ø indeks reliabilitas soal dimana instrument soal bersifat homogen. Cara sederhana untuk menentukan apakah soal tes berhubungan dengan soal lainnya pada tes yang sama adalah mencari korelasi antara skor soal tersebut dengan skor total pada tes. Guna mengkorelasikan dua jenis skor yang berbeda ini dibutuhkan prosedur statistik khusus yang disebut koefisien korelasi poin-biserial. Rumus koefisien korelasi ini serupa dengan Pearson. Indeks reliabilitas soal merupakan korelasi dari skor total dan deviasi standar. Ø Indeks validitas soal yakni metode psikometrik yang sangat berguna untuk mengidentifikasi seberapa berguna soal-soal tes tersebut nantinya. Dengan menghitung indeks validitas untuk setiap soal ujicoba, pengembang tes dapat mengidentifikasi soal yang tidak efektif,

Ø Kurva karakteristik soal (item Characteristic Curve=ICC) merupakan grafik yang menunjukkan hubungan antara peluang respons yang benar dan posisi peserta pada trait yang diukur oleh tes. Gambar 4. 8 item Characteristic Curve=ICC

Keterangan: q Terlihat pada kurva a, Normal ogive menunjukkan distribusi normal yang digambarkan dalam bentuk kumulatif. Bentuk ICC yang diinginkan tergantung pada tujuan dari tes itu sendiri. Para pendukung psikometri akan lebih menyukai soal tes yang membentuk normal ogive, karena kurva ini akan memudahkan mereka untuk melakukan deduksi matematika mengenai trait yang diukur q kurva b, akan lebih efektif untuk menyeleksi peserta tes dengan tingkatan trait yang tinggi. ICC terutama bermanfaat untuk mengidentifikasi soal yang berfungsi secara berbeda bagi subkelompok peserta tes q Sedangkan kurva c berfungsi secara berbeda bagi kelompok perempuan dan laki-laki

Ø Indeks diskriminasi soal yakni indeks statistik mengenai seberapa efisien sebuah soal mendiskripsikan atau membedakan peserta tes yang mendapatkan nilai tinggi dan nilai rendah pada keseluruhan tes. Indeks diskriminasi soal untuk sebuah soal tes dapat dihitung dengan rumus berilkut: d=(U-L)/N dimana U adalah jumlah peserta tes pada batas yang menjawab soal dengan benar. L adalah jumlah peserta tes pada batas bawah yang menjawab soal dengan benar, N adalah banyaknya peserta pada batas serta batas bawah. Contoh: ujicoba tes prestasi dengan format pilihan ganda dan telah mengujicobakan pada sampel 400 siswa SMA. Setelah menghitung skor total setiap subjek kemudian pengembang tes menemukan 25% nilai tertinggi dan 25 % nilai terendah dari sampel. Karena terdapat 100 siswa pada setiap kelompok (25% dari 400), maka nilai N menjadi 100. Kemudian pengembang tes akan menentukan jumlah siswa yang berada pada batas dan batas bawah yang mampu menjawab dengan benar. Pada soal pertama terdapat 49 siswa pada batas yang mampu menjawab dengan benar, sementara 23 siswa pada batas bawah mampu menjawab dengan benar. Perhitungan soal diatas ini menggunakan rumus d= (U-L)/N jadi d= ( 49 -23)/100 atau 0, 26. Indeks deskriminasi soal dapat dilihat pada Tabel. 4. 7

Tabel 4. 7 Indeks Diskriminasi Soal untuk Enam Soal Hipotesis

6. MEREVISI TES Hampir tidak ada tes yang sempurna. Tes yang direvisi ini cenderung memiliki soal dengan daya deskriminasi tinggi yang memiliki reliabilitas dan akurasi prediktif yang lebih baik. Langkah selanjutnya dalam pengembangan tes adalah mengumpulkan data-data baru dari sampel ujicoba kedua. Jika hasil ujicoba menunjukan bahwa tes hanya tinggal memerlukan sedikit perubahan, pengembang tes dapat mengambil keputusan bahwa tes itu sudah memuaskan dan siap untuk cross-validational (validasi silang). Ø Validitas silang mengacu pada praktik penggunaan persamaan regresi ( yang digunakan sebelumnya) pada sampel baru untuk menentukan apakah tes tersebut memprediksi kriteria seperti ketika memprediksikannya pada sampel terdahulu. Ø Penyusutan validitas berupa temuan umum pada penelitian validitas silang adalah prediksi tes terhadap kriteria sampel baru ternyata tidak seakurat sampel ujicoba terdahulu. Contoh: preditor biografis atas potensi penjualan, dalam analisis berdasarkan sampel yang digunakan untuk pengembangan tes, tes prediktor yang didasarkan secara biologis berkorelasi 0, 6 namun ketika tes ini di uji cobakan pada sampel baru siswa yang juga mempelajari real estate, korelasi menurun menjadi 0, 4 yang menunujukkan adanya penyusutan validitas.

7. MEMPUBLIKASI TES � Pembuatan materi tes harus sesuai dengan pengguna tes jika tes tersebut ingin diterima oleh para psikolog dan pendidik. Sebagai contoh: jika instruksi pelaksanaan tes dapat dirangkum pada formulir tes, penguji dapat meletakkan panduan tes didekatnya sambil mengatur tugas untuk peserta tes. Tambahan lainnya yang dapat diberikan pada kemasan tes psikologi adalah stand-up ring binder, yang menampilkan pertanyaan tes pada sisi yang menghadap peserta tes dan sisi lainnya yang menghadap penguji sehingga penguji dapat memberikan instruksi pelaksanaan tes � Manual teknis dan manual untuk pengguna, dimana manual tes harus mampu menyampaikan informasi kepada berbagai kelompok dengan latar belakang dan pelatihan yang berbeda yang terdiri dari spesialis tes. Manual tes digunakan untuk berbagai tujuan dan pada akhirnya manual tes harus memberikan data tentang reliabilitas dan validitas yang esensial ketimbang meminta pengguna tes untuk melihat sumber lain.