Litt om testkonstruksjon

I rik­tig gam­le dager, sånn for ti år sida, ble det ofte sagt at å lage en god test tar ti år og en mil­lion kro­ner. Men det var da, det, og itte no. 

Når skårene på testen reg­nes ut, blir de vek­tet i forhold til et utvalg som alt har tatt testen. I rik­tig gam­le dager ble tester fylt ut med blyant på papir, og det å finne men­nesker til dette utval­get – gjerne kalt normer­ings­grup­pa –  krevde en sol­id porsjon fotarbeid. 

I våre dager bruk­er man nettet. 

Men, sier du, det er ikke til­feldig hvem som tar sånne tester på net­tet? Og det har du såk­lart rett i. Men det hjelper godt om svært mange ikke-til­feldige men­nesker tar testen. Utover dette finnes det såk­lart sta­tis­tiske metoder for å utjevne. Det er tilmed en egen viten­skap for å avdekke tullesvar. 

Men det som lig­ger til bunns er enten empirisk forskn­ing — alt­så at tes­re­sul­tatene veies opp mot et eller annet — som typisk er måten arbei­d­sp­sykol­o­giske tester lages. I sånne sam­men­henger er man ikke så inter­essert i å måle per­son­lighet ut fra Big 5, man er inter­essert i å finne egen­skaper som går direk­te på lev­er­ings­dyk­tighet i arbei­d­slivet. Men nå finnes det masse forskn­ing som vis­er sam­men­henger mel­lom de gode arbei­d­sp­sykol­o­giske testene og Big 5, så det å bruke Big 5‑test er ikke lenger så fjernt som det var – det krev­er bare at den som admin­istr­erer testen kan veldig mye.

Der­som alt man ønsker er å lage en test som måler Big 5, finnes det fer­di­ge sett med spørsmål på net­tet (Inter­na­tion­al Per­son­al­i­ty Item Pool), som kan over­settes. Man må likev­el teste ut spørsmå­lene for å sjekke om over­set­telsen er rik­tig. For tjue år siden oppdaget jeg f.eks. at orig­i­nal på engel­sk ikke med noen velvil­je betyr orig­i­nal på norsk. Oppfinn­som der­i­mot duger fint. 

Ca. halv­parten av spørsmå­lene skal være neg­a­tive. Man skal ikke bare spørre om ting du lik­er å gjøre, men også om ting du ikke lik­er å gjøre. Ellers blir resul­tatet skjevt. 

Dernest føl­ger sta­tis­tisk analyse av svarene, eller nærmere bestemt fak­tor­analyse (Hvis du er skikke­lig nerd insis­ter­er du på at prin­ci­pal com­po­nent analy­sis ikke egentlig er fak­tor­analyse. Det går bra, det. Du kan også beg­ynne å kverulere over at betingelsene for å gjøre fak­tor­analyse sjelden eller aldri er opp­fylt, men da er du statsviter eller sosialøkonom eller noe. Selv Microsoft Azure går med på at dataene mine er nor­mal­fordelte). I fak­tor­analy­sen finner man hvilke spørsmål som oftest blir besvart på samme måte. 

Det neste er å måle alpha-ver­di­en, som er i hvor stor grad det er intern kon­sis­tens i svarene. Hvis alpha-ver­di­en er veldig høy, kan man fjerne noen av spørsmå­lene, for­di de da spør om det samme. Er den veldig lav, er noen av spørsmå­lene dårlige, og er den neg­a­tiv, har du glemt å snu forteg­net på minst et av spørsmå­lene. Alpha skal være sånn passe høy, sånn at du vet at spørsmå­lene dreier seg om mye av det samme. Per­son­lighets­fak­torene er brede, har du for høy alpha, er du for spisset. 

Viten­skapen om testkon­struk­sjon er snart hun­dre år gam­mel. De første viten­skapelige artik­lene kom i mel­lomkrigsti­da, og drei­de seg i kan­skje i hov­ed­sak om å finne mening i data. De kan­skje vik­tig­ste artik­lene om validitet, alt­så om hvor­dan man finner ut om det man finner i testene har med virke­ligheten å gjøre, kom på slut­ten av femti­tal­let. Du kan fak­tisk gjøre en god jobb med å utvikle per­son­lighet­stester selv om du ikke kjen­ner sta­tis­tikk og metode etter 1957. 

Når det gjelder de teo­retiske mod­el­lene – alt­så kun­skap om det som skal måles i mot­set­ning til hvor­dan man måler det – kom det en inter­es­sant artikkel i så seint som i går. Hvor forskere som bruk­er metoder fra 1934 kri­tis­eres for å se bort fra metoder som ble utviklet i 1969.

Liked it? Take a sec­ond to sup­port Rolf Mar­vin Bøe Lind­gren on Patreon!