MAP, iReady, Star – deze tests om de paar maanden zijn enkele van de meest gebruikte hulpmiddelen in de schooldistricten van het land, voor een breed scala aan verschillende doeleinden.
Wanneer schoolleiders zeggen voorstander te zijn van ‘datagestuurde’ instructie, hebben ze het vaak over de gegevens van deze beoordelingen: sommigen gebruiken de tests om een idee te krijgen van hoe goed kinderen waarschijnlijk zullen scoren op eindejaarsexamens; sommige, om een subset van vaardigheden te achterhalen waar leerlingen mee worstelen en waaraan leraren prioriteit moeten geven bij het herhalen van lessen; weer anderen gebruiken ze om te peilen of een nieuw bijlesinitiatief werkt. (Of alle drie.)
Maar ondanks al hun intensieve gebruik, is er weinig externe evaluatie van hun technische eigenschappen, of hoe goed ze aansluiten bij het meest gebruikte curriculum. Bijna allemaal zijn ze eigendom van particuliere bedrijven.
Nu is een recente poging om onder de motorkap van deze tools te kijken, officieel bekend als ‘tussentijdse beoordelingen’, opgeschort nadat verschillende aanbieders van de tests zich niet wilden committeren aan deelname.
Curriculumreviewer EdReports, bekend om zijn beoordelingen van curriculumreeksen, richtte zich op het evalueren van tussentijdse beoordelingen, een project waar de groep in 2016 mee aan de slag ging.
Het proces dat EdReports ondernam, en de reactie van uitgevers, laten zien op welke manieren een belangrijk onderdeel van lesgeven en leren ondoorzichtig kan zijn voor scholen en de leraren die op de resultaten vertrouwen.
De inzet is nu nog hoger: veel districten gebruiken de gegevens van deze tests om beslissingen te nemen over het herstel van een pandemie.
“Districten vertrouwen nog meer op deze tussentijdse beoordelingsgegevens om echt te peilen wat er tijdens de pandemie is gebeurd”, zegt Eric Hirsch, de uitvoerend directeur van EdReports.
Wat tussentijdse beoordelingen meten
Omdat de meeste van deze tests geen externe evaluaties hebben om hun effectiviteit aan te tonen, wilde EdReports dit nader bekijken. Het was van plan om beoordelaars van docenten op te nemen – vergelijkbaar met de curriculumreviews – en feedback van testexperts door samenwerking met het Center for Assessment, een in New Hampshire gevestigde adviesgroep.
Maar in tegenstelling tot curriculumreviews, hadden de assessmentreviews de deelname van uitgevers nodig gehad om toegang te krijgen tot interne informatie over het ontwerp van assessments – deelname die EdReports grotendeels niet kreeg.
Ondanks de duidelijke waarde voor districtsleiders, is er weinig stimulans voor uitgevers om deel te nemen aan een dergelijke beoordeling, zei Gregory Cizek, een professor in educatieve meting en statistiek aan de University of North Carolina Chapel Hill.
‘Je moet een behoorlijk grote, goed gefinancierde uitgever zijn die er vrij zeker van is dat je er goed uit zult zien’, zei hij. “Omdat je niet wilt dat deze onafhankelijk gepubliceerde beoordelingen zeggen dat je test verschrikkelijk is.”
Een rimpeling betreft het brede scala aan tools die vallen onder de noemer tussentijdse beoordeling. Verschillende tussentijdse beoordelingen hebben verschillende doelen.
Sommigen beweren dat ze peilen hoe studenten het doen in een bepaald vakgebied, zoals wiskunde of wetenschappen, op een zodanige manier dat de prestaties van studenten op een summatieve beoordeling door de staat worden voorspeld.
Anderen zijn meer gericht op het verstrekken van informatie die het onderwijs rechtstreeks kan beïnvloeden. Deze beoordelingen kunnen de vaardigheid van studenten met specifieke vaardigheden evalueren – bijvoorbeeld gevoel voor getallen – zodat docenten of interventionisten zich op die vaardigheden met studenten kunnen concentreren, zei Erika Landl, een senior medewerker van het Center for Assessment die met EdReports werkte.
Een van de doelen van de EdReports-analyse was transparantie – om districtsleiders duidelijk te maken wat deze assessmentaanbieders beweerden te kunnen en wat niet.
“Ik denk dat er een zwarte doos is over: ‘Wat betekent dit en wat moet ik ermee doen?'”, zei Landl over tussentijdse beoordelingsgegevens.
Ze gaf een voorbeeld: naarmate studenten gedurende het schooljaar vorderen, zullen ze waarschijnlijk verbetering laten zien op een tussentijdse beoordeling die de prestaties op een summatieve toets aan het eind van het jaar voorspelt. Maar hoewel studenten groeien, zijn ze misschien nog niet voldoende gegroeid om het niveau ‘bekwaam’ te bereiken op die summatieve beoordeling – een onderscheid dat verwarrend kan zijn.
EdReports wilde ook bepalen of deze tests daadwerkelijk de dingen meten die ze beweerden te meten. Als een aanbieder van assessments zegt dat zijn test de prestaties op een eindejaarstest voorspelt, is dat dan ook zo? Als het bedrijf zegt dat het de vaardigheden kan lokaliseren die ervoor zorgden dat studenten het moeilijk hadden, kan het dan?
Een paar organisaties die dit soort analyses doen. Het Buros Centre for Testing aan de Universiteit van Nebraska-Lincoln heeft meer dan 2.800 commercieel verkrijgbare tests beoordeeld en hun beoordelingen kunnen worden gekocht. Maar veel tests zijn niet inbegrepen, zei Cizek.
“Ze hebben vaak moeite om enkele van de meest spraakmakende testprogramma’s te laten deelnemen. De SAT zit er bijvoorbeeld niet in. De NAEP staat er niet in, ‘zei hij, respectievelijk verwijzend naar de toelatingstests voor de universiteit en de federaal beheerde’ nationale rapportkaart ‘.
Ook beoordeelt het Landelijk Centrum Intensieve Interventie enkele tussentijdse beoordelingen op validiteit— dat ze meten wat ze zeggen te meten — en betrouwbaarheid: of de tool consistente resultaten oplevert. Maar net als bij de beoordelingen van Buros Center doet niet elke aanbieder van tussentijdse assessments mee.
Voor dat landschap zou de beoordeling van EdReports naast de evaluatie van psychometristen ook feedback van docenten hebben opgenomen. Net als bij het curriculum, zei Hirsch, is het belangrijk dat beoordelingen ook worden beoordeeld door “degenen die ze daadwerkelijk gebruiken” – en dat ze op een gebruiksvriendelijke manier worden verpakt.
“De meeste districten missen de capaciteit en de expertise om deze verschillende onderdelen samen te voegen, de technische handleidingen te interpreteren en deze in een gesynthetiseerd rapport te verwerken”, zei hij.
EdReports’ voorgestelde assessment ‘gateways’
Vergelijkbaar met hoe het curriculumreviews ontwerpt, was EdReports van plan om de assessmentreview rond verschillende categorieën of ‘gateways’ te organiseren.
De eerste beoordeelde afstemming op universiteits- en carrièrestandaarden, evenals toegankelijkheid.
Een tweede poort onderzocht de technische kwaliteit, gescoord door psychometrische experts van het Centrum voor Assessment. Deze vragen peilen of de tests daadwerkelijk meten wat ze beweren te meten.
De derde gateway zou de duidelijkheid en bruikbaarheid van scorerapporten hebben geëvalueerd, een taak die wordt uitgevoerd door zowel docenten als technische experts.
Het proces vroeg uitgevers om een schat aan informatie in te dienen, waarvan sommige eigendom waren: itemvoorbeelden, de algoritmen die adaptieve tests mogelijk maken, technische handleidingen en bewijsgidsen.
De vraag van bedrijven was “laat ons je werk zien”, zei Hirsch.
Het proces was “resource-intensief en zeker de moeite waard”, zegt Kristen Huff, de vice-president van beoordeling en onderzoek bij Curriculum Associates, die zich had aangemeld om deel uit te maken van de review voordat deze in mei werd ingediend. “Het dwong ons om al deze rijke beweegredenen die we in onze gedachten en in onze woorden hadden, op papier te zetten.”
Andere bedrijven waren echter terughoudender. NWEA, dat de reeks MAP-tests maakt, werd uitgenodigd om deel te nemen en weigerde. Het bedrijf weigerde commentaar te geven. Renaissance, een andere aanbieder van beoordelingen, had nog niet besloten of ze aan de beoordeling wilden deelnemen toen EdReports het proces onderbrak.
“Er zit waarde in dit specifieke type project omdat districten, staten en anderen erg geïnteresseerd zijn in hoe ze de ene assessment provider beoordelen ten opzichte van de andere. Dus ik denk dat het nuttig is om te kijken naar wat die beweringen zouden zijn en of aan die beweringen wordt voldaan”, zegt Darice Keating, de senior vice-president van regeringszaken bij Renaissance.
Maar andere bestaande processen verzamelen al veel van deze informatie, zoals verzoeken van de staat om voorstellen of het National Center on Intensive Intervention, merkte Andy Frost op, vice-president van assessmentproductmanagement bij Renaissance. En het is een “aanzienlijke” inspanning om alle informatie te verzamelen waar EdReports om vraagt, zei hij.
“Er zou zeker enig nut zijn. EdReports en het Centrum [are] geweldige organisaties’, zei hij. “Er zou absoluut enige toegevoegde waarde zijn. Ik denk dat de vraag is hoeveel en tegen welke prijs.”
Hirsch erkende dat het proces “zwaar” zou kunnen zijn.
“Ik wil op geen enkele manier beweren dat dit een gemakkelijk proces is voor een uitgever”, zei hij.
Het stokje doorgeven aan de districten
Cizek, de UNC Chapel Hill-professor, zei uiteindelijk dat het een zware strijd is om bedrijven te laten ondertekenen.
“Het is echt een verlies-verlies voor aanbieders van tussentijdse beoordelingen,” zei hij. Het bepalen van afstemming en validiteit kost tijd en geld. Na het zien van de beoordelingscriteria weten uitgevers misschien dat ze niet aan sommige vereisten voldoen, bijvoorbeeld rond toegankelijkheid, en vermijden ze daardoor het proces, zei hij.
“Als hun klanten tevreden zijn met hun product, waarom zouden ze dan de moeite nemen om deel te nemen aan dit gedoe?” hij vroeg.
Verschillende bedrijven die ervoor kozen niet deel te nemen aan de beoordelingen van EdReports, zeiden dat de criteria hun besluitvorming nog steeds hebben beïnvloed.
“We kijken naar die criteria terwijl we onze nieuwe assessments bouwen. Dat is groot”, zegt Laura Slover, de CEO van CenterPoint Education Solutions, een non-profitorganisatie die samenwerkt met districten om coherente instructiesystemen te ontwikkelen en evaluaties te maken. Ze noemde timing als reden waarom de organisatie niet meedeed.
“In zoverre denk ik dat EdReports al de impact begint te hebben, misschien indirect die ze hoopten te hebben,” zei Slover.
De tijd en moeite die EdReports en het Centrum voor Beoordeling in het project hebben gestoken, is ook niet verspild.
Landl en Susan Lyons, een hoofdadviseur voor Lyons Assessment Consulting, hebben onlangs richtlijnen vrijgegeven voor districtsleiders op basis van de criteria die de groep had opgesteld voor de EdReports-reviews. Het doel is om een versie van het beoordelingsproces te zijn dat districten kunnen gebruiken om hun besluitvorming te informeren, zelfs als ze geen toegang hebben tot testexperts, zei Landl.
De tool is een manier om het stokje door te geven aan districten. Hirsch zei: “en zeg: ‘Je kunt misschien niet alle vragen beantwoorden die we probeerden te beantwoorden. Maar misschien kun je er een paar beantwoorden.
Source link: https://www.edweek.org/teaching-learning/interim-tests-are-used-everywhere-are-they-good-measures-of-student-progress/2023/07