Podle vyjádření vedení Ministerstva školství, mládeže a tělovýchovy by mělo být v roce 2013 naostro spuštěno státem organizované plošné testování žáků 5. a 9. tříd. Tento záměr přinesl bouřlivou diskusi o možnostech a mezích takového opatření a o jeho možných negativních důsledcích.
Jak ukazují výzkumy, ředitelé, rodiče i široká veřejnost jsou v názoru na užitečnost plošného testování značně rozpolcení (viz např. dotazníkové šetření názorů ředitelů na centrální testování – Řízení školy č. 12/2010). Názory oscilují od obrovských očekávání (např. že plošné testování podstatně zvýší kvalitu vzdělávání) až po jednoznačné odmítání jakékoli formy testování. Cílem tohoto článku je vrátit se ke dvěma základním otázkám, bez jejichž zodpovězení není žádná racionální debata o testování možná:
1) Čeho se má centrálním testováním dosáhnout?
2) Jak s výsledky testování naložit, aby těchto cílů bylo
dosaženo?
První otázka se týká cílů testování, druhá pak jeho využití. Teprve dojde-li se k základní shodě v odpovědích na tyto otázky, může se smysluplně diskutovat o konkrétní podobě testování (např. o formě, obsahu a načasování testů).
PROČ JE TŘEBA DISKUTOVAT O CÍLECH A VYUŽITÍ TESTOVÁNÍ?
Jak uvádí u nás často citovaná publikace Celostátní testování žáků v Evropě (Eurydice 2009), ve školním roce 2008/09 se celostátní testy v povinném vzdělávání nepoužívaly pouze v České republice, Řecku, Walesu, Lichtenštejnsku a německy mluvící části Belgie. Tento fakt je často prezentován jako argument, proč je zavedení centrálního testování nezbytné.
Pokud se ovšem podíváme podrobněji na podobu testování v různých zemích, vidím, že způsoby a účely testování jsou velmi odlišné. Např. Finsko deklaruje jako hlavní cíle testování „monitoring dosahování cílů národního kurikula a naplňování rovnosti a spravedlnosti ve vzdělávání“. Testy nejsou plošné, ale jsou prováděny pouze na reprezentativním vzorku škol. Oproti tomu v Nizozemí je hlavním deklarovaným cílem získání informace o tom, jakých výsledků žák na konci primárního vzdělávání dosahuje (okolo 12. roku věku) pro účely rozdělení žáků do škol na sekundární úrovni. V Anglii je zase testování úzce spojováno s cílem hodnotit kvalitu jednotlivých škol a zvyšovat jejich odpovědnost a efektivitu. Testy jsou povinné pro všechny žáky škol zřizovaných státem a probíhají již ve 2. a 6. ročníku.
Pod nálepkou „celostátního testování“ se tedy skrývá velmi různorodý soubor různých forem testování, které plní různou funkci. Zjednodušeně řečeno, na jedné straně lze testování využít „pouze“ jako informační nástroj pro žáky, školy i tvůrce vzdělávací politiky, na straně druhé lze testování využít pro bezprostřední rozhodování o žácích či školách (v případě žáků především pro rozhodování o jejich další vzdělávací dráze, v případě škol zejména o výši přidělených finančních prostředků či zachování/zrušení školy).
Cíle testování mají zásadní důsledky pro zvolení optimální formy testování. Roli zde hraje nejen to, nakolik daná forma testování odpovídá danému účelu, ale také nakolik je ekonomicky efektivní a administrativně proveditelná. Je potřeba si uvědomit, že testování není vůbec levné a jednoduché na organizaci, a že prostředky do něj investované mohou být využity jiným způsobem.
Provázanost cílů s jejich formou ukážu na příkladu dvou možných cílů (aniž bych tyto cíle samotné nějak hodnotil). Pokud jde především o monitorování výsledků celého vzdělávacího systému a jejich vývoj v čase, jeví se zpravidla jako nejvhodnější a ekonomicky nejefektivnější zvolit reprezentativní výběrové šetření namísto plošného šetření všech škol. Takové šetření, při dobrém metodologickém zvládnutí, je s to poskytnout prakticky totožné informace o trendech ve znalostech žáků jako centrální testování, a to s ušetřením velkého množství času jak žáků, tak učitelů a ředitelů škol. Pokud je naopak cílem vytvářet „žebříčky“ škol anebo jakkoli školy hodnotit na základě výsledků žáků v centrálních testech, je nezbytné vytvořit velmi precizní způsob měření, který bude s to nějakým způsobem korigovat odlišnost žáků v jednotlivých školách. Jednou z možností je např. zjišťování socioekonomického zázemí žáků, anebo měření výsledků jednotlivých žáků před nástupem do školy, respektive na jejím počátku (tedy zjišťování tzv. přidané hodnoty).
Stanovení cílů a využití je ovšem důležité i z dalších důvodů. Pokud předem nedojde alespoň k základní shodě na tom, čeho se má testováním dosáhnout, dojde při jeho zavádění ke značným problémům. Zkušenosti se zaváděním vzdělávacích reforem ukazují, že nejasná či vágní očekávání na začátku realizace jakýchkoli opatření takřka s jistotou vedou k rozčarování, kdy nikdo není plně spokojen a žádného z očekávaných cílů není dosaženo. V tomto ohledu bychom se měli poučit z realizace státních maturit, kde se jasně ukázalo, že pokud není předem jasně stanovený účel takového zásadního opatření, dochází při jeho realizaci k mnoha těžko odůvodnitelným krokům. V případě maturit šlo zejména o vytvoření lehčí a těžší verze testu bez možnosti vzájemného přepočítání. Nelze totiž říci, kdo dosáhl v maturitě lepšího výsledku, zdali ten, kdo dosáhl v těžší verzi např. 50 percentilu, anebo ten, kdo dosáhl v jednodušší verzi např. 80 percentilu. To znemožnilo vzájemnou srovnatelnost zkoušky – jeden z často uváděných argumentů potřebnosti státní maturity.
Co je ovšem ještě důležitější, využívání jednoho testu pro několik účelů najednou není většinou možné, protože různé podoby testování poskytují jinou formu informace. Z tohoto důvodu musí vypadat jinak testování např. pro diagnostiku žáků se speciálními potřebami, jinak pro monitorování systému v čase a ještě jinak pro diferenciaci žáků. Pokušení využívat výsledky testů k jiným účelům, než bylo původně stanoveno, je přitom velmi vysoké. Zde se opět můžeme poučit z příkladu státních maturit: přestože oficiálním cílem maturit nikdy nebylo srovnávat školy a vytvářet žebříčky, přesto k takovému srovnání došlo (byť zatím jen těch s „nejlepšími“ výsledky), přičemž školy s nejlepšími výsledky u maturitní zkoušky byly prohlášeny za nejkvalitnější. Jde přitom o typický příklad špatného využití informací, původně vzniklých za jiným účelem. Bez dalších informací o povaze žáků, kteří na škole studují (zejména o jejich znalostech, když do školy vstupovali) totiž není vůbec možné se o srovnání kvality škol byť jen pokusit (to, že i tak je takové srovnání velmi problematické, ponechávám nyní stranou). Ať již tedy zastáváme jakýkoli postoj k testování, měli bychom se ze státních maturit poučit v tom, že cíle testování je třeba explicitně a konzistentně formulovat
a pak se jich při realizaci striktně držet.
K čemu tedy je, nebo může být, centrální testování dobré? Jaký je možný účel a smysl testování? V diskusích se často setkáme s následujícími či obdobnými tvrzeními: „půjde o zpětnou vazbu školám“, „zjistíme, jak na tom opravdu jsme“, „pomůže nám to v rozhodování“ nebo „žáci a školy se budou chovat odpovědněji“. To jsou ovšem spíše než opravdové argumenty pro či proti testování nic neříkající obecná klišé. Pokusme se dostat trochu pod povrch těchto tvrzení. Pro to je třeba položit si dvě otázky, které spolu sice souvisejí, ale neměly by se míchat dohromady:
1) Čeho se má centrálním testováním dosáhnout?
2) Jak prostřednictvím testování daných cílů dosáhnout?
Zatímco první otázka se zabývá cíli testování (proč a k čemu testování vůbec zavádíme a jakých efektů by jeho prostřednictvím mělo být dosaženo), druhá otázka se zabývá využitím testování (jakými prostředky toho má být dosaženo).
CÍLE CENTRÁLNÍHO TESTOVÁNÍ
Jaké jsou legitimní cíle centrálního testování? Na úvod je třeba říci, že zavedení centrálního testování není a nemůže být cílem samo o sobě. Tvrzení, že bychom „měli zavést centrální testování, protože to existuje ve vyspělých zemích“ není obhajitelným argumentem. Primárním cílem vzdělávání totiž jistě není testovat a hodnotit žáky, ale v maximální možné míře rozvinout jejich schopnosti a rozšířit jejich znalosti. Testování je vždy „pouze“ jedním z nástrojů, jehož prostřednictvím toho má být dosaženo – byť jde jistě o nástroj důležitý.
Testování má pomoci v naplňování jednoho ze dvou základních cílů každé vzdělávací politiky:
1) zvýšit kvalitu vzdělávání,
2) snížit sociální nerovnosti v přístupu ke vzdělávání.
Přitom je zajímavé, že první cíl se v souvislosti s testováním objevuje mnohem častěji než druhý. Není náhodou, že státy zpravidla centrální testování zavádějí nebo prohlubují ve chvílích, kdy se zdá, že s poskytováním vzdělávání je „něco v nepořádku“ (např. nedostatečné výsledky v mezinárodních šetřeních jako je PISA). Podstatně méně je centrální testování spojováno s cílem redukce nerovného přístupu ke vzdělání. Každopádně platí, že zavádění centrálního testování (ostatně jako zavádění jakéhokoli opatření) by mělo být předem doprovázeno jasným stanovením cílů, nejlépe dovedených až do konkrétní a měřitelné podoby. Jedině tak lze říci, nakolik se zavedením daného nástroje souhlasíme. Jedině tak lze diskutovat, zda je nabízený nástroj (tedy centrální testování) opravdu nejlepším prostředkem k dosažení těchto cílů. Jedině tak budeme vědět, jakým způsobem má být dané opatření zaváděno a jak vyhodnocovat, nakolik bylo jeho zavedení úspěšné.
V realitě je samozřejmě formulace cílů velmi obtížná – zpravidla existuje několik různých cílů, navíc formulovaných na různé úrovni obecnosti. Z tohoto důvodu se často vytváří hierarchie cílů, kde nejobecnější cíle jsou konkretizovány v dílčích a konkrétních cílech. Jeden z obecných cílů sice může být formulován jako „zlepšit znalosti a dovednosti žáků v matematice“, pro účely testování je ovšem potřeba takové cíle podstatně více specifikovat. V čem konkrétně se mají žáci zlepšit? Do jaké hloubky? Tím, jak se cíle konkretizují, se otevřou vždy nikdy nekončící debaty o tom, co konkrétně od žáků očekáváme. To ovšem neznamená, že jde o otázky nesmyslné. Bez jasné formulace očekávaných vzdělávacích výstupů nelze smysluplně testovat – proto je všude ve světě testování propojeno s nějakou formou standardů.
Diskuse o cílech a standardech přitom vede k ještě jedné důležité věci. Ukazuje totiž, že mnoho z toho, co je považováno za legitimní a velmi důležité cíle vzdělávaní (namátkou jmenujme třeba schopnost kritického myšlení, tvořivost, sociální kompetence nebo občanskou angažovanost) žádnými centrálními testy měřit nelze. Z toho vyplývá, že pokud nechceme redukovat cíle vzdělávání na to, co lze měřit testem, musí být centrální testování vždy pouze jedním z nástrojů vzdělávací politiky na zvýšení kvality. Naplnění dalších cílů vzdělávání musí být stimulováno prostřednictvím jiných nástrojů.
VYUŽITÍ CENTRÁLNÍHO TESTOVÁNÍ
Jakým způsobem centrálního testování využít, aby skutečně vedlo ke stanoveným cílům, tedy zejména ke zvýšení kvality vzdělávacího procesu a snížení vzdělávacích nerovností? Jak už jsem zmínil, centrální testování lze užívat velmi odlišným způsobem. Je užitečné vytvořit si klasifikaci různého využití výsledků centrálních testů. Využití centrálního testování žáků lze rozdělit na základě tří kritérií:
1) Podle toho, kdo je posuzován a ke komu jsou výsledky žáků „vztaženy“.
2) Podle míry závažnosti důsledků testů pro posuzovaného.
3) Podle toho, kdo dané výsledky využívá.
Za prvé, ačkoli se zde zabývám pouze hodnocením výsledků žáka (a nikoli např. různými formami hodnocení školy nebo učitelů), i výsledky žáků jsou často vztaženy k hodnocení jiné skupiny, než jsou žáci samotní. Tak jsou výsledky žáků užívány k hodnocení učitelů, škol, krajů či celého vzdělávacího systému. Jinak řečeno, prostřednictvím posouzení žáka se někdy posuzují i jiné součásti vzdělávacího procesu než žák samotný. Toto vztažení výsledků žáků na výsledky někoho jiného se ukázalo jako problematické, a to zejména pokud jde o vztažení
výsledků žáků na hodnocení učitele. Přesto se s těmito úvahami stále setkáváme, a proto je třeba brát toto využití v potaz. Naopak vztažení výsledků žáků k hodnocení vzdělávacího systému jako celku a jeho vývoje v čase se zdá být legitimní a užitečné.
Za druhé, jak už jsem naznačil, využití vzdělávacích výsledků v testech lze odlišit i podle toho, jaké mají pro posuzovaného (většinou žáka, příp. školy) důsledky. V této souvislosti se hovoří o testování se závažnými důsledky (v angličtině „high-stakes testing“) a testování s malými nebo žádnými důsledky pro posuzovaného (v angličtině „low-stakes testing“). Např. ve francouzsky mluvící části Belgie jsou výsledky centrálních testů na konci primární úrovně jediným určujícím kritériem postupu do sekundárního vzdělávání. V Polsku se zase výsledky
testů užívají k diferenciaci žáků do různých typů škol s tím, že žáci se špatnými výsledky jsou nasměrováni do odborného vzdělávání. V obou případech jde tedy o testování se závažnými důsledky.
Třetím kritériem, které lze využít pro klasifikaci využití výsledků je, kdo tyto výsledky primárně využívá (např. rodiče, žáci, učitelé, školská správa). Přestože jde o velmi důležitý aspekt, vzhledem k tomu, že často jsou výsledky užívány současně žákem, rodiči, učiteli a školskou správou, není tento aspekt úplně vhodný pro vytváření klasifikací – jednotlivé kategorie se totiž značně překrývají.
Na základě toho, kdo je posuzován a jaké to má pro něj dopady, pak lze vytvořit klasifikaci využití, zachycenou v tabulce 1. V tabulce 1 jsou zachycena různá možná využití, se kterými se lze v realitě, anebo v diskusích o testování, setkat. Ani tento seznam není úplný a pravděpodobně lze nalézt i některé další možné způsoby využití výsledků testování. Za zmínku stojí fakt, že na rozdíl od žáka, učitelů a školy, centrální testování, pokud je mi známo, nikde není spojeno s bezprostředními důsledky pro tvůrce a realizátory vzdělávací politiky (např. že by mohl být úředník odpovědný za kvalitu školství v určitém kraji odvolán na základě zhoršujících se výsledků škol v daném kraji). I to může být jednou z příčin faktu, že politici a úředníci jsou často největšími zastánci zavedení testování.
Tabulka 1. Možnosti využití centrálního testování v povinném vzdělávání
|
Jaké jsou důsledky pro posuzovaného |
|
Kdo (co) se posuzuje: |
„Low-stakes“ |
„High-stakes“ |
Žák/student |
|
|
Učitel |
|
|
Škola |
|
|
Kraj (a zprostředkovaně ti, kdo jsou za vzdělávací politiku krajů zodpovědní) |
|
|
Celý vzdělávací systém (a zprostředkovaně ti, kdo jsou za vzdělávací politiku státu zodpovědní) |
|
|
Pramen: Autor
ZÁVĚRY
V poslední době jsme často svědky zjednodušené diskuse o tom, zda „testovat či netestovat“. To je ovšem špatně položená otázka, na kterou nelze odpovědět, pokud není jasně řečeno, k čemu bude testování využito a jak bude konkrétně probíhat. Přitom platí, že každý cíl vyžaduje specifickou formu testování a že je zpravidla velmi neefektivní (někdy dokonce až nebezpečné), pokud chceme, aby testování bylo „sluhou více pánů“. Cílem tohoto článku není říci, jaké cíle a využití testování jsou správné. To je otázkou politického rozhodnutí s přihlédnutím k výzkumným poznatkům o efektech různých forem testování. Mým cílem bylo ukázat, jak bychom měli o tomto opatření uvažovat a diskutovat.
Bohužel pro diskuse o testování je zatím stále typické, že jsou příliš obecné („poskytneme zpětnou vazbu školám“) anebo naopak příliš konkrétní (jaký konkrétní obsah vzdělávání a kdy by se měl testovat). V diskusích se zcela opomíjí otázky jako: Může centrální testování nějak pomoci ředitelům škol? Jakou novou informaci pro ně poskytne nad rámec dnes již běžně prováděných externích testů? Jak mohou být výsledky centrálních testů využity pro interní hodnocení škol a jejich zlepšování? Je mimo jiné také na ředitelích škol, učitelích a dalších pracovnících ve školství, aby se vyjádřili k tomu, kterou formu centrálního testování (pokud nějakou) považují za užitečnou a jak konkrétně by jim pomohla v jejich práci.
V diskusích o cílích a využití testování bychom se měli inspirovat také zahraničními zkušenostmi. Ačkoli to není předmětem tohoto článku a vyžádalo by si to podrobnější rozbor, připomeňme, že očekávání vkládaná do „high-stakes“ testování se v zahraničí nenaplnila. Bezprostřední propojení testování s rozhodováním zpravidla vedlo k mnoha nezamýšleným důsledkům – redukci obsahu vzdělávání na „testovatelné“ položky, nepřiměřenému stresu žáků, a dokonce přímo k podvádění při testování. Silná negativní reakce odborníků na zavedení „high-stakes“ testování vedla ke změně postojů MŠMT o využití výsledků testování. Jestliže ještě před rokem měly být školy s dobrými výsledky finančně oceněny, dnes se již prý žádné sestavování žebříčků nechystá.
Každopádně pokud by skutečně došlo k rozhodnutí, přes všechny možné negativní důsledky, že centrální testování má mít podobu „high-stakes“, je nezbytné toto stanovit předem a provést testování absolutně profesionálně a metodologicky rigorózně. Připomínám, že každé testování je zatíženo poměrně velkou chybou měření, danou mimo jiné tím, že během relativně krátkého času je potřeba otestovat velké penzum znalostí a dovedností. To neznamená, že testování pro účely monitoringu systému je jednoduché – samozřejmě i to musí být provedeno maximálně rigorózně.
Nicméně riziko špatného zobecnění na celý systém je při dobrém výběrovém vzorku mnohem menší než při zobecnění na jednotlivou školu. Cíle, využití a forma testování tak musejí být v souladu. Nelze připravit testování s cílem monitoringu a následně ho využít pro hodnocení kvality škol. To by mělo závažné důsledky nejen pro žáky a školy, ale nakonec i pro celý vzdělávací systém v České republice. Jak jsme viděli v případě státních maturit, pokušení užívat data k úplně jiným cílům, než ke kterým byla sebrána, je opravdu vysoké. Proto je třeba maximálně přesně předem vymezit cíle a využití testování a pokud možno toto ukotvit i v legislativě.