← Komentáře

K (ne)objektivitě a (ne)spravedlivosti hodnocení slohových prací z ČJ při maturitách – Aneb na co by taky měl odpovědět procesní audit maturit

12. 6. 2012

EDUin

Dlouho jsem váhal, zda se vyjádřit k maturitám a probíhající diskusi o hodnocení (především slohových prací). Sic jsem si říkal, že o hodnocení a testování něco málo vím, ale na druhou stranu zase vím, čemu všemu ještě v testování nerozumím a s čím nemám praktickou zkušenost. Stejně tak jsem si vědom toho, že konkrétní podobu hodnocení slohových prací CERMATem v rámci maturitní zkoušky detailně neznám a tak je obtížné se k němu „odborně“ vyjádřit.

Smršť mediálních vyjádření a protichůdných názorů z různých stran mě však utvrdila v tom, že můj ostych není namístě, neb se k problematice hodnocení vyjadřuje nyní v podstatě kdokoliv a každý názor je brán jako odborný, jak to ostatně ve školství často bývá. Stejně tak jsem usoudil, že není mou chybou, že neznám detailně metodiku hodnocení slohových prací studentů, ale je chybou CERMATu, že o něm dostatečně neinformoval a celý proces hodnocení není detailně zveřejněn a popsán (část informací lze najít zde = http://www.novamaturita.cz/upravy-v-metodice-hodnoceni-pisemnych-praci-z-ceskeho-jazyka-a-literatury-1404035568.html ).

Pokusím se tedy stručně odpovědět na několik otázek, které mě při pročítání diskuse napadají.

Má být slohová práce součástí maturitní zkoušky z českého jazyka?

Rozhodně ano. Když jsme sami ve výzkumném týmu stáli před rozhodnutím, co testovat u žáků v rámci českého jazyka, shodli jsme se všichni na důležitosti čtenářské gramotnosti, jak ji zjišťují mezinárodní výzkumy (PISA, PIRLS aj.). Zároveň jsme si uvědomili, že součástí školní výuky mateřského jazyka ale není jen čtenářská gramotnost (a leckde je možná mnohem méně zastoupena než bychom si přáli) a tak je zapotřebí testovat i „jazykovou část“ výuky mateřského jazyka, kterou mezinárodní výzkumy nepokrývají. Sdíleli jsme přesvědčení, že to, jak se žáci umějí vyjadřovat (nejen písemně) je jistě užitečný cíl vzdělávání (nejen) mateřského jazyka. Přestože schopnost komunikace a vyjadřování žáků nezahrnuje pouze písemné vyjadřování, tato forma je dobře testovatelná a taky se běžně vyskytuje i v zahraničí jako součást maturitní zkoušky z mateřského jazyka, či dokonce součást přijímací zkoušky na vyšší stupně škol (například při přijímání na prestižní univerzity v USA). Z toho, co je možné testy ověřovat (slohová práce je v angličtině označována jako essay test, tedy je to taky test), nabízí právě slohová práce zjišťovat komplexnější dovednosti studentů, a proto se domnívám, že by bylo nežádoucí opustit od slohovek jako součásti maturitní zkoušky.

Je možné hodnotit slohové práce objektivně?

Ano je, možná přesněji vyjádřeno je možné dostat subjektivitu na žádoucí minimální úroveň a zajistit srovnatelnost hodnocení jednotlivých prací. Vyskytly se rozsáhlé diskuse o tom, že slohová práce je něco, co přece nelze centrálně posoudit, kde nelze výsledek převést na jednu škálu či počet bodů. S těmito názory rozhodně nesouhlasím. Jak jsem již napsal výše, slohová práce je test (essay test) a zkušeností s jeho hodnocením jsou rozsáhlé (nikoliv však zatím v Česku). Slohové práce tedy objektivně hodnotit lze. Jedná se o tzv. kriteriální hodnocení, kdy je výkon rozpracovaný na jednotlivá kritéria (a ta jsou případně rozvedena do indikátorů) a podle nich je práce hodnocena. Otázkou však je, zda hodnocení slohové práce, jak bylo nastaveno v případě maturitní zkoušky z českého jazyka CERMATem, bylo objektivní, nebo bylo spravedlivé (férové). Tomu se věnuji v dalších otázkách.

Jaké vlastnosti musí mít objektivní hodnocení slohové práce?

1. Musejí být jasně stanovená kritéria hodnocení.

2. Hodnotitelé musejí být zaškolení do hodnocení dle těchto kritérií, musejí jim stejně rozumět, což se zajistí školením a praktickým výcvikem hodnocením řady slohových prací z minulých let a cílem je sjednotit „přísnost“ hodnotitelů (CERMAT hovoří o „kalibraci“ hodnotitelů). Samotnému školení samozřejmě předchází taky výběr vhodných hodnotitelů a i u vybraných hodnotitelů by neustále mělo docházet ke kontrole jejich práce (asi tak, jako si sociologické agentury cvičí lidi, kteří jim pořizují data přepisem z papírových dotazníků do elektronické podoby, ale přitom i u těch vybraných kontrolují stále znovu jejich případnou chybovost).

3. I přes kalibraci hodnotitelů je zvykem, že jsou práce posuzovány vždy (pokud je mi známo) nezávisle dvěma hodnotiteli. To je další krok jak omezit subjektivitu.

I tak však platí, že i při dodržení všech pravidel může dojít v jednotlivých případech k nesprávnému ohodnocení jednotlivých žáků, ale z celkové kohorty jde o malý podíl žáků a k nápravě by měl sloužit institut odvolání se proti výsledku a možnost podání rozkladu.

Kde mohla nastat chyba v hodnocení slohových prací CERMATEM?

Z výše uvedených vlastností možná došlo k nedotažení v bodu 1 a k pochybení v bodu 3 (viz odpověď výše). Ke školení hodnotitelů (bod 2 výše) se nemohu vyjádřit vůbec, neb jsem jím neprošel.

ad 1) V otázce kritérií je třeba si ujasnit, která kritéria je dobré volit a jakou váhu jim přisoudit. Z diskuse v médiích, jsem pochytil, že jako velký problém bylo vnímáno, že jinak výborní žáci dostali za originální esej (resp. slohovku) nedostatečnou, protože nedodrželi slohový útvar, případně nedodrželi zadané téma. Pokud bylo skutečně nastaveno kritérium, že nedodržení slohového útvaru nebo nedodržení tématu slohové práce = nesložení zkoušky a nic dalšího se nehodnotí, je na místě otázka, zda je takto přísné hodnocení nastaveno správně. Určitě najdeme obhájce i odpůrce takovéto přísnosti. Volba kritérií hodnocení písemné práce by tedy měla být podrobena odborné diskusi, což pomůže nejen zlepšit hodnocení, ale také zvýší obeznámenost všech aktérů s hodnocením (včetně učitelů a maturantů) a v neposlední řadě to může přispět ke kultivaci hodnocení slohovek i ve školách (nejen na závěr v rámci maturit).

Jen dodám, že tvůrci hodnocení slohovek na NÚCEMu (obdoba CERMATu na Slovensku) nastavili kritéria jiná a záměrně je nastavili tak, aby nedodržení tématu nebo útvaru neznamenalo pro žáka konečnou. I když žák nedodrží útvar, jsou hodnoceny jiné složky slohové práce (kritéria zde http://www.nucem.sk/documents//25/maturita_2012/organizacne_pokyny_a_sprievodna_dokumentacia/Kriteria_na_hodnotenie_PFIC_MS__VUJ_2012_final.pdf), včetně pravopisu, a dle nastavení bodů v podstatě nenastane situace, aby žák při nedodržení zadaného slohového útvaru neprošel (minimálních 25 % bodů dosáhne vždy). Nedávám zde Slovenskou maturitu za vzor, jen ji uvádím jako příklad, kde se rozhodli méně přísně (je korektní taky zdůraznit, že na Slovensku není hodnocení slohových prací centralizované, ale je součástí interní- školní části maturitní zkoušky, byť jsou pro ni vytvořena jednotná kritéria). Inspirace a porovnání můžeme hledat nejen na Slovensku, ale i dále od nás, kde má testování větší tradici.

ad 3) Základním prvkem objektivity je hodnocení dvěma hodnotiteli, které zajišťuje srovnání. Zaznamenal jsem, že CERMAT původně plánoval hodnocení každé slohové práce dvěma nezávislými hodnotiteli, nicméně za ministrování Josefa Dobeše došlo k rozhodnutí ušetřit (asi 8 mil. Kč při ročních nákladech na maturitu cca 230 mil. Kč?) tím, že práci bude hodnotit pouze jeden hodnotitel. Přičemž právě shoda hodnotitelů (tzv. inter-rater reliability) je nejčastějším opatřením či požadovaným standardem k zajištění objektivity hodnocení slohových prací, ale také třeba otevřených úloh v testu.

I na Slovensku, kde hodnocení probíhá na úrovni školy, hodnotí každou práci dva učitelé nezávisle a pokud se jejich hodnocení výrazněji liší, sejdou se a snaží se dojít ke shodě, jak správně studenta ohodnotit a zdůvodňují si, proč dal někdo více a druhý méně bodů v tom kterém kritériu.

Před mnoha lety jsem prošel školením na hodnocení slohovek/esejů (essay tests), jak je provádí asi největší a neprestižnější testovací společnost na světě Education Testing Service v rámci známých testů SAT (pro přijímání studentů na většinu amerických vysokých škol). Testy byly hodnoceny dvěma nezávislými hodnotiteli, v té době na škále 0 – 7 bodů. Pokud se hodnocení obou hodnotitelů lišilo o maximálně 1 bod, pak byl výsledkem studenta součet bodů (např. jeden hodnotitel dá 4 body a druhý 5 bodů, pak je výsledné skóre studenta 9 bodů ze 14 možných). V případě, že se hodnocení lišilo o více než jeden bod, pak byla práce postoupena třetímu hodnotiteli a následně výsledkem studenta byl součet dvou nejbližších hodnot (při hodnoceních 4, 5 a 7 bodů tedy výsledek 9 bodů; případně při větším nesouhlasu průměr tří hodnocení – hodnocení 3, 5 a 7 bodů = průměr 5 * 2 hodnotitelé = pak je to 10 bodů). Možná že slovenská „lidská“ cesta domluvy hodnotitelů se nám zdá lepší, byť při centralizovaném hodnocení není vždy snadné ji zajistit. Možná, že už i ETS systém hodnocení esejů změnilo (školením jsem prošel před asi 10 lety). Každopádně princip, že práce je hodnocena dvěma nezávislými hodnotiteli zůstala zachována.

Musíme se tedy ptát, jak byla shoda hodnotitelů zajištěna v CERMATu. Dočetl jsem se o hierarchickém systému hodnotitelů, o porovnávání hodnocení s normálním rozdělením („gaussovkou“) a snahou vyhlazovat hodnocení na hraniční hodnotě mezi 11 a 12 body (tzv. cut-off skóru), která rozlišovala mezi nedostatečnou a čtyřkou ze slohu. V médiích se objevila informace, že na této hranici se hodnotitelé častěji rozhodovali pro udělení 12 bodů s vědomím toho, že o bod méně již znamená neudělat maturitu. Dle některých vyjádření v médiích tak byly tyto práce hodnotitelům vraceny s tím, aby své rozhodnutí (možná měkké) přehodnotili. CERMAT se proti těmto nařčením ohrazuje, ale nikde jsem nenašel pospaný systém toho, jak bude kontrola hodnocení probíhat, jak se zapojí na hranici kolem cut-off skóru do procesu další hodnotitelé a podle čeho budou rozhodovat. Celý systém hodnocení by měl být tedy rovněž podroben analýze v rámci procesního auditu. Zde je tedy mnoho otazníků a navíc i kritika od některých „insiderů“ naznačuje, že je třeba mnohé vyjasňovat. Nelze se spokojit s tím, že to CERMAT asi dělá dobře, zvláště ve chvíli, kdy panuje velká nedůvěra k testování obecně i k práci CERMATu konkrétně. Nejde ani o nedůvěru v konkrétní hodnotitele, jejichž zkušenost z hodnocení tak velkého množství prací je jistě nenahraditelná. Jde jen o systémové nastavení. Přes sebelepší kalibraci hodnotitelů a jejich nesporné kvality, i v jiných zemích dodržují pravidlo dvou nezávislých hodnocení, aby bylo hodnocení objektivnější. Je to požadovaný standard, nikoliv nedůvěra v hodnotitele.

Míč je tedy na straně MŠMT a CERMATu, aby celý systém dobře popsali, zveřejnili jej a aby prošel odbornou oponenturou. Zde lze jen pochválit rozvážný přístup pana ministra Fialy, který požaduje nejen finanční audit (těch už ostatně bylo několik, včetně kontroly NKÚ), ale také audit procesní, a já bych dodal odborný. Audit toho, jak je celé testování nastaveno, jak je nastavena příprava a pilotáž testů i dalších zadání, jak jsou nastavena kritéria hodnocení a v neposlední řadě, jaká je výsledná kvalita testů (nejsem si vědom, že by byly zveřejněny základní charakteristiky testů a úloh, jejich psychometrické vlastnosti, což je standardem po každém testování, dokonce i v rozvojových zemích!)

A co musí být zajištěno, aby hodnocení slohové práce bylo spravedlivé (férové)?

Stejně jako u každého kriteriálního hodnocení musejí být kritéria dobře známa předem. V tak citlivé záležitosti, jako je rozhodnutí o tom, že dobrý student neudělá maturitu proto, že podcenil význam kritéria dodržení slohového útvaru, je otázkou, zda studenti byli včas seznámeni s kritérii hodnocení (nejen) slohové práce. Nejen s katalogy požadavků, ale také s kritérii hodnocení. A pokud nebyli, pak je otázka, kdo zde něco zanedbal. I na to by měl procesní audit odpovědět. Pravidla hry mají být známa předem, pokud se je někdo dozví až v průběhu hry, nebo dokonce je vyloučen ze soutěže dodatečně, nelze se divit, že nepovažuje celou soutěž za „férovou“.

Poučení z minulých nezdarů

Toto bylo jen několik otázek, které se vztahují k probíhající diskusi. Samozřejmě jsme si tyto otázky měli klást již při startu celé maturity a ne až nyní. A měly být někde sepsány odpovědi na otázky mnohem zásadnější:

K čemu má maturita sloužit, jaké cíle má plnit? Až si na tuto otázku odpovíme, můžeme se dále ptát, zda současný model maturity umožňuje tyto cíle efektivně naplnit nebo zda by byl vhodný model jiný. Naopak dále konkrétněji ke slohovým pracím se můžeme ptát, zda je lepší, když budou slohové práce vyhodnocovány centrálně nebo na úrovni jednotlivých škol? To je ale zase otázka poměrně rozsáhlá, každé z řešení má svá pro a proti. Možná se i k těmto otázkám na blogu postupně vyjádřím, ale odpovědi bychom měli očekávat především od MŠMT a CERMATu.

Jednou z velkých chyb mediální komunikace ex-ředitele Zeleného, byla tendence říkat: „Věřte nám, my jsme odborníci“. Nyní je před CERMATem nové období, kdy je již jasné, že velké důvěře se těšit nemůže, a proto musí informovat a vysvětlovat.

Ideální by bylo, kdyby měl CERMAT nad sebou nějaký odborný orgán (lidi, kteří testování skutečně rozumí), který by prováděl procesní audit v průběhu. Neměly by hlídat jen CERMAT, ale také varovat i před neuvážlivými rozhodnutími politiků (např. rozhodnutí škrtnout jednoho hodnotitele z procesu). Zároveň by tento orgán mohl pomoci samotnému CERMATu, který si stěžuje na neustálou změnu podmínek pro konání maturitní zkoušky ze strany politiků. Zde je třeba si uvědomit, že procesy tvorby testů apod. jsou plánovány s předstihem 1 až 2 let a časté změny nemohou být implementovány okamžitě, ale až s nějakým časovým odstupem. Dnes je toho k vyjasňování najednou prostě moc. Doufejme, že mnoho z těchto otázek i mnoho dalších pomůže procesní audit vyjasnit. Doufejme také, že slibovaný procesní audit bude veřejně dostupný a nebude jen konstatováno, jak dopadl 😉 Znovu získat ztracenou důvěru je nelehká úloha a jakákoliv další chyba může znamenat nejen konec maturity či testování, ale další hazard s důvěrou veřejnosti ve státní instituce. V oblasti školství je navíc reputace centrálních orgánů a důvěra v jejich schopnosti pomáhat českému školství a účinně podporovat rozvoj vzdělávání nahlodána patrně mnohem více, než je tomu v jiných rezortech. O to větší je to výzva i pro nového ministra školství, jehož první kroky vzbuzují u řady lidí naději k pozitivnímu obratu.

Autor článku:

EDUin

Našli jste v článku chybu? Napište nám, prosím, na korektor@eduin.cz.

Mohlo by Vás zajímat

Listovat všemi články

K (ne)objektivitě a (ne)spravedlivosti hodnocení slohových prací z ČJ při maturitách – Aneb na co by taky měl odpovědět procesní audit maturit

Mohlo by Vás zajímat

Studenti se mě ptají, jakou profesi zvolit, když jim je v patách AI, říká sociolog a vysokoškolský učitel

V Česku přibývá obézních dětí. Jaké jsou příčiny a co s tím můžeme dělat?

Více než změna na radnici se do kvality školství propisují vztahy mezi starosty a řediteli, míní Matějka

Odložením startu převodu nepedagogů má MŠMT šanci dokázat, že mu nejde jen o skrytou sanaci rozpočtu