V podkladech pro tiskovou zprávu EDUinu vydanou dne 11. března 2019 s titulkem Analýza propadovosti – Hodnotitelé na školách dosahují stabilnějšího výsledku jsem se dopustil chyby, za kterou se čtenářům ještě jednou omlouvám. Spočívala v tom, že jsem hodnocení písemných prací z češtiny, které žáci psali v roce 2013 jako součást společné části maturitní zkoušky, zahrnul pod centrální hodnocení organizované Cermatem, ačkoli práce byly tehdy hodnoceny na školách. Zdrojová data jsem proto přepočítal. Jaké jsou tedy správné číselné výsledky téže jednoduché analýzy? Budou-li interpretovány stejně jako poprvé, co z původní tiskové zprávy už neplatí? A co naopak platí i nadále?
Původně stejné počty se tedy změnily na nepoměr, v němž srovnávání přestalo být korektní. U čtyř hodnocení totiž existuje ze zřejmých důvodů více příležitostí, aby maximální výkyv mezi jejich výsledky byl větší než u hodnocení dvou – zde například kvůli třikrát delšímu časovému rozpětí.
Největší výkyv propadovosti při hodnocení na školách je mezi začátkem a koncem čtyřletého období 2013–2016 a činí 0,86 procentního bodu. Rozdíl mezi oběma hodnotami propadovosti centrálního hodnocení za období 2017–2018 činí 0,50 procentního bodu. Po přepočtu velikosti těchto maximálních výkyvů na průměrný počet 66 693 žáků za sledované období 2013–2018 to znamená maximální výkyv 572 propadlíků při školním hodnocení a maximální výkyv 329 propadlíků při hodnocení centrálním.
Čistě technicky z toho vyplývá, že informace „Hodnotitelé na školách dosahují stabilnějšího výsledku“ není pravdivá. Korektnější srovnání ovšem bude možné už po letošním jarním kole. Přál bych maturantům, aby naznačený „trend“ meziročního nárůstu propadovosti při centrálním hodnocení nepokračoval. Bude-li však pokračovat, informace „Hodnotitelé na školách dosahují stabilnějšího výsledku“ jako interpretace těchto jednoduchých dat už za dva měsíce zase pravdivá bude. Rozdíl v propadovosti za tři ročníky by totiž činil 1,00 procentního bodu, a byl by tedy větší než maximální výkyv 0,86 procentního bodu zjištěný u čtyř ročníků hodnocení na školách.
Zatímco původní rozdíl mezi počty propadlíků, které odpovídají maximálním výkyvům, činil 587 žáků, nyní činí pouze 243 žáků (572 – 329 = 243). Ukazuje se tedy, že zmíněné spory jsou z tohoto hlediska ještě výrazně absurdnější. Tento hlavní argument tiskové zprávy proto získal na síle.
Protože jsem z komentářů pod tiskovou zprávou nabyl dojmu, že některým diskutujícím unikla podstata argumentace, dovolím si ji vysvětlit podrobněji.
Pokud je mi známo, neexistují žádné veřejně dostupné informace o dvojím nezávislém hodnocení reprezentativních vzorků písemných prací, které by umožnily korektně srovnat výsledky práce hodnotitelů na školách s výsledky práce centrálních hodnotitelů. Provedení takových hodnocení jsem v minulosti několikrát navrhoval, ale marně. Ukazatele typu „počet propadlíků“, případně „počet podaných odvolání“ jsou totiž jen velmi dílčí (například odvolání může podat každý maturant – důležité je, kolika odvoláním je nakonec vyhověno a z jakých důvodů). Počty propadnuvších prvomaturantů jsou nicméně veřejně dostupné v souvislé časové řadě a – upřímně řečeno – hodně žáků zajímá hlavně to, aby nepropadli.
Na jediné mně známé dvojí hodnocení vzorku písemných prací, jež ovšem pokládám za nekorektní, se odvolávala důvodová zpráva k novele školského zákona, kterou se s účinností od jara 2017 vrátilo hodnocení písemných prací do Centra. Tisková zpráva citovala má slova, jimiž jsem použitý argument označil za zfalšovaný. Odkaz na důvody, které pro to mám, je uveden na konci. Z dnešního pohledu je pak možné dodat, že argument byl vyvrácen rovněž samotným návratem k centrálnímu hodnocení v roce 2017.
Tisková zpráva srovnávala rozdíl mezi maximálními výkyvy centrálního a školního hodnocení, který se zmenšil a po opravě činí pouhých 242 žáků. Centralisté volají po větším počtu propadlíků, který pokládají za přiměřenější úrovni některých písemných prací, s nimiž se při centrálním hodnocení setkávají. Absurditu sporů mezi centralisty a decentralisty spatřovala tisková zpráva v tom, že ve zdánlivě objektivním maturitním testu z češtiny jde o řádově větší výkyvy. Například v roce 2017 upravily dosud neznámé osoby bodování nejméně pěti uzavřených úloh. Podle tehdejšího ředitele Cermatu neexistují pro bodování úloh žádná pravidla. Cermat přitom zjevně nedodržuje ani zadání ministerstva školství, které požaduje meziročně srovnatelnou náročnost maturitního testu. Lze se o tom snadno přesvědčit v oficiálních analýzách výsledků maturitní zkoušky. Zmíněná úprava vedla ke změně v počtu propadlíků o 4 379 žáků. To je – po přepočtu na stejné počty maturujících žáků – dvacetkrát (!) více, než činí rozdíl ve výkyvech hodnocení písemných prací, o který se přou centralisté s decentralisty.
Za svými slovy citovanými na konci tiskové zprávy EDUinu z 11. března 2019 si proto i nadále stojím.
————————————————————————————————————————
Odůvodnění, proč nebyla oficiální argumentace pro návrat k centrálnímu hodnocení korektní,
naleznete například ZDE.
Tisková zpráva tehdejšího ředitele Cermatu, v níž konstatoval, že pro bodování testových úloh neexistují žádná pravidla, byla zveřejněna ZDE.
Oficiální grafy trendů vývoje výsledků maturitních testů z češtiny jsou na straně 12 analytického materiálu uveřejněného ZDE.