Přinášíme podrobný návod pro ministerstvo školství, jak zveřejňovat data a informace o maturitních zkouškách. Autorem návodu je Oldřich Botlík.
Ministerstvo školství a přímo řízená organizace Cermat jsou dlouhodobě upozorňováni na fakt, že zdaleka nezveřejňují všechny potřebné informace o maturitních zkouškách. Podrobné a přitom anonymizované údaje mohou v mnohém ujasnit nastavení maturitních zkoušek a mohou také pomoci učitelům v přípravě nebo změnách ve výuce. Cermat se opakovaně brání výmluvou na to, že zákon zveřejňování dat neumožňuje, případně že správcem maturitních dat je MŠMT. Oldřich Botlík, spoluautor projektu Kalibro, sepsal podrobný návod k tomu, jak by bylo možné informace poskytovat.
Současná podoba zveřejňovaných informací, konkrétně statistických dat o výsledcích maturitních zkoušek v ČR, je velmi omezená. Na webu Cermatu, který maturitní zkoušky připravuje a vyhodnocuje, jsou dnes pouze data za roky 2013 a 2014 a za celé testy. Umožňují najít celkové výsledky za jednotlivé skupiny oborů, kraje a jednotlivé školy. I to jistě hodně lidí zajímá, a tak by data mohla by být rozdělena na jarní a podzimní kolo (kromě přepočtu za celý rok), aby nebylo nutné čekat na další agregovaná data (za jaro 2015) do zimy 2016.
Agregovaná data však nestačí. Učitelé, kteří by se případně chtěli poučit, co mají případně ve výuce změnit, případně autoři, kteří by chtěli vymýšlet a upravovat postupy a cvičení v učebnicích, potřebují sledovat úroveň jednotlivých úloh, dokonce i úroveň jejich nabídky (tj. četnosti položek A, B, C, D, případně E). Tomu by Cermat mohl také pomoci, a to nějakým vhodným rozhraním. Zcela však postačí, když zveřejní, nejlépe na vlastních webových stránkách, původní, neagregovaný datový soubor, v němž budou jména žáků a názvy škol nahrazeny anonymními identifikátory (např. pořadovými čísly).
Pojďme si ukázat formát a obsah takových informací na konkrétních příkladech:
Příklad č. 1: Jak by vypadal záznam konkrétního maturanta
Maturantka Kateřina Valachová z gymnázia PORG a jarního kola 2015 bude mít pořadové číslo dejme tomu 17015 a PORG bude mít pořadové číslo dejme tomu 1208 (identifikátory bude znát Cermat, ale nikdo jiný). Valachové datová věta (řádek tabulky s cca 80 tisíci řádky; co řádek, to maturant) bude mít na začátku identifikátory 17015 a 1208. Věta maturanta Jiřího Zíky bude začínat jeho identifikátorem (řekněme 76332) a pokračovat identifikátorem jeho školy (řekneme 608). Další identifikátory, tentokrát už nikoliv anonymní, se budou týkat maturitního kola (jaro/podzim), pohlaví maturanta, typu školy, kraje atp. Pak budou následovat dva bloky informací o tom, co Valachová napsala do záznamového archu. Protože maturovala z matematiky, ale ne z angličtiny, bude mít zaplněné bloky odpovídající Českému jazyku a Matematice. Zíka bude mít naopak zaplněné bloky odpovídající Českému jazyku a Angličtině, což odpovídá zkouškám, které absolvoval on. Jeden blok vždy zůstane prázdný (dokud bude druhý předmět povinně volitelný).
Příklad č. 2: Jak by vypadala data o jednotlivých úlohách
Znění úlohy č. 1 z Českého jazyka je následující:
Ve které z následujících vět je pravopisná chyba?
A) Ze zahraniční stáže se vrátil nabytý zkušenostmi.
B) Zadaný úkol z literárního semináře odevzdal zcela odbytý.
C) Zpěvačku každý den zahrnoval květinami neodbytný ctitel.
D) Ze svého rodinného domu chtěl udělat nedobytnou pevnost.
Za tuto (podobně jako za všechny další úlohy z maturitního testu) bude v tabulce zveřejněn jeden sloupec, v němž budou čísla 1 až 9. Hodnoty 1 až 4 odpovídají jednotlivým položkám A až C, hodnota 9 bude odpovídat tomu, že maturant nezaškrtl nic. Valachová, která se spletla, bude mít v tomto sloupci hodnotu 3 (označila za větu s pravopisnou chybou položku C). Zíka tam bude mít ve sloupci hodnotu 1 (zaškrtl správnou odpověď A).
Zveřejnění nic nebrání: Cermat už má soubory dat má připraveny a anonymizace je otázkou minut
Cermat z nich totiž počítá výsledky a generuje z nich maturitní protokoly. Anonymizace zveřejněných dat je jednoduchý technický úkon, pověšení na web taky.
Pro lepší představu o tom, na jaké úrovni zveřejňování dat se nyní nachází Cermat, dokládáme několik screenshotů z portálu Europan Social Survey (ESS). ESS je velký mezinárodní sociologický průzkum prováděný každé dva roky počínaje rokem 2002. Pro online práci s daty je určena záložka „Data and Documentation“, řádek Online Analysis.
Screenshot č. 1 obsahuje vlevo přehled všech oblastí s rozkliknutou oblastí Human values, která má 21 proměnných. Pro jednu z nich, proměnnou č. 3 s názvem „Important that people are treated equally and have equal opportunities“, je tam znění otázky (respondentovi je představen stručný „portrét“ osoby a on má říci, jak moc se mu ta osoba podobá) a kódy nabízených odpovědí, z nichž respondent vybírá, plus několik dalších kódů (například pro možnost „nevybral nic“).
Screenshot č. 2 obsahuje tabulku, kde jsou agregované hodnoty proměnné č. 3 s názvem „Important that people are treated equally and have equal opportunities“. Na obrazovku se nevejdou všechny země (je jich 37), takže je dole posuvník (zde byl oříznut), jímž se lze dostat i k Ukrajině a úhrnným datům za celý soubor. Tabulka má mj. jednoduchý export do Excelu.
Cermat se v tuto chvíli ocitá na velmi primitivní úrovni odpovídající této tabulce (ZDE). Ne však ESS. Kdo se chce kupříkladu podívat na to, jak korelují (v jakém jsou vzájemném vztahu) hodnoty proměnné č. 3 „Important that people are treated equally and have equal opportunities“ s hodnotami proměnné č. 8 „Important to understand different people“, ten již se samotnou tabulkou nevystačí: musí využít zdrojových dat. Data je ovšem v případě ESS možné velmi snadno stáhnout (viz tatáž záložka Data and Documentation), byť jde o soubory, které mají řádově 50 tisíc záznamů („maturantů“) a několikrát více sloupců, než mají maturitní data. Na tom už v dnešní době vůbec nic není.
Cermat by měl na svém webu zveřejnit analogii takových zdrojových dat. Nebrání mu v tom ani § 183c nově přidaný do školského zákona. Ten mu zakazuje poskytnout určitá data těm, kteří o ně požádají na základě zákona o svobodném přístupu k informacím. Anonymizovaná data jednak nemají vlastnosti, jichž se § 183c týká, ale především by o ně nikdo nežádal. Prostě by na webu Cermatu byla trvale k dispozici.
Z portálu ESS si může jakákoli data stáhnout každý sociolog, každý student, kdokoliv – když ho z jakéhokoliv důvodu zajímají. Kdykoliv a odkudkoliv. Jediné, co potřebuje, je zaregistrovat se. O anonymizovaných maturitních datech (počínaje rokem 2011) na portálu Cermatu by mělo co nejdříve platit totéž.