Publikujeme rozhovor Josefa Mačího s Jiřím Münichem (EDUin) o tom, jakým způsobem stát prostřednictvím Cermat připravuje testy k jednotným zkouškám a jak nakládá s daty, která z nich získává. Rozhovor vyšel 10. května na zpravodajském webu Seznam Zprávy.
Ačkoliv státní maturita potká v posledních letech 70 tisíc studentů, nikdo přesně neví, jak vlastně testy vznikají. Monopol na informace má Cermat, který je nechce zveřejnit, říká v rozhovoru datový analytik Jiří Münich.
Co dnes Cermat v přijímacích zkouškách a maturitách testuje? Co o žácích zjišťuje?
Už tahle základní otázka je trochu problematická. Cermat říká, že původně chtěli v případě maturit jenom oddělit žáky, kteří nemají základní znalost, a neměli by tak dostat maturitu. Kvůli tlaku z Ministerstva školství ale žáky škálují a vyhodnocují celý rozsah schopností žáka známkami. Jsou to vlastně dva odlišné přístupy. Buď můžeme seřadit žáky podle schopností od nejlepšího po nejhoršího, anebo jenom říct: Tihle žáci nezvládli základní minimum a nezajímá nás, jak jsou na tom.
Je mezi maturitní a přijímací zkouškou nějaký rozdíl, nebo jsou koncepčně stejné?
To se neodvážím příliš komentovat, protože jsem se věnoval hlavně maturitám a v nich primárně matematice. Cermat v jedné z prezentací uváděl, že výsledky z přijímacích testů nějakým způsobem předvídají výsledky v maturitách. Tvrdí, že by dokázali na základě přijímacích zkoušek předjímat, kteří žáci později neudělají maturitu. Ukazovali, že dokážou tato data propojit. Samozřejmě že je ale nejsou ochotní žádným způsobem zpřístupnit.
Když se tedy podíváme na maturitní zkoušku, můžeme si klidně vzít matematiku, které jste se věnoval, jak takový test Cermat poskládá?
V tomhle kontextu stojí za zmínku, že vlastně pořád skutečně nevíme, protože od Cermatu získáváme jen takové střípky informací. Třeba slovenská verze Cermatu ale publikuje docela rozsáhlou zprávu o tom, jak testy vyvíjejí. Pokud tomu rozumím správně, vypadá to tak, že Cermat sestaví nějaký set otázek, který dělá velice pravděpodobně ve spolupráci například se členy Jednoty českých matematiků a fyziků. Když zformulují otázky, tak se udělá pilotáž. Ta je ale největší černou skříňkou maturit. Cermat ji několikrát zmínil, ale víme o ní vždy jen to, že proběhla. Už neříká, jakými statistickými metodami se vyhodnocovala ani jak se sestavoval vzorek. Na základě pilotáže se posoudí otázky z psychometrického hlediska, ale hlavní rozhodovací roli zřejmě hrají vnitřní komise Cermatu. U nich zase nevíme, na základě jakých kritérií se vybírají ani podle čeho se rozhodují, protože protokoly jsou naprosto neinformativní. Ve chvíli, kdy je test zhodnocený, tak se provede a potom probíhá ex post vyhodnocování, které ale používá pár velice primitivních psychometrických ukazatelů, které třeba nehodnotí celkovou kompozici testu.
Co to znamená – celková kompozice testu?
Pokud máme určitý rozsah žáků s různými schopnostmi – tedy například žáky s hodně vysokými, ale také velmi nízkými – a řadu velice náročných úloh, tak dokážeme rozlišovat jen mezi těmi nejlepšími. Ten, kdo má úplně nejvyšší schopnost, tak bude mít všechny úlohy správně, kdo je opravdu dobrý, tak bude mít jednu chybu, ale žáci z dolní půlky budou mít všechny úlohy špatně, protože jsou pro ně příliš obtížné. My tak neodlišíme nejhoršího a mírně podprůměrného žáka. Z tohoto hlediska je nutné se dívat na test nejen z pohledu jednotlivých úloh, ale z globálu – jestli všechny úlohy dohromady vytváří dobrý měřící instrument. Tady je klíčové mít jasno v účelu testu. Například test, který má pouze rozhodnout mezi udělal/neudělal, by se měl soustředit na měření schopností okolo cut-off hranice minimální úrovně. Test, který chce měřit hodnoty po celé škále, by zase měl obsahovat úlohy na všech úrovních obtížnosti.
Jak pak dále pokračuje příprava testů po tom zhodnocení?
Když jsou testy hotové a provedené, tak je vyhodnotí komise Cermatu a potom ještě nezávislá odborná komise Ministerstva školství. Z toho, co víme, to vypadá, že hodnotí testy až ex post. Zpětně pak může Cermat nějakou úlohu vyloučit nebo přebodovat. Oldřich Botlík (matematik a spoluzakladatel projektu Kalibro, pozn. red.) měl třeba podezření, že se přebodovávání používá jen k tomu, aby to celkově nějak vyšlo, ne aby se řešil konkrétní problém v testu. Takže si třeba ad hoc od stolu komise řekne: Moc žáků nám vypadlo, tak pojďme nějaké úloze přidat pár bodů, koukněme se, kolik žáků by ji udělalo potom, vypadá to dobře, necháme to tak.
Celý systém testování Cermatu, jak vy ho popisujete, ale vypadá dost netransparentně.
Transparentnost Cermatu je naprosto šílená. Nikdo neví, co se tam děje. I kdyby dělali nejlepší praxi na světě, tak to nemůžeme vědět, protože o tom nikde nic neříkají a máme jenom takové střípky a zprávy prostřednictvím žádostí o informace, které jsme my nebo někdo jiný získali. Z těch to nevypadá dobře a myslím si, že ta jejich práce není dobrá. Zároveň ale nemůžu otevřeně říct, že Cermat odvádí špatnou práci, protože toho je zkrátka příliš moc, co nevíme.
Z toho, co tedy víme, bere Cermat ohled na to, aby zadávání, formulace a vůbec úlohy jako takové byly fér pro všechny žáky? Ať už z pohledu jazyka, formy nebo způsobu otázek, aby žáci pochopili, co se po nich chce?
Myslím si, že minimálně u ex post validace se vůbec nebere ohled na rozdíly mezi různými podskupinami škol nebo třeba chlapci a děvčaty. Mám teď ale jeden docela hezký objev úlohy, která by mohla sloužit jako taková ilustrace. Cermat nedávno vydal zprávu, ve které je několik úloh, kde rozpočítali úspěšnosti podle typu školy. Nejvyšší rozdíl mezi žáky gymnázií, učilišť a nástaveb je u úlohy, kde nějaký pan Kocour má kapitál, který chce investovat do podniku, a tak se dá dohromady s panem Malíkem, který má o 200 milionů větší kapitál. Může tam být samozřejmě spousta důvodů, proč je ten rozdíl tak vysoký. Jeden z nich ale může být prostý – žáci na učilištích prostě tak často neřeší, co je to kapitál, a kvůli tomu je tak pro ně úloha matoucí. To je příklad úlohy, která může jinak fungovat pro dvě skupiny žáků, a to se dá statisticky ověřit, pokud k tomu máme data.
Třeba jedno velké téma podle mě také je, že Cermat používá takzvanou klasickou testovou teorii, ve které všechny obtížnosti úloh jsou pouze relativní jedna k druhé a ke schopnostem žáků, kteří na ně ten rok odpovídají. Takže já můžu seřadit úlohy tak, že jedna je například pro testované žáky třikrát lehčí než jiná, ale už nemůžu říct, že tahle úloha má takovou a takovou objektivní náročnost, natož je srovnávat mezi lety.
Tedy, jestli to chápu správně, že se úlohy pouze odkazují samy na sebe, ale fakticky není dáno, jak je obtížná výchozí úloha?
Přesně tak. Takže já třeba nakonec při použití této metody nezjistím, jestli se mezi lety zhoršili studenti nebo zvýšila náročnost testů, protože to je čistě relativní. Způsob, jakým tvrdí, že zaručují obtížnost, je, že se koukají na úspěšnosti napříč lety.
Úspěšnost celkovou nebo v konkrétních otázkách?
To je právě další problém u reportů Cermatu. Často nevíme, co úspěšností přesně myslí. Úspěšnost může být jak úspěšné složení maturitní zkoušky, tak úspěšná odpověď na úlohu, nebo dokonce jen podúlohu. Myslím si, že když Cermat mluví o úspěšnostech v kontextu meziročního srovnání, tak je to myšleno, kolik maturantů úspěšně složilo maturitu. Zajímavé je to právě u maturity z matematiky, kde je od roku 2013 víceméně konstantní úspěšnost.
Ale z dat přece vychází, že si maturitu z matematiky volí stále častěji studenti gymnázií a méně studenti odborných škol a učilišť. Navíc pravidla pro maturitu z matematiky se loni měnila, protože se prodlužoval čas na práci.
Právě proto. Úspěšnost v matematice je víceméně stejná až do loňska, kdy narostla právě díky delšímu času. Systematicky a velice rychle ale klesá podíl žáků, kteří si maturitu z matematiky vybírají. Jednoduchá selská úvaha by přitom byla, že žáci, kteří jsou horší v matematice, si ji spíš nevyberou. A když ubývají žáci, tak budou ubývat spíš ti horší než lepší. Takže jsem čekal, že se alespoň částečně úbytek žáků projeví na úspěšnosti.
Což se ale nestalo?
Nestalo a my nevíme proč. Jsou různé teorie. Mluví se například o rostoucím podílu gymnazistů. S tím bych ale naopak čekal nárůst úspěšnosti. Skutečně ale nevíme.
Ohledně testů od Cermatu, zvlášť co se týče jednotné přijímací zkoušky, se ozývá kritika, že jde vlastně o to, jestli se na ně žáci připraví, i co se týče různých strategií vyplňování nebo time managementu. Vznikl kolem toho velký byznys. Jsou podle vás na tom výrazně lépe žáci, kteří si třeba mohou dovolit zaplatit nějakou přípravu?
Myslím, že tohle bude hrát velkou roli. Důležité je ale na druhou stranu brát v potaz, že takhle to bude u sebelepšího testu. Nikdy se nezbavíme toho, že budou do testu vstupovat také nějaké jiné vlivy než jen matematika a čeština. Asi nelze s naprostou jistotou vytvořit test, kde všechny úlohy spolehlivě fungují stejně pro dívky a chlapce. Ale o to víc máme povinnost tyto limitace a slabiny testu zveřejnit a monitorovat je, abychom při interpretaci mohli pracovat s touto nejistotou.
Můžete uvést nějaký jednoduchý příklad, jak se dá část studentů znevýhodnit nějakou konkrétní otázkou?
Bude to spíš ilustrační, než že by se to zrovna takto dělo. Příkladem může být úloha, ve které mají žáci počítat nějaký problém ilustrovaný cestou v pražském metru. Dejme tomu nějaká úloha trojúhelníku mezi Muzeem, Můstkem a Florencí. Testy ale vyplňují jak žáci, kteří žijí v Praze, jezdí metrem každý den, a hned se jim tak v hlavě ten trojúhelník zobrazí, mohou si ho narýsovat na papír a spočítat, tak ti, kteří třeba žijí na nějaké vesnici, kde se s metrem nesetkají, a Můstek je pro ně něco, co možná v Praze na výletě někde zahlédli. A třeba takový žák potřebuje trochu více času, aby takové zadání pochopil.
V dobrém testu by tedy žádná taková otázka nebyla nebo minimálně jinak vystavěná?
Přesně tak. My to u všech úloh často nedokážeme zachytit jenom rozumovou úvahou, protože nám něco nedojde, nebo nepřijdeme na to, že by to mohlo být tak moc znevýhodňující. Proto je potřeba kromě toho, že to sledujeme a přemýšlíme o tom, zpracovávat i analýzy pro předem vytipované skupiny, které by mohly být nejspíš rozdílné.
Jak by měl tedy vypadat správný test, aby mohl být skutečně tím certifikátem?
Nejdřív je nutné zajistit, aby byl test validní. Jinými slovy, aby měřil to, co chceme, aby měřil. Tahle část spočívá na expertech z oboru, kteří dokážou posoudit, jestli je použitá úloha dobrou reprezentací kupříkladu nějakých matematických okruhů. To je ale jen první krok. Důležité je se ptát, kdo jsou ti experti. Pokud to budou jen matematici a nebude mezi nimi žádný pedagog, tak si mohou třeba myslet, že nějaká zběsilá formule se spoustou znaků, které nikdo nikdy neviděl, je nejlepší vyjádření teorie čísel. Ale prostě to nemá nic společného s matematickou schopností průměrného člověka. A potom je tu otázka kompozice testu – aby byl dobrý, musím mít natolik rozložené úlohy, že pokryjí celé spektrum schopností žáků. Aby jen neříkaly, že tenhle žák umí a tenhle ne.
Takže aby dokázaly rozřadit celou škálu studentů, který je dobrý, o něco lepší, ještě lepší a nejlepší?
Tohle by byla druhá část. Třetí je spíš statistickým předpokladem. Správné odpovědi by na sobě měly být nezávislé. To znamená, že nepotřebujete výsledek z první úlohy do druhé a z druhé do třetí. Takové nástrahy mohou být ale ošemetnější. Nějaké úlohy mohou mít v zadání jeden společný rys. Třeba velikosti úhlů v radiánech namísto stupňů. Student, který má téměř stejné schopnosti jako jeho kolega, ale s radiány si je jistější, dostane všech pět bodů. Druhý student, který si zrovna s radiány neví rady, ale jinak je podobně schopný, bude mít však o celých pět bodů méně. A najednou máme vedle sebe dva velice podobné studenty, ale s pětibodovým rozdílem.
Co je důležité pro to, abychom tento přístup aplikovali na české maturity? Co takové testy potřebují?
Prvním bodem je prostě transparentnost. V analýzách se musí vždycky někdo nějakým způsobem rozhodnout a tak je to správně. Analytik pak ale musí své kroky obhájit. Musí tady také být lidé, kteří budou klást otázky, a Cermat na ně bude odpovídat. Já osobně hodně věřím v otevřená data, ale zároveň respektuji, že v oblastech měření schopností žáků se zpracovávají citlivé informace a ta otevřenost někdy může být omezena. Cermat ale k tomu přistupuje tak, že buď podle nich data obsahují něco citlivého, a tak je neposkytnou, nebo na ně tlačíte tak dlouho, že je poskytnou v úplně nepoužitelné podobě. Pro zveřejňování citlivých dat přitom existuje spousta metod, jak se dají zaslepit nebo promíchat. Pro mě za mě by klidně šlo, že Cermat vytvoří nějaký syntetický dataset, který bychom si mohli projít, připravit analýzu a Cermat by ji pak provedl.
Takhle to funguje v případě Eurostatu, pokud se nepletu?
Ano. Pokud by ale tohle nešlo zajistit, tak s těžkým srdcem řeknu, že ta data nemusí být veřejná, ale musí být přístupná aspoň odborníkům, aby si analýzy mohli udělat sami. Jestli to bude vyžadovat, aby přišli do Cermatu a provedli analýzy pod dohledem nějaké paní nebo pána s rákoskou, tak budiž. Ale Cermat nemůže tvrdit, že má na data monopol, nebo, a to mi přijde už úplně neskutečné, že chtěl data zveřejnit, ale bál se, aby je lidé neinterpretovali špatně. Takže si je nechává pro sebe, aby je mohl interpretovat správně.
To je vlastně nynější identický přístup státu k datům o koronavirové pandemii.
Přesně tak. Úplně stejný argument třeba používá také Exekutorská komora. Já mám pocit, že je česká společnost prolezlá touhle normalizační mentalitou – o čem nevíte, to je možná lepší, aspoň nemůžete kritizovat, takže to nechte na nás.