Co přinesl týden 10. 2. – 16. 2. 2020
Krátce:
Výrok týdne: „První týden poslouchám jen filmy nebo hudbu, abych naposlouchala fonetiku, pak se kouknu na 150 nejdůležitějších slovíček a pak začnu mluvit. Je jedno, jestli dělám chyby, protože chyby postupem času mizí… Aby se někdo naučil mluvit, musí dělat chyby.“ Eva Spekthorstová se bez učebnice naučila mluvit 17 jazyky. V ČT 24 vysvětlovala, jak si cizí jazyk osvojuje.
V souvislostech:
Velké téma posledních dnů je zavedení státní maturity ze tří předmětů. Proponenti se domnívají, že povinné maturování z matematiky by mohlo zvednout úroveň výuky, oponenti zase, že vzdělávací systém ani samotní maturanti nejsou připraveni na plošné testování bez možnosti volby. V diskuzi vyvstává celá řada otázek. Jaká je úroveň matematické gramotnosti mezi maturanty? Dokáží maturitní testy spolehlivě vyčíslit schopnosti testovaných žáků? Jaké by zavedení povinné maturity mělo dopady? Odpověď je jasná: Veřejná politika se neobejde bez zevrubné datové analýzy.
Kvantitativní data nemají odpověď na všechno. Existují ale otázky, které bez nich zodpovědět nelze. O kvalitě maturitních testů, o tom zda znevýhodňují konkrétní skupiny žáků, o tom, zda jsou srovnatelné mezi lety, se bez kvalitních dat informovaně hovořit nedá. CERMAT na svém webu zveřejňuje data o maturantech agregovaná na úrovni škol. Data jsou dostupná jen ve fragmentované podobě přes rozklikávací menu. Pro běžného uživatele je takřka nemožné data z webu pro analýzu získat, ta navíc neobsahují údaje o jednotlivých žácích nebo jejich odpovědi na jednotlivé úlohy. MŠMT sice nedávno data na úrovni maturantů zveřejnilo, pro účely ochrany soukromí z nich ovšem nelze vyčíst, zda je maturant chlapec či dívka ani z jakého kraje nebo typu školy pochází. CERMAT těmito informacemi disponuje. Klíčové analýzy s nimi ale nedělá.
Hlavní dvě námitky proti zpřístupňování úplných dat jsou ochrana soukromí maturantů a předcházení špatným analýzám. Jedná se skutečně o nepřekonatelné? Projekt CILS4EU sbírá data o dětech imigrantů ve čtyřech evropských zemích. Data jsou veřejnosti dostupná pouze v modifikované podobě. Nejcitlivější proměnné byly upraveny nebo vyloučeny, aby nemohlo dojít ke zpětné identifikaci respondentů. Tyto změny jsou ale zdokumentovány. Výzkumníci tak vědí, jaké informace jsou dostupné. Dokonce i český statistický úřad se rozhodl vytvořit bezpečné podmínky pro zpřístupnění citlivějších informací. Minulý rok bylo pro akademické účely otevřeno SafeCentrum. Vědci se mohou v centru zaregistrovat a po podepsání mlčenlivosti získají (výhradně) na místě úřadu přístup k mikrodatům.
Existuje celá řada způsobů, jak data zpřístupnit a zachovat přitom soukromí respondentů – dokonce i pro komplikované situace zahrnující data z několika institucí existují pokročilé metody práce, které sdílení umožňují. Aby se předešlo účelovým analýzám dat z vědeckých exeprimentů, Robert MacCoun a Saul Perlmutter navrhují využívat tzv. zaslepené analýzy. Na většinu dat je potřeba použít komplexní výpočet, který je předem do detailu naplánovaný. Dobrý analytik dokáže vytvořit plán pro analýzu dat i bez toho, že by měl skutečná data bezprostředně k dispozici. Napíše program, který provede všechny potřebné výpočty, a když je připravený, nakrmí se daty a vyplivne výsledky – padni komu padni. A zatímco analytik musí program připravit a výsledky analyzovat, krmení vůbec nemusí být přítomen.
Je samozřejmé, že k přípravě programu analytik nějaké informace potřebuje. Musí například znát dostupnost a názvy proměnných, se kterými pracuje. A někdy může být důležité i vědět, zda jsou například průměrné úspěšnosti stejné napříč školami. Za tímto účelem se pak poskytují zamíchaná data. Představme si, že CERMAT by vytvoří pracovní dataset, který má obecnou podobu skutečných dat, ale zcela znemožnil identifikaci jednotlivců. V zamíchaných datech se například proházely hodnoty odpovědí v úlohách uvnitř škol. Tak by analytik mohl odhadnout, jaké jsou rozdíly v rámci škol a mezi školami, na úrovni jednotlivců by ale data byla neinformativní. Svůj program by na datech mohl vyvinout a otestovat. Skutečná data by ale program dostal až z rukou CERMATu a výzkumníkovi se vrátily jen jeho výsledky.
Zamíchaná data řeší několik problémů. Snižují administrativní zátěž okolo zjišťování, jaká data existují a zda je lze vyžádat. Zvyšují transparentnost a demokratickou legitimitu institucí. Usnadňují kvalitnější informovanější veřejné diskuze a umožňují odborníkům přicházet s náměty, jak by se dal existující sběr informací vylepšit a posunout o další krok dál. Například Eurostat poskytuje za podobným účelem “syntetická” data, která lze použít k výuce i přípravě analýz, které pak mohou lidé s přístupem ke skutečným datům využít. Metod, jak zpřístupňovat citlivá data, je samozřejmě celá řada a jistě existují mnohem praktičtější způsoby, jak anonymizovat a zpřístupnit takové informace, které by zaručily informovanost veřejné diskuze. Pokud je ale nyní jediným řešení ořezávání nejdůležitějších informací, zpřístupněme alespoň “zamíchaná” data.
Jiří Münich, datový analytik EDUin
Výběr z EDUkalendáře: