Chyba se vloudila a déle než týden si jí nikdo nevšiml.

Chyba se vloudila a déle než týden si jí nikdo nevšiml. | foto: koláž Technet.cz, Profimedia.cz

Ztratili 16 tisíc výsledků testů na covid. Špatně používali Excel

  • 278
Excel je populární nástroj, a tak je občas používán i způsobem, pro který není vhodný. Jen těžko uvěřitelné pochybení tak nyní vedlo ke ztrátě téměř 16 000 záznamů s pozitivními výsledky na covid-19. Kvůli stejnému programu byla přejmenována i skupina lidských genů.

Již od roku 2007 se při ukládání excelových dokumentů používá nový souborový formát XLSX. Podpora předcházejícího formátu XLS z aplikace nezmizela, ale je chybou ji u nových dokumentů používat. O tom se nyní hodně nešťastným způsobem přesvědčili v britské vládní agentuře Public Health England (zkráceně PHE).

Její pracovníci se totiž pro tvorbu kompletního seznamu pozitivně otestovaných lidí rozhodli využít Excel a CSV záznamy přicházející z laboratoří zpracovávající testovací vzorky do něj automatickým procesem ukládali. Výsledné tabulky ve formátu XLS byly hlavním zdrojem informací pro další zpracování dat, včetně trasování případných kontaktů.

Jenže. Formát XLS je omezen na maximálně 65 000 řádků, přičemž to stačí pro záznam zhruba 1 400 výsledků testů (jeden výsledek zabírá několik řádek). Jakmile byl tento počet dosažen, ostatní záznamy se prostě nevešly a nebyly uloženy. 

Každý den tak systém neuložil průměrně 1 980 výsledků, a než si toho někdo všiml, uplynulo 8 dní. Celkem tak pozornosti hygieniků a dalších zdravotnických organizací uteklo skoro 16 000 pozitivně testovaných a přinejmenším desítky tisíc nebezpečných kontaktů tak nebyly vytrasovány.

Je vůbec s podivem, že PHE zvolilo pro danou úlohu Excel, který na takové použití vůbec není stavěný – je to spolu s Wordem a PowerPointem součást kancelářského balíku společnosti Microsoft pro běžnou domácí a kancelářskou práci, nikoli nástroj pro hromadné zpracování dat. Smutným faktem je, že kdyby byl zvolen novější formát XLSX, nejspíše by k žádnému problému nedošlo.

Než PHE změní systém pro zpracování výsledků, používá tabulkový procesor Excel i nadále. Pro jistotu ale záznamy dávkuje po menších skupinách. 

Kvůli excelu se měnily i názvy lidských genů

Tabulkový procesor Excel byl důvodem i pro přejmenování více než 27 lidských genů, protože jejich zápis byl Excelem často špatně interpretován. 

Kupříkladu gen „Membrane Associated Ring-CH-Type Finger 1", který se ve zkratce zapisuje jako MARCH1, byl Excelem přepsán na 1-Mar., tedy první březen. Samozřejmě, v nastavení buňky můžete takovou věc zakázat, ale defaultní nastavení funguje takto. A uživatelé na to zapomínali, navíc nutnost opakovaného rutinního nastavení musela být velmi otravná.

Jak ukázala studie z roku 2016, která prozkoumala genetická data publikovaná v 3 597 odborných článcích, zhruba dvacet procent jich bylo takto vzniklou chybou poznamenáno.

Problém by měla vyřešit nová standardizace genových názvů od HUGO Gene Nomenclature Committee, zkráceně HGNC. MARCH1 bude nově MARCHF1, SEPT1 bude SEPTIN1 a podobně.

Máte i vy nějaký „humorný příběh“ s Excelem? Podělte se o něj v diskusi.