Pátek 28. ledna 2022, svátek má Otýlie
  • schránka
  • Přihlásit Můj účet
  • Pátek 28. ledna 2022 Otýlie

Vzniká banka slov moderní češtiny. S bezzubou myší a bez kalamáře

  18:41
U slova "myš" si dnešní děti spíše než malého hlodavce představí zařízení k počítači, říká jazykovědec Karel Oliva. Pod jeho vedením finišuje sedmiletá práce na elektronické databázi slovní zásoby současné češtiny. Sleduje proměny významů slov a poslouží jako materiál pro velký výkladový slovník.

Výzkumný tým vede ředitel Ústavu pro jazyk český Akademie věd ČR Karel Oliva. | foto: iDNES.cz

V čem práce na databázi, kterou vytváří Ústav pro jazyk český Akademie věd, spočívá?
Díváme se, jak se vyvinul význam slov od dřívějších zpracování. Stará slova dostávají nové významy a objevují se i slova zcela nová, často přejímky z angličtiny a slova nově utvořená. Také sledujeme frekvenci výskytu, kdy si vezmeme spoustu textů v elektronické podobě a v těch stovkách milionů slov hledáme, kolikrát se tam určité slovo vyskytuje.

Když si vezmeme třeba slovo "stůl", jak bude vypadat heslo v databázi?
Bude obsahovat jeho význam, tedy že je to kus nábytku, a dále starší a přenesené významy. Bude tam také dlouhá řada dokladů, v jakých typických kontextech se dnes slovo používá, což byla největší práce na databázi. Naši předchůdci v době takříkajíc předpočítačové měli pro výrobu slovníků velmi málo dat a museli všechno dělat ručně. Dnes jsme se přehoupli do situace opačné, kdy je potřeba si z obrovského množství elektronických textů vyzobat taková slovní spojení, která přinášejí zajímavou informaci. Například "jednat u kulatého stolu" nebo "rozhodnout od zeleného stolu", ale ne třeba "dřevěný" nebo "skleněný stůl".

Plánovaný slovník

Hotová databáze se využije pro přípravu moderního výkladového slovníku češtiny, který vznikne v elektronické podobě.

Jeho pracovní název je Lexikon 21.

Zatím je k dispozici Příruční slovník jazyka českého (1935-1957), Slovník spisovného jazyka českého (1. vydání 1960-1971, 2. vydání 1989) a Slovník spisovné češtiny (1. vydání 1978, současná verze 2010).

Měla by databáze obsáhnout všechna česká slova?
Pokud možno ano, ale má to své hranice. Nesledujeme například argoty a všechny nesmysly, které si někdo vymyslí na chatu, to se snad ani sledovat nedá. Položky v databázi jsou ale spíš první skicou než hotovým slovníkovým heslem.

Kolik tedy bude mít databáze položek?
Naplánovali jsme si zhruba 120 tisíc, ale myslím, že to překročíme tak na 150 tisíc. Pak bude potřeba vytvořit koncepci, jak z databáze udělat slovníková hesla a vytvořit celý slovník. To bude složitější práce a úkol na léta.

Jak rychle se proměňují významy slov?
Jazyk je velmi živý organismus a mění se sám od sebe. Nová slova vznikají s novými pojmy, se starými pojmy slova zanikají. Stačí se podívat na slovo "počítač". Ještě ve Slovníku spisovného jazyka českého, který vycházel v 60. letech, znamená něco jako "účetní". Také se vyvinulo slovo "myš". Zatímco pro mě je primární význam pořád zvíře, dnešní děti už daleko více znají jinou myš.

Jedna početnější elektronická databáze už ale funguje...
Ano, v jiné, ale jen velmi jednoduché databázi máme zhruba 800 tisíc českých slov, ale tam jsou shromážděna slova od roku 1770 až do víceméně současné doby. Na některá můžete narazit třeba ve starých vydáních Boženy Němcové, ale jejich frekvence v dnešních textech - knihách, časopisech či novinách - je často nulová. Třeba slovo "kalamář" bychom hledali velmi těžko. V nové databázi zastoupeno nebude, protože chceme vytvořit slovník češtiny, kterou se dnes opravdu mluví. Dáváme na internet k dispozici i staré slovníky, takže když někdo bude hledat význam slova "kalamář", tak si ho najde.

Bude databáze přístupná i pro veřejnost?
To zatím není rozhodnuté. Práce se blíží ke konci a vedou se o tom velké debaty. Na jednu stranu to děláme za veřejné peníze, takže bychom to měli předvést. Lidé by měli mít přístup k tomu, jak čeština dnes vypadá. Pokud z toho ale chceme udělat slovník, tak bychom ještě měli na datech pracovat, protože to je jen polotovar. Když dáte nepoučeným laikům, a tím nechci nikoho urážet, do rukou nedodělané věci, může se udělat více škody než užitku. A naše snaha je češtině prospívat.

Kolik lidí se na projektu podílí?
Celkem asi třicet lidí, ale ne všichni mají plný úvazek. Jsou to především lexikografové z našeho ústavu, několik studentů, kteří vyhledávají nová slova, a počítačová podpora. Na elektronizaci spolupracujeme s Fakultou informatiky Masarykovy univerzity v Brně, kde působí jedno z nejlepších světových pracovišť v oblasti podpory tvorby slovníků.

Autor:

Třicet let platíme náklady transformace nízkými příjmy, říká Středula

  • Nejčtenější

Ve vánici na D5 bouralo 36 aut. Bylo to jako bílá zeď, popisuje řidič

Dálnici D5 na 33. kilometru u Žebráku zablokovala ve čtvrtek před polednem hromadná dopravní nehoda 36 aut. Záchranáři...

Téměř všichni nakažení mají omikron. Šíří se skandinávská podvarianta

Varianta koronaviru omikron byla v posledním týdnu v 95 procentech vyšetřených vzorků, uvedl Státní zdravotní ústav...

Začne očkování „vakcínou pro odmítače“. První zájemci dostanou Novavax v únoru

Premium Naočkováno některou z vakcín proti covidu-19 je v Česku tři čtvrtě dospělé populace, ale nalákat a přesvědčit další,...

Krejčířová zastavila prodej slavné vily, nová majitelka už přitom zaplatila

Premium Vše se zdálo jasné: známou vilu uprchlého podnikatele Radovana Krejčíře v Černošicích koupila v dražbě na osmý pokus...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Naši zemi by neubránila ani desetkrát větší armáda, říká armádní generál Opata

Premium Přes tři roky šéfuje armádě a nejvíc mu pije krev byrokracie. Když je nejhůř, oblékne maskáče a vyrazí z kanceláře...

Naši zemi by neubránila ani desetkrát větší armáda, říká armádní generál Opata

Premium Přes tři roky šéfuje armádě a nejvíc mu pije krev byrokracie. Když je nejhůř, oblékne maskáče a vyrazí z kanceláře...

Situace se obrací. Dřív byl vstřícný západ, dnes vyrazte s obytňákem na východ

Premium Nemám rád kempy s jejich davovou atmosférou, hlukem a stísněným prostorem a hotely jsou pro mě nenávratně statické,...

Recept na dlouhověkost? Chirurg Pafko vysvětluje, čím si zkracujeme život

Premium Profesor Pavel Pafko o tom, proč si u televize neotevře lahváč, o malém štěstí pro každý den a taky o poučném úrazu na...

  • Další z rubriky

STALO SE DNES: Válek ohlásil očkování Novavaxem, v Polsku zemřela těhotná

Ministr zdravotnictví Vlastimil Válek oznámil, že se od 1. února spustí registrace na očkování vakcínou od Novavaxu....

Poslanci mají začít projednávat možnost korespondenční volby ze zahraničí

Zavedení možnosti korespondenční volby mají začít projednávat poslanci. Korespondenční volbu by mohlo využít až 600...

Fialovy první interpelace. Pomůžeme těm, kteří pomoc potřebují, řekl premiér

Premiér Petr Fiala poprvé čelil otázkám poslanců při interpelacích. Na řešení energetické krize se ho zeptal poslanec...

Stát přestane zjišťovat, zda je za pozitivním PCR testem omikron

Ministerstvo zdravotnictví od pondělí zruší diskriminační PCR testy, které ukazují na variantu omikron. Kvůli plošnému...

Opět jsme to roztočili: Ohlédnutí za Vánočním kolotočem v roce 2021
Opět jsme to roztočili: Ohlédnutí za Vánočním kolotočem v roce 2021

Vánoční kolotoč se stal nedílnou součástí eMimina. Letos si už po třinácté naše uživatelky vzájemně poslaly dárečky, které opět udělaly velkou...

Mysleli, že mám miliony. A já žila na ubytovně, vzpomíná Nicol Lenertová

Premium Na biologického otce si Nicol Lenertová už nevzpomíná, jen říká, že byl pro ni i její mámu nebezpečný. Během dětství...

Survivor: Nahota i pomlouvání Pazderkové za jejími zády, že je labilní

Po odstoupení zpěváka Vojtěcha Drahokoupila kvůli psychickým potížím ze show Survivor se diváci dočkali i prvních...

Do Česka poprvé připlula loď naložená uhlím z Austrálie. Má pomoci Ostravsku

Do Děčína v sobotu ráno poprvé připlula po Labi loď naložená černým uhlím z Austrálie, informovala Česká televize a...

Devadesátky: Hlavně nehraj jako já, řekl Vetchý Bartošovi o společné postavě

Postavu Tomáše Kozáka v Případech 1. oddělení hraje Ondřej Vetchý. V mladší verzi policisty v Devadesátkách se proměnil...

Angelica: Mám ráda svoje prsa, i když ve 12 letech nebylo lehké se s nimi sžít

Burleska je vlastně teatrální striptýz, svlékání z krásných korzetových kostýmů. „Používáme spoustu peří, kostýmy jsou...