Jazykový korpus

Potřebujete se dozvědět, k čemu slouží jazykový korpus, kdo jej využívá a za jakým účelem? Rádi byste se dozvěděli více informací o českém národním korpusu a korpusové lingvistice? V tomto článku se můžete blíže seznámit s touto problematikou. 

V tomto článku se dozvíte: 

  • Co je jazykový korpus. 
  • Účel jazykového korpusu. 
  • Kdo využívá jazykový korpus. 
  • Český národní korpus (ČNK). 
  • Korpusová lingvistika. 
  • Ústav pro jazyk Česká (UJČ). 

Co je jazykový korpus? 

Jazykovým korpusem se míní obsáhlý soubor autentických textů určitého jazyka, jedná se o texty jak psané, tak mluvené, které byly převedeny do elektronické podoby. Elektronická podoba v současné době usnadňuje nejen sběr dat, ale i jejich vyhledávání. Texty jsou vždy zadávány v jednotném souboru, aby umožnily jednoduché vyhledávání konkrétních jazykových jevů, zejména lexikologických (slova a slovní spojení). 

Účel jazykového korpusu 

Jazykový korpus slouží primárně k lingvistickému výzkumu jazykové praxe jako datová základna k tvorbě výkladových slovníků, vícejazyčných slovníků, automatických překladačů či automatických korektorů. Korpus umožňuje zobrazovat hledané jazykové jevy v přirozeném kontextu, čímž usnadňuje odborníkům v jejich výzkumu zjišťovat frekvenci výskytu daného jevu na základě původních zdrojů a informovat je o zařazení slov do různých kategorií. 

Kdo využívá jazykový korpus 

Jazykový korpus pro svůj výzkum používají především lingvisté, nicméně tento lexikologický nástroj využívají i další odborníci různých oborů, mezi které patří například: 

  • Sociologové a sociolingvisté 
  • Redaktoři 
  • Překladatelé 
  • Psychologové 
  • Učitelé  
  • Studenti cizích jazyků 
  • Tvůrci učebnic 

Český národní korpus (ČNK) 

Český jazykový korpus je akademickým projektem, jež buduje Ústav Českého národního korpusu (ÚČNK), který byl založený v roce 1994 při Filosofické fakultě  Karlovy univerzity českým lingvistou Františkem Čermákem. Kromě budování korpusu má ÚČNK na starost jeho rozvoj, činnosti v oblasti výuky a pěstování oboru korpusová lingvistika. 

Cílem ČNK je systematické mapování českého jazyka a dalších jazyků v porovnání s ČJ. Korpusy ČNK obsahují přes 4 miliardy slov současného psaného jazyka, přes 7 milion slov jazyka mluveného, dále zahrnuje starší texty a překlady do a z 30 cizích jazyků. Do systému ČNK se může kterýkoliv zájemce o český jazyk bezplatně registrovat. 

Korpusová lingvistika 

Korpusová lingvistika představuje odvětví lingvistiky, které se zabývá zkoumáním jazyka pomocí jazykových korpusůzpracováním korpusů, jejich výstavbou a příslušnou metodologií. Rozvoj tohoto oboru je úzce spjat s vývojem moderních informačních technologií, jedná se tedy o poměrně mladý vědní obor. Tyto moderní technologie totiž umožňují jazyková data zpracovávat způsobem, který by manuálně nebyl možný. 

Korpusová lingvistika vznikla v 50. letech 20. století na popud amerických lingvistů, kteří si uvědomili důležitost existence jazykového korpusu pro vytvoření popisu gramatiky přirozeného jazyka. V roce 1967 začal Čech Henry Kučera pracovat s americkým kolegou v USA na počítačovém projektu současné americké angličtiny. V České republice je vznik jazykového korpusu spjat se založením již výše zmiňovaného Ústavu Českého národního korpusu. 

Ústav pro jazyk český (UJČ) 

Ústav pro jazyk český patří mezi ústavy Akademie věd České republiky a zabývá se vědeckým výzkumem spisovného i nespisovného českého jazyka vzhledem k jeho aktuálnímu stavu, z hlediska historického vývoje a ve vztahu k jiným jazykům. Výzkum UJČ se zaměřuje především na jazykové složky, mezi které patří:  

  • Slovní zásoba 
  • Gramatická stavba 
  • Výstavba textů a slohová diferenciace 
  • Didaktika jazyka 
  • Obecná lingvistika 

UJČ svými vědeckými výzkumy poskytuje veřejnosti poradenství v oblasti českého jazyka. Získané výsledky jsou veřejnosti zprostředkovány prostřednictvím internetu, ale i v tištěné podobě a jsou využívány nejen ve školní i mimoškolní výchově, ale komerční praxi. UJČ také zajišťuje specializované výuky jazyků.