DOTAZY A REGULRN VRAZY DOTAZOVAC JAZYK CQL corpus

  • Slides: 8
Download presentation
DOTAZY A REGULÁRNÍ VÝRAZY

DOTAZY A REGULÁRNÍ VÝRAZY

DOTAZOVACÍ JAZYK • CQL (corpus query language) = dotazovací jazyk v korpusech ČNK •

DOTAZOVACÍ JAZYK • CQL (corpus query language) = dotazovací jazyk v korpusech ČNK • dotaz na jednu pozici (slovo) v korpusu: [atribut="hodnota"] • atributem se myslí word, lemma, tag apod. • POZOR! Je velmi přesný ; -) Vyzkoušejte v korpusu SYNv 4 typ dotazu CQL: [lemma="mít"][][lemma="srdce"] - hledá všechny výskyty lemmat mít a srdce, mezi nimiž se vyskytuje libovolná pozice (tj. slovo nebo interpunkce)

REGULÁRNÍ VÝRAZY • zástupné znaky se speciálním významem • podstatná součást dotazovacího jazyka •

REGULÁRNÍ VÝRAZY • zástupné znaky se speciálním významem • podstatná součást dotazovacího jazyka • zjednodušeně: vkládání určitých speciálních znaků se zvláštním významem do slov, která chceme vyhledat • regulární výrazy lze uplatnit na začátku, na konci nebo uprostřed dotazu

. * (=TEČKA HVĚZDIČKA) • všechny tvary slova bobule, nechceme je všechny vypisovat a

. * (=TEČKA HVĚZDIČKA) • všechny tvary slova bobule, nechceme je všechny vypisovat a nechceme ani používat lemmatizaci • CQL dotaz: bobul. * - tečka zastupuje libovolný znak a hvězdička libovolný počet opakování předchozího (tj. libovolného) znaku • Zkuste, co všechno vyhledáte při použití korpusu SYNv 4?

Kon. Text • • • tečka (. ) - představuje jeden libovolný znak, interval

Kon. Text • • • tečka (. ) - představuje jeden libovolný znak, interval ({n, k}) - představuje n až k opakování předchozího znaku nebo většího celku; je-li k vynecháno ({n, }), odpovídá intervalu nejméně n opakování, pokud má interval tvar {n}, odpovídá mu přesně n opakování; hvězdička (*) - představuje libovolný počet (0 a více) opakování předchozího znaku nebo celku, je tedy ekvivalentní s {0, } plus (+) - představuje 1 nebo více opakování předchozího znaku nebo celku, totéž co {1, } otazník (? ) - představuje žádný nebo jeden výskyt předchozího znaku nebo celku, identické s {0, 1} seznam ([]) - představuje alternativu. Nabízí možnost vybrat jeden libovolný znak z těch, které jsou uvedeny v seznamu uvnitř hranatých závorek; pokud je prvním znakem seznamu stříška (^), jde o negovaný seznam a představuje tedy libovolný jeden znak kromě těch uvedených uvnitř hranatých závorek; v rámci seznamu je možné používat také pomlčku (-) jako operátor rozsahu (např. [a-z], [1 -9]), svislá čára (|) - představuje také alternativu, ne ovšem mezi jednotlivými znaky, ale celými řetězci tvořícími celek, kulaté závorky - libovolnou část výrazu je možné seskupit do kulatých závorek, vytvořit tak celek a ovlivnit tím prioritu jeho vyhodnocování nebo na něj aplikovat výše zmíněné kvantifikátory, vztahující se jinak jen na jeden (předcházející) znak, zpětné lomítko () - pokud některému speciálnímu znaku předchází zpětné lomítko, ztrácí tento znak svůj zvláštní význam (což umožňuje např. vyhledávat konkrétní interpunkční znaménka).

PŘÍKLADY všechny tvary slova ptakopysk slovo kdy s malým nebo velkým počátečním písmenem tečka

PŘÍKLADY všechny tvary slova ptakopysk slovo kdy s malým nebo velkým počátečním písmenem tečka jako interpunkční znaménko ptakopys. * [k. K]dy . infinitivy předponových sloves od nést . +nést různě dlouhé varianty citoslovce ratata ra(ta)+ pravopisnou dubletu: diskuze psané i se s diskuse|diskuze nebo disku[sz]e

KLÁVESOVÉ ZKRATKY | svislítko Alt. Gr + Shift + pod „Backspace“ nebo Alt +

KLÁVESOVÉ ZKRATKY | svislítko Alt. Gr + Shift + pod „Backspace“ nebo Alt + W {} složené závorky Alt. Gr + 9, Alt. Gr + 0 nebo Alt + B, Alt + N [] hranaté závorky Alt + F, Alt + G ^ stříška Alt + š (či 3) zpětné lomítko Ctrl + Alt + Q

Zdroje • https: //korpus. cz/ • https: //wiki. korpus. cz/doku. php

Zdroje • https: //korpus. cz/ • https: //wiki. korpus. cz/doku. php