Domácí úkol

 

Cílem je provést jednoduchou stylometrickou analýzu literárního textu, a to na pomocí softwaru STYLO.

 

Postup:

  1. Vybrat dva soubory textů Karla Čapka (po 10 textech) v online katalogu Městské knihovny v Praze. Zadání konkrétních textů provedeme na semináři. 
  2. Stáhnout vybrané texty v txt formátu s kódováním CP1250.
  3. Nainstalovat statistický software R.
  4. Stáhnout manuál programu STYLO.
  5. Podle návodu nainstalovat do R STYLO package.
  6. Připravit korpus textů dle pokynů v manuálu.
  7. Provést MFW (Most Frequent Words) analýzu s následujícím nastavením:
    corpus.format = "plain"
    corpus.lang = "Other"
    analyzed.features = "w"
    ngram.size = 1
    preserve.case = FALSE
    encoding = "native.enc"
    mfw.min = 100
    mfw.max = 100
    mfw.incr = 100
    start.at = 1
    culling.min = 0
    culling.max = 0
    culling.incr = 20
    mfw.list.cutoff = 5000
    delete.pronouns = FALSE
    use.existing.freq.tables = FALSE
    use.existing.wordlist = FALSE
    use.custom.list.of.files = FALSE
    analysis.type = "CA"
    consensus.strength = 0.5
    sampling = "no.sampling"
    sample.size = 10000
    number.of.samples = 1
    display.on.screen = TRUE
    write.pdf.file = FALSE
    write.jpg.file = FALSE
    write.svg.file = FALSE
    write.png.file = TRUE
    plot.custom.height = 7
    plot.custom.width = 7
    plot.font.size = 10
    plot.line.thickness = 1
    text.id.on.graphs = "labels"
    colors.on.graphs = "colors"
    titles.on.graphs = TRUE
    label.offset = 0
    add.to.margins = 2
    dendrogram.layout.horizontal = TRUE
    pca.visual.flavour = "classic"
    save.distance.tables = FALSE
    save.analyzed.features = FALSE
    save.analyzed.freqs = FALSE
    dump.samples = FALSE
  8. Exportovat výsledný dendrogram jako PNG obrázek a poslat společně s korpusem emailem na miroslav.kubat@gmail.com nebo na můj univerzitní email do 28. 11. 2016.
 
Příprava textů:
  • Vytvořit v PC složku s názvem "stylo".
  • Vytvořit podsložku s názvem "corpus".
  • Do složky "corpus" umístit všechny texty.
 
Postup v R:
  •  Instalace balíčku STYLO: install.packages("stylo")
  • Nahrání balíčku STYLO: library(stylo)
  • Změna výchozího adresáře v R (bude to složka "stylo"): File > Change dir... > 
  • Spuštění balíčku stylo: stylo()