Domácí úkol

 

Cílem je provést jednoduchou stylometrickou analýzu literárního textu, a to na pomocí softwaru STYLO.

 

Postup:

 1. Vybrat dva soubory textů Karla Čapka (po 10 textech) v online katalogu Městské knihovny v Praze. Zadání konkrétních textů provedeme na semináři. 
 2. Stáhnout vybrané texty v txt formátu s kódováním CP1250.
 3. Nainstalovat statistický software R.
 4. Stáhnout manuál programu STYLO.
 5. Podle návodu nainstalovat do R STYLO package.
 6. Připravit korpus textů dle pokynů v manuálu.
 7. Provést MFW (Most Frequent Words) analýzu s následujícím nastavením:
  corpus.format = "plain"
  corpus.lang = "Other"
  analyzed.features = "w"
  ngram.size = 1
  preserve.case = FALSE
  encoding = "native.enc"
  mfw.min = 100
  mfw.max = 100
  mfw.incr = 100
  start.at = 1
  culling.min = 0
  culling.max = 0
  culling.incr = 20
  mfw.list.cutoff = 5000
  delete.pronouns = FALSE
  use.existing.freq.tables = FALSE
  use.existing.wordlist = FALSE
  use.custom.list.of.files = FALSE
  analysis.type = "CA"
  consensus.strength = 0.5
  sampling = "no.sampling"
  sample.size = 10000
  number.of.samples = 1
  display.on.screen = TRUE
  write.pdf.file = FALSE
  write.jpg.file = FALSE
  write.svg.file = FALSE
  write.png.file = TRUE
  plot.custom.height = 7
  plot.custom.width = 7
  plot.font.size = 10
  plot.line.thickness = 1
  text.id.on.graphs = "labels"
  colors.on.graphs = "colors"
  titles.on.graphs = TRUE
  label.offset = 0
  add.to.margins = 2
  dendrogram.layout.horizontal = TRUE
  pca.visual.flavour = "classic"
  save.distance.tables = FALSE
  save.analyzed.features = FALSE
  save.analyzed.freqs = FALSE
  dump.samples = FALSE
 8. Exportovat výsledný dendrogram jako PNG obrázek a poslat společně s korpusem emailem na miroslav.kubat@gmail.com nebo na můj univerzitní email do 28. 11. 2016.
 
Příprava textů:
 • Vytvořit v PC složku s názvem "stylo".
 • Vytvořit podsložku s názvem "corpus".
 • Do složky "corpus" umístit všechny texty.
 
Postup v R:
 •  Instalace balíčku STYLO: install.packages("stylo")
 • Nahrání balíčku STYLO: library(stylo)
 • Změna výchozího adresáře v R (bude to složka "stylo"): File > Change dir... > 
 • Spuštění balíčku stylo: stylo()