Course contents

  • Introduction to Text Mining - basic concepts, definitions
  • Searching for relationships and patterns between words.
  • Working with Document-Term Matrix
  • Visualization techniques for text Mining analysis.
  • Review of popular clusterization (hierarchichal clustering, k-means)
  • Review of  classification methods (Decision Trees, kNN, Naive Bayes)
  • Case studies and examples of text Mining from i. a. social media (Facebook, Twitter).

Learning outcomes

At the end of the course, the student will be able to perform independently advanced analysis of unstructured data by text Mining analysis. In particular, the student is able to:

  • search and work with regular expressions in text,
  • analyze text with Text Mining and machine learning algorithms,
  • interpret and visualize the results of analysis,
  • use R packages for the Text Mining.

Kurs obejmuje 3 dni zajęć (8 godzin dziennie) o charakterze wykładowo-warsztatowym. Podczas kursu nacisk położony jest na poznanie efektywnych metod pracy w R. Uczestnicy otrzymują bardzo obszerne materiały szkoleniowe, które stanowią książkę kodów w R wraz z licznymi praktycznymi przykładami, które można niemal natychmiast wykorzystywać w bieżącej pracy. Poniżej zamieszczono szczegółową listę zagadnień.

This course covers basic and intermediate programming in R. The training emphasizes efficient and time-optimizing workflow in R. After the course, participants are able to design and automate advanced statistical analyses, and create publication-ready data visualizations, including tables and graphs. If necessary, the training can be extended to cover more advanced topics (interactive visualization, Shiny application (web application in R), advance programming, specific issues in quantitative analysis etc.).