Zapisy na kurs:
Warsztaty analityka Data Science w R
Opis kursu:
Około 70% pracy analityka polega na pozyskaniu danych, czyszczeniu, transformacji i przygotowaniu do dalszych analiz. Kolejne 10% spędza na modelowaniu a ostatnie 20% na wizualizacji wyników i ich intuicyjnym raportowaniu. Czynności wykonywane w ramach pierwszego i ostatniego etapu często nie należą do skomplikowanych, jednak ich staranne wykonanie jest kluczowe dla budowy i efektywnym komunikowaniu wyników otrzymanych na podstawie budowanych modeli uczenia maszynowego i ekonometrycznych . Przetwarzanie i wizualizacja danych jest też relatywnie łatwa w automatyzacji – warto zainwestować trochę czasu na optymalizację czasu wykonywania i parametryzację skryptów. Na tych etapach opłaca się mieć kompetencje w różnych dziedzinach: umiejętność pracy w wielu językach (np. R, SQL, LateX, html, javascript), znajomość technik programowania funkcyjnego i obiektowego, umiejętność optymalizacji kodu (np. obliczenia równoległe) a także wiedzę o zaawansowanych metodach wizualizacji danych. Celem kursu „Data Science w R” jest przekazanie uczestnikom zestawu zaawansowanych kompetencji w dziedzinie przetwarzania danych – tzw. Data Science Toolbox. Program kursu zakłada znajomość podstaw programu R, u uczestników mile widziane jest również pewne doświadczenie w pracy z danymi, ponieważ ciężar kursu położony jest na rozwiązywanie praktycznych problemów, które napotykamy w projektach analitycznych.
Szczegółowa tematyka kursu:
- Zaawansowane wczytywanie danych do R: przegląd opcji funkcji read*, wczytywanie złożonych i źle sformatowanych pliki tekstowe, komunikacja z plikami Excela, łączenie z dużymi bazami danych (pakiety bigmemory i ff), wczytywanie danych z SAS, SPSS i innych pakietów (pakiety: haven i rio), wczytywanie dat i czasu oraz efektywna obróbka dat w R (pakiet lubridate).
- Zaawansowane przetwarzanie danych w pakiecie dplyr i tidyr: wykonywanie operacji w pętlach (instrukcje kończące się na _all, _if, _at), wywoływanie komend w standardowej ewaluacji (funkcje zakończone „_”), złożone i wieloetapowe przetwarzanie tabel danych, automatyzacja przetwarzania danych w pakietach caret, mlr, recipe.
- Operacje na datach i tekstach w R: pakiety stringr, lubridate, wykorzystanie wyrażeń regularnych.
- Wykorzystanie języka SQL w R: (pakiety sqldf, ODBC, RDBC, SQLite) – łączenie z bazami SQL (MS SQL Server i Access).
- Imputacja danych w R: pakiet mice, simputation, wykorzystywanie modelu regresyjnego i uczenia maszynowego do imputacji braków danych.
- Zaawansowana wizualizacja danych (w pakiecie ggplot2): przegląd złożonych wykresów, tworzenie wykresów zagnieżdżonych, tworzenie własnych wykresów na bazie istniejących geometrii.
- Elementy programowania w R: przegląd obiektów i systemów obiektowych, pisanie własnych funkcji, programowanie defensywne, optymalizacja kodu, rodzina funkcji apply, obliczenia równoległe, wprowadzenie do pakietu Rcpp.
- Teacher: Piotr Ćwiakowski