Zapisy na kurs:

Analiza i wizualizacja danych w R


Opis kursu:

Podstawowym przeznaczeniem kursu jest wprowadzenie do środowiska R – olbrzymiego środowiska używanego na całym świecie do profesjonalnej analizy danych. Dedykowany jest przede wszystkim osobom rozpoczynającym przygodę z programem R i zaawansowaną analizą danych. Użytkownicy niepracujący wcześniej z danymi ilościowymi powinni (naszym zdaniem) najpierw dobrze poznać środowisko MS Excel. Zakres kursu obejmuje zapoznanie słuchaczy ze środowiskiem R i R-Studio, przedstawienie podstawowych pakietów do efektywnego przetwarzania i prezentowania danych oraz średniozaawansowanej wizualizacji graficznej wyników badań. W programie kursu znajduje się również statystyka opisowa i elementy statystycznej analizy danych.


Szczegółowa tematyka kursu:

  • wprowadzenie do środowiska R i R-Studio: podstawowe operacje na obiektach, podstawowe komendy i funkcje, import/eksport danych, korzystanie z dokumentacji i plików pomocy, wyszukiwanie i ściąganie potrzebnych pakietów i informacji
  • praca na tabelach danych (pakiety dplyr, tidyr): filtrowanie obserwacji, selekcja zmiennych, grupowanie i sumowanie obserwacji (tabele przestawne), przetwarzanie potokowe
  • podstawowa wizualizacja danych (pakiet base): wykresy słupkowe, punktowe i liniowe, omówienie funkcji qplot() z pakietu ggplot2
  • średniozaawansowana wizualizacja danych: pakiet lattice, wizualizacje 3d, przegląd wykresów, zasady efektywnej wizualizacji
  • zaawansowane przetwarzanie danych: zarządzanie dużymi zbiorami danych, optymalizacja pracy z pakietem data.table, wizualizacja tabel danych (pakiet gridExtra), eksport wyników do plików jpeg, png i pdf
  • ergonomia pracy w R: efektywne pisanie kodu, budowanie powtarzalnych i zautomatyzowanych kodów
  • zastosowanie R w analizie statystycznej: analiza tendencji centralnej, analiza zmienności, rozkład statystyczny jednej zmiennej, wizualizacja i komunikacja wyników obliczeń

Zapisy na kurs:

Podstawy statystyki matematycznej w R


Opis kursu:

Kurs powstał w wyniku analizy podręczników ze statystyki matematycznej dostępnych na rynku. Dlaczego nie można opowiedzieć tego w sposób ciekawy i intuicyjny? Dlaczego niektóre fundamentalne kwestie są przemilczane w większości książek i trzeba się ich samemu domyślać? Jeśli interesuje Cię jak dobrze skonstruować i wykonać badanie statystyczne lub po prostu chcesz poznać statystykę matematyczną od podstaw i zrozumieć wszystko od A do Z – to jest kurs dla Ciebie. Oprócz solidnego i szczegółowego wyjaśnienia sensu badań statystycznych na tym kursie oferujemy solidny i szeroki przegląd podstawowych testów statystycznych – testów Z, t-Studenta, testów nieparametrycznych, analizy korelacji czy badania zależności zjawisk w tablicy wielodzielniczej (kontyngencji).


Szczegółowa tematyka kursu:

  • metodologia badań statystycznych: projektowanie i przeprowadzanie badania, randomizacja próby, próbkowanie z populacji
  • statystyka opisowa: miary tendencji centralnej, miary rozproszenia, histogram, wykres pudełkowy, wykres słupkowy, rozkład empiryczny zmiennej, rozkłady statystyczne zmiennej ciągłej i dyskretnej,
  • elementy rachunku prawdopodobieństwa: dystrybuanta i funkcja gęstości, Prawo Wielkich Liczb, Centralne Twierdzenie Graniczne
  • statystyka matematyczna: błąd standardowy (pojęcie i oszacowanie, budowa hipotez statystycznych, weryfikacja hipotez – Błędy I i II rodzaju, określanie i znaczenie poziomu istotności, konstrukcja statystyki testowej, weryfikacja i interpretacja wyniku testu statystycznego, przedział ufności – budowa i interpretacja, badanie mocy testu, określanie wielkości próby do badania
  • przegląd testów parametrycznych: testy średniej w jednej próbie, test wariancji w jednej próbie, testy równości średnich w dwóch próbach, testy homogeniczności wariancji w dwóch próbach
  • badanie normalności rozkładu: znaczenie założenia o normalności rozkładu, testowanie hipotezy o normalności rozkładu (przegląd testów)
  • przegląd testów nieparametrycznych test znaków, test Manna-Witneya, testy Wicoxona, testy odsetka
  • analiza korelacji: korelacja Pearsona, korelacja Spearmana, korelacja Tau Kendalla, korelogram – wizualizacja macierzy korelacji, testy parametryczne i nieparametryczne istotności korelacji
  • tablica kontyngencji: test zgodności i niezależności chi-kwadrat, poprawka Yatesa, Test Fishera, statystyka V-Cramera, współczynnik Phi, wizualizacja tablicy kontyngencji – wykres mozaikowy, balloon plot
  • wstęp do regresji liniowej: teoria budowy modelu regresji liniowej, algorytm wyznaczania parametrów, regresja z jedną zmienną, regresja wielu zmiennych, oszacowanie i interpretacja wyników

Zapisy na kurs:

Zaawansowana statystyka i ekonometria w R


Opis kursu:

Kurs Zaawansowana statystyka i ekonometria w R to zajęcia z analizy danych na poziomie zaawansowanym, dla osób które mają dobrze opanowane podstawy statystyki matematycznej i posiadają praktykę w pracy z danymi. Grupą docelową są członkowie zespołów analitycznych i badawczych w firmach prywatnych instytucjach publicznych oraz na uniwersytetach, a także osoby aspirujące do takich zadań posiadające wstępne doświadczenie m. in. w przetwarzaniu danych, których interesuje modelowanie zjawisk i wnioskowanie statystyczne. Wcześniejsza znajomość podstaw programu R jest wymagana.

Kurs jest kompendium wiedzy i umiejętności o najpopularniejszych metodach modelowania statystycznego i ekonometrycznego – modelu ANOVA, regresji liniowej i logistycznej po podstawy analizy szeregów czasowych. Modele prezentowane są w praktycznych zastosowaniach – uczestnicy mają możliwość zmierzenia się z konkretnym problemem badawczym, następnie szacują pod kierunkiem prowadzącego właściwy model – oceniają jego przydatność i poprawność stosując odpowiednie testy statystyczne i miary dopasowania modeli do danych.


Szczegółowa tematyka kursu:

Zaawansowana statystyka cz. 1. ANOVA: budowa modelu, testowanie założeń, obciążenie Lovella, porównania wielokrotne i poprawka Tukeya, ANOVA jednoczynnikowa, dwuczynnikowa, model z interakcjami, testowanie istotności efektów (I, II i III rodzaju), rozszerzenia modelu ANOVA: ANOVA z powtarzalnymi pomiarami, model ANCOVA, model MANOVA, model nieparametryczny Kruskalla-Wallisa.

Zaawansowana statystyka cz. 2. Badania ewaluacyjne w R. Metodologia RCT (Randomized Control Trials), testy A/B w przedsiębiorstwie, kontrolowanie błędu II rodzaju, badanie mocy testu statystycznego. Metodologia bootstrap w badaniach statystycznych.

Ekonometria cz. 1. Regresja liniowa – powtórzenie i rozszerzenie. Budowa i diagnostyka modelu regresji liniowej, analiza reszt (normalność, autokorelacja, heteroskedastyczność), analiza obserwacji odstających (odległość Cooka, wykres dźwigni), badanie stabilności oszacowań (test Chowa), wybór najlepszej formy funkcyjnej (przekształcenie Boxa-Coxa, test ilorazu wiarygodności, regresja krokowa, algorytm leaps and bounds).

Ekonometria cz. 2. Uogólniony model liniowy na przykładzie regresji logistycznej. Estymacja modelu, liczenie efektów krańcowych i ilorazów szans. Interpretacja wyników, diagnostyka modelu.. Analiza wyników dopasowania: czułość, specyficzność, precyzja i dokładność. Estymacja i wizualizacja krzywej ROCAUC.

Ekonometria cz. 3. Wprowadzenie do analizy szeregów czasowych. Dekompozycja szeregów czasowych w formie addytywnej i multiplikatywnej. Stacjonarność szeregu czasowego – diagnostyka. Modele ADF, ARMA, ARIMA. Diagnostyka modeli (wykresy ACF, PACF, testy Boxa-Pierce’a, Ljunga-Boxa, test Jarque-Berra). Badanie sezonowości. Model SARIMA. Budowanie prognoz w modelach ARIMA i SARIMA.

Zapisy na kurs:

Warsztaty Machine Learning w R


Opis kursu:

Kurs na poziomie zaawansowanym. Podstawowa znajomość R jest wymagana. Jego celem jest usprawnienie i automatyzacja pracy analitycznej oraz poszerzenie zakresu kompetencji w zakresie wizualizacji danych. Jednym z wyzwań w pracy statystyka jest komunikacja wyników analiz dla przeciętnego odbiorcy. Umiejętność przenoszenia obliczeń na atrakcyjne i intuicyjne wykresy, tabele i infografiki jest zatem ważną kompetencją. Drugim kluczowym aspektem jest automatyzacja i optymalizacja własnej pracy oraz tzw. Reproducible research – umiejętność projektowania gotowych algorytmów do wykonywania powtarzalnych analiz. Osoby, które ukończą ten kurs mogą liczyć na znaczne podniesienie efektywności opracowywanych analiz w dwóch wymiarach – obniżenia liczby godzin spędzonych nad raportem i wyższą oceną pracy własnej przez przełożonych, kontrahentów oraz pozostałych odbiorców.


Szczegółowa tematyka kursu:

  • Wprowadzenie do Data ScienceCel i zakres dziedziny, przegląd metod i zastosowań, przegląd pakietów R-owych do Machine Learning, przegląd bibliografii przedmiotu oraz omówienie roli uczenie maszynowego w procesach analizy danych.

  • Zagadnienia ogólne w Machine Learning. Omówienie procesu walidacji krzyżowej i jej roli w ocenie jakości prognoz, wykrywaniu i zwalczaniu przetrenowania modeli oraz optymalizacji wartości hiperparametrów (metodą grid search, random search). Techniki wyjaśniania złożonych modeli uczenia maszynowego (m. in. pakiet Dalex). Omówienie różnych miar jakości prognoz dla zmiennej ciągłej i dyskretnej i ich interpretacja biznesowa. Przegląd technik regularyzacji równań liniowych: regresja grzbietowa (ridge regression, L2), LASSO (L1), Elastic Net, (L1/L2), Partial Least Squares (PLS), Principal Component Regression (PCR), Least Angle Regression (LARS). Przykłady feature engineering i algorytmów feature selection.

  • Uczenie nadzorowane – wprowadzenie. Regresja liniowa i logistyczna, przegląd zaawansowanych technik regresyjnych do modelowania nieliniowości (General Additive Models – GAM, Multivariate Adaptive Regression Splines – MARS, oraz regresja lokalna – LOWESS i LOESS), metoda najbliższych sąsiadów (kNN), naiwne podejście bayesowskie (naive bayes), drzewa klasyfikacyjne i regresyjne, maszyna wektorów nośnych (Support Vector Machine – SVM).

  • Zaawansowane uczenie nadzorowane. Ensembling modeli: stacking, bagging lasy losowe (Random Forest), „zwiększone” drzewa decyzyjne (boosting, boosted trees) estymowane metodą gradientową (Extreme Gradient Boosting, xgboost), optymalizacja hiperparametrów w XGBoost.

  • Techniki uczenia nienadzorowanego. Redukcja wymiarów (analiza PCA, MDS, ICA), techniki klastrowania (hierarchiczne, niehierarchiczne, oraz metody zaawansowane: m. in. klastrowanie rozmyte, DB-SCAN oraz EM algorithms), analiza koszykowa (Market Basket Analysis) i wprowadzenie do systemów rekomendacyjnych.

Zapisy na kurs:

Warsztaty analityka Data Science w R


Opis kursu:

Około 70% pracy analityka polega na pozyskaniu danych, czyszczeniu, transformacji i przygotowaniu do dalszych analiz. Kolejne 10% spędza na modelowaniu a ostatnie 20% na wizualizacji wyników i ich intuicyjnym raportowaniu. Czynności wykonywane w ramach pierwszego i ostatniego etapu często nie należą do skomplikowanych, jednak ich staranne wykonanie jest kluczowe dla budowy i efektywnym komunikowaniu wyników otrzymanych na podstawie budowanych modeli uczenia maszynowego i ekonometrycznych . Przetwarzanie i wizualizacja danych jest też relatywnie łatwa w automatyzacji – warto zainwestować trochę czasu na optymalizację czasu wykonywania i parametryzację skryptów. Na tych etapach opłaca się mieć kompetencje w różnych dziedzinach: umiejętność pracy w wielu językach (np. R, SQL, LateX, html, javascript), znajomość technik programowania funkcyjnego i obiektowego, umiejętność optymalizacji kodu (np. obliczenia równoległe) a także wiedzę o zaawansowanych metodach wizualizacji danych. Celem kursu „Data Science w R” jest przekazanie uczestnikom zestawu zaawansowanych kompetencji w dziedzinie przetwarzania danych – tzw. Data Science Toolbox. Program kursu zakłada znajomość podstaw programu R, u uczestników mile widziane jest również pewne doświadczenie w pracy z danymi, ponieważ ciężar kursu położony jest na rozwiązywanie praktycznych problemów, które napotykamy w projektach analitycznych.


Szczegółowa tematyka kursu:

  • Zaawansowane wczytywanie danych do R: przegląd opcji funkcji read*, wczytywanie złożonych i źle sformatowanych pliki tekstowe, komunikacja z plikami Excela, łączenie z dużymi bazami danych (pakiety bigmemory i ff), wczytywanie danych z SAS, SPSS i innych pakietów (pakiety: haven i rio), wczytywanie dat i czasu oraz efektywna obróbka dat w R (pakiet lubridate).
  • Zaawansowane przetwarzanie danych w pakiecie dplyr i tidyr: wykonywanie operacji w pętlach (instrukcje kończące się na _all, _if, _at), wywoływanie komend w standardowej ewaluacji (funkcje zakończone „_”), złożone i wieloetapowe przetwarzanie tabel danych, automatyzacja przetwarzania danych w pakietach caret, mlr, recipe.
  • Operacje na datach i tekstach w R: pakiety stringr, lubridate, wykorzystanie wyrażeń regularnych.
  • Wykorzystanie języka SQL w R: (pakiety sqldf, ODBC, RDBC, SQLite) – łączenie z bazami SQL (MS SQL Server i Access).
  • Imputacja danych w R: pakiet mice, simputation, wykorzystywanie modelu regresyjnego i uczenia maszynowego do imputacji braków danych.
  • Zaawansowana wizualizacja danych (w pakiecie ggplot2): przegląd złożonych wykresów, tworzenie wykresów zagnieżdżonych, tworzenie własnych wykresów na bazie istniejących geometrii.
  • Elementy programowania w R: przegląd obiektów i systemów obiektowych, pisanie własnych funkcji, programowanie defensywne, optymalizacja kodu, rodzina funkcji apply, obliczenia równoległe, wprowadzenie do pakietu Rcpp.