Help with Search courses

Zapisy na kurs:

Analiza i wizualizacja danych w R


Opis kursu:

Podstawowym przeznaczeniem kursu jest wprowadzenie do środowiska R – olbrzymiego środowiska używanego na całym świecie do profesjonalnej analizy danych. Dedykowany jest przede wszystkim osobom rozpoczynającym przygodę z programem R i zaawansowaną analizą danych. Użytkownicy niepracujący wcześniej z danymi ilościowymi powinni (naszym zdaniem) najpierw dobrze poznać środowisko MS Excel. Zakres kursu obejmuje zapoznanie słuchaczy ze środowiskiem R i R-Studio, przedstawienie podstawowych pakietów do efektywnego przetwarzania i prezentowania danych oraz średniozaawansowanej wizualizacji graficznej wyników badań. W programie kursu znajduje się również statystyka opisowa i elementy statystycznej analizy danych.


Szczegółowa tematyka kursu:

  • wprowadzenie do środowiska R i R-Studio: podstawowe operacje na obiektach, podstawowe komendy i funkcje, import/eksport danych, korzystanie z dokumentacji i plików pomocy, wyszukiwanie i ściąganie potrzebnych pakietów i informacji
  • praca na tabelach danych (pakiety dplyr, tidyr): filtrowanie obserwacji, selekcja zmiennych, grupowanie i sumowanie obserwacji (tabele przestawne), przetwarzanie potokowe
  • podstawowa wizualizacja danych (pakiet base): wykresy słupkowe, punktowe i liniowe, omówienie funkcji qplot() z pakietu ggplot2
  • średniozaawansowana wizualizacja danych: pakiet lattice, wizualizacje 3d, przegląd wykresów, zasady efektywnej wizualizacji
  • zaawansowane przetwarzanie danych: zarządzanie dużymi zbiorami danych, optymalizacja pracy z pakietem data.table, wizualizacja tabel danych (pakiet gridExtra), eksport wyników do plików jpeg, png i pdf
  • ergonomia pracy w R: efektywne pisanie kodu, budowanie powtarzalnych i zautomatyzowanych kodów
  • zastosowanie R w analizie statystycznej: analiza tendencji centralnej, analiza zmienności, rozkład statystyczny jednej zmiennej, wizualizacja i komunikacja wyników obliczeń

Zapisy na kurs:

Podstawy statystyki matematycznej w R


Opis kursu:

Kurs powstał w wyniku analizy podręczników ze statystyki matematycznej dostępnych na rynku. Dlaczego nie można opowiedzieć tego w sposób ciekawy i intuicyjny? Dlaczego niektóre fundamentalne kwestie są przemilczane w większości książek i trzeba się ich samemu domyślać? Jeśli interesuje Cię jak dobrze skonstruować i wykonać badanie statystyczne lub po prostu chcesz poznać statystykę matematyczną od podstaw i zrozumieć wszystko od A do Z – to jest kurs dla Ciebie. Oprócz solidnego i szczegółowego wyjaśnienia sensu badań statystycznych na tym kursie oferujemy solidny i szeroki przegląd podstawowych testów statystycznych – testów Z, t-Studenta, testów nieparametrycznych, analizy korelacji czy badania zależności zjawisk w tablicy wielodzielniczej (kontyngencji).


Szczegółowa tematyka kursu:

  • metodologia badań statystycznych: projektowanie i przeprowadzanie badania, randomizacja próby, próbkowanie z populacji
  • statystyka opisowa: miary tendencji centralnej, miary rozproszenia, histogram, wykres pudełkowy, wykres słupkowy, rozkład empiryczny zmiennej, rozkłady statystyczne zmiennej ciągłej i dyskretnej,
  • elementy rachunku prawdopodobieństwa: dystrybuanta i funkcja gęstości, Prawo Wielkich Liczb, Centralne Twierdzenie Graniczne
  • statystyka matematyczna: błąd standardowy (pojęcie i oszacowanie, budowa hipotez statystycznych, weryfikacja hipotez – Błędy I i II rodzaju, określanie i znaczenie poziomu istotności, konstrukcja statystyki testowej, weryfikacja i interpretacja wyniku testu statystycznego, przedział ufności – budowa i interpretacja, badanie mocy testu, określanie wielkości próby do badania
  • przegląd testów parametrycznych: testy średniej w jednej próbie, test wariancji w jednej próbie, testy równości średnich w dwóch próbach, testy homogeniczności wariancji w dwóch próbach
  • badanie normalności rozkładu: znaczenie założenia o normalności rozkładu, testowanie hipotezy o normalności rozkładu (przegląd testów)
  • przegląd testów nieparametrycznych test znaków, test Manna-Witneya, testy Wicoxona, testy odsetka
  • analiza korelacji: korelacja Pearsona, korelacja Spearmana, korelacja Tau Kendalla, korelogram – wizualizacja macierzy korelacji, testy parametryczne i nieparametryczne istotności korelacji
  • tablica kontyngencji: test zgodności i niezależności chi-kwadrat, poprawka Yatesa, Test Fishera, statystyka V-Cramera, współczynnik Phi, wizualizacja tablicy kontyngencji – wykres mozaikowy, balloon plot
  • wstęp do regresji liniowej: teoria budowy modelu regresji liniowej, algorytm wyznaczania parametrów, regresja z jedną zmienną, regresja wielu zmiennych, oszacowanie i interpretacja wyników

Zapisy na kurs:

Warsztaty analityka Data Science


Opis kursu:

Około 70% pracy analityka polega na pozyskaniu danych, czyszczeniu, transformacji i przygotowaniu do dalszych analiz. Kolejne 10% spędza na modelowaniu a ostatnie 20% na wizualizacji wyników i ich intuicyjnym raportowaniu. Czynności wykonywane w ramach pierwszego i ostatniego etapu często nie należą do skomplikowanych, jednak ich staranne wykonanie jest kluczowe dla budowy i efektywnym komunikowaniu wyników otrzymanych na podstawie budowanych modeli uczenia maszynowego i ekonometrycznych . Przetwarzanie i wizualizacja danych jest też relatywnie łatwa w automatyzacji – warto zainwestować trochę czasu na optymalizację czasu wykonywania i parametryzację skryptów. Na tych etapach opłaca się mieć kompetencje w różnych dziedzinach: umiejętność pracy w wielu językach (np. R, SQL, LateX, html, javascript), znajomość technik programowania funkcyjnego i obiektowego, umiejętność optymalizacji kodu (np. obliczenia równoległe) a także wiedzę o zaawansowanych metodach wizualizacji danych. Celem kursu „Data Science w R” jest przekazanie uczestnikom zestawu zaawansowanych kompetencji w dziedzinie przetwarzania danych – tzw. Data Science Toolbox. Program kursu zakłada znajomość podstaw programu R, u uczestników mile widziane jest również pewne doświadczenie w pracy z danymi, ponieważ ciężar kursu położony jest na rozwiązywanie praktycznych problemów, które napotykamy w projektach analitycznych.


Szczegółowa tematyka kursu:

  • Zaawansowane wczytywanie danych do R: przegląd opcji funkcji read*, wczytywanie złożonych i źle sformatowanych pliki tekstowe, komunikacja z plikami Excela, łączenie z dużymi bazami danych (pakiety bigmemory i ff), wczytywanie danych z SAS, SPSS i innych pakietów (pakiety: haven i rio), wczytywanie dat i czasu oraz efektywna obróbka dat w R (pakiet lubridate).
  • Zaawansowane przetwarzanie danych w pakiecie dplyr i tidyr: wykonywanie operacji w pętlach (instrukcje kończące się na _all, _if, _at), wywoływanie komend w standardowej ewaluacji (funkcje zakończone „_”), złożone i wieloetapowe przetwarzanie tabel danych, automatyzacja przetwarzania danych w pakietach caret, mlr, recipe.
  • Operacje na datach i tekstach w R: pakiety stringr, lubridate, wykorzystanie wyrażeń regularnych.
  • Wykorzystanie języka SQL w R: (pakiety sqldf, ODBC, RDBC, SQLite) – łączenie z bazami SQL (MS SQL Server i Access).
  • Imputacja danych w R: pakiet mice, simputation, wykorzystywanie modelu regresyjnego i uczenia maszynowego do imputacji braków danych.
  • Zaawansowana wizualizacja danych (w pakiecie ggplot2): przegląd złożonych wykresów, tworzenie wykresów zagnieżdżonych, tworzenie własnych wykresów na bazie istniejących geometrii.
  • Elementy programowania w R: przegląd obiektów i systemów obiektowych, pisanie własnych funkcji, programowanie defensywne, optymalizacja kodu, rodzina funkcji apply, obliczenia równoległe, wprowadzenie do pakietu Rcpp.

Zapisy na kurs:

Warsztaty Machine Learning w R


Opis kursu:

Kurs na poziomie zaawansowanym. Podstawowa znajomość R jest wymagana. Jego celem jest usprawnienie i automatyzacja pracy analitycznej oraz poszerzenie zakresu kompetencji w zakresie wizualizacji danych. Jednym z wyzwań w pracy statystyka jest komunikacja wyników analiz dla przeciętnego odbiorcy. Umiejętność przenoszenia obliczeń na atrakcyjne i intuicyjne wykresy, tabele i infografiki jest zatem ważną kompetencją. Drugim kluczowym aspektem jest automatyzacja i optymalizacja własnej pracy oraz tzw. Reproducible research – umiejętność projektowania gotowych algorytmów do wykonywania powtarzalnych analiz. Osoby, które ukończą ten kurs mogą liczyć na znaczne podniesienie efektywności opracowywanych analiz w dwóch wymiarach – obniżenia liczby godzin spędzonych nad raportem i wyższą oceną pracy własnej przez przełożonych, kontrahentów oraz pozostałych odbiorców.


Szczegółowa tematyka kursu:

  • Wprowadzenie do Data ScienceCel i zakres dziedziny, przegląd metod i zastosowań, przegląd pakietów R-owych do Machine Learning, przegląd bibliografii przedmiotu oraz omówienie roli uczenie maszynowego w procesach analizy danych.

  • Zagadnienia ogólne w Machine Learning. Omówienie procesu walidacji krzyżowej i jej roli w ocenie jakości prognoz, wykrywaniu i zwalczaniu przetrenowania modeli oraz optymalizacji wartości hiperparametrów (metodą grid search, random search). Techniki wyjaśniania złożonych modeli uczenia maszynowego (m. in. pakiet Dalex). Omówienie różnych miar jakości prognoz dla zmiennej ciągłej i dyskretnej i ich interpretacja biznesowa. Przegląd technik regularyzacji równań liniowych: regresja grzbietowa (ridge regression, L2), LASSO (L1), Elastic Net, (L1/L2), Partial Least Squares (PLS), Principal Component Regression (PCR), Least Angle Regression (LARS). Przykłady feature engineering i algorytmów feature selection.

  • Uczenie nadzorowane – wprowadzenie. Regresja liniowa i logistyczna, przegląd zaawansowanych technik regresyjnych do modelowania nieliniowości (General Additive Models – GAM, Multivariate Adaptive Regression Splines – MARS, oraz regresja lokalna – LOWESS i LOESS), metoda najbliższych sąsiadów (kNN), naiwne podejście bayesowskie (naive bayes), drzewa klasyfikacyjne i regresyjne, maszyna wektorów nośnych (Support Vector Machine – SVM).

  • Zaawansowane uczenie nadzorowane. Ensembling modeli: stacking, bagging lasy losowe (Random Forest), „zwiększone” drzewa decyzyjne (boosting, boosted trees) estymowane metodą gradientową (Extreme Gradient Boosting, xgboost), optymalizacja hiperparametrów w XGBoost.

  • Techniki uczenia nienadzorowanego. Redukcja wymiarów (analiza PCA, MDS, ICA), techniki klastrowania (hierarchiczne, niehierarchiczne, oraz metody zaawansowane: m. in. klastrowanie rozmyte, DB-SCAN oraz EM algorithms), analiza koszykowa (Market Basket Analysis) i wprowadzenie do systemów rekomendacyjnych.