Zapisy na kurs:

Warsztaty Machine Learning w R


Opis kursu:

Kurs na poziomie zaawansowanym. Podstawowa znajomość R jest wymagana. Jego celem jest usprawnienie i automatyzacja pracy analitycznej oraz poszerzenie zakresu kompetencji w zakresie wizualizacji danych. Jednym z wyzwań w pracy statystyka jest komunikacja wyników analiz dla przeciętnego odbiorcy. Umiejętność przenoszenia obliczeń na atrakcyjne i intuicyjne wykresy, tabele i infografiki jest zatem ważną kompetencją. Drugim kluczowym aspektem jest automatyzacja i optymalizacja własnej pracy oraz tzw. Reproducible research – umiejętność projektowania gotowych algorytmów do wykonywania powtarzalnych analiz. Osoby, które ukończą ten kurs mogą liczyć na znaczne podniesienie efektywności opracowywanych analiz w dwóch wymiarach – obniżenia liczby godzin spędzonych nad raportem i wyższą oceną pracy własnej przez przełożonych, kontrahentów oraz pozostałych odbiorców.


Szczegółowa tematyka kursu:

  • Wprowadzenie do Data ScienceCel i zakres dziedziny, przegląd metod i zastosowań, przegląd pakietów R-owych do Machine Learning, przegląd bibliografii przedmiotu oraz omówienie roli uczenie maszynowego w procesach analizy danych.

  • Zagadnienia ogólne w Machine Learning. Omówienie procesu walidacji krzyżowej i jej roli w ocenie jakości prognoz, wykrywaniu i zwalczaniu przetrenowania modeli oraz optymalizacji wartości hiperparametrów (metodą grid search, random search). Techniki wyjaśniania złożonych modeli uczenia maszynowego (m. in. pakiet Dalex). Omówienie różnych miar jakości prognoz dla zmiennej ciągłej i dyskretnej i ich interpretacja biznesowa. Przegląd technik regularyzacji równań liniowych: regresja grzbietowa (ridge regression, L2), LASSO (L1), Elastic Net, (L1/L2), Partial Least Squares (PLS), Principal Component Regression (PCR), Least Angle Regression (LARS). Przykłady feature engineering i algorytmów feature selection.

  • Uczenie nadzorowane – wprowadzenie. Regresja liniowa i logistyczna, przegląd zaawansowanych technik regresyjnych do modelowania nieliniowości (General Additive Models – GAM, Multivariate Adaptive Regression Splines – MARS, oraz regresja lokalna – LOWESS i LOESS), metoda najbliższych sąsiadów (kNN), naiwne podejście bayesowskie (naive bayes), drzewa klasyfikacyjne i regresyjne, maszyna wektorów nośnych (Support Vector Machine – SVM).

  • Zaawansowane uczenie nadzorowane. Ensembling modeli: stacking, bagging lasy losowe (Random Forest), „zwiększone” drzewa decyzyjne (boosting, boosted trees) estymowane metodą gradientową (Extreme Gradient Boosting, xgboost), optymalizacja hiperparametrów w XGBoost.

  • Techniki uczenia nienadzorowanego. Redukcja wymiarów (analiza PCA, MDS, ICA), techniki klastrowania (hierarchiczne, niehierarchiczne, oraz metody zaawansowane: m. in. klastrowanie rozmyte, DB-SCAN oraz EM algorithms), analiza koszykowa (Market Basket Analysis) i wprowadzenie do systemów rekomendacyjnych.