Pomoc dla "Search courses"

Zapisy na kurs:

Analiza i wizualizacja danych w R


Opis kursu:

Podstawowym przeznaczeniem kursu jest wprowadzenie do środowiska R – olbrzymiego środowiska używanego na całym świecie do profesjonalnej analizy danych. Dedykowany jest przede wszystkim osobom rozpoczynającym przygodę z programem R i zaawansowaną analizą danych. Użytkownicy niepracujący wcześniej z danymi ilościowymi powinni (naszym zdaniem) najpierw dobrze poznać środowisko MS Excel. Zakres kursu obejmuje zapoznanie słuchaczy ze środowiskiem R i R-Studio, przedstawienie podstawowych pakietów do efektywnego przetwarzania i prezentowania danych oraz średniozaawansowanej wizualizacji graficznej wyników badań. W programie kursu znajduje się również statystyka opisowa i elementy statystycznej analizy danych.


Szczegółowa tematyka kursu:

  • wprowadzenie do środowiska R i R-Studio: podstawowe operacje na obiektach, podstawowe komendy i funkcje, import/eksport danych, korzystanie z dokumentacji i plików pomocy, wyszukiwanie i ściąganie potrzebnych pakietów i informacji
  • praca na tabelach danych (pakiety dplyr, tidyr): filtrowanie obserwacji, selekcja zmiennych, grupowanie i sumowanie obserwacji (tabele przestawne), przetwarzanie potokowe
  • podstawowa wizualizacja danych (pakiet base): wykresy słupkowe, punktowe i liniowe, omówienie funkcji qplot() z pakietu ggplot2
  • średniozaawansowana wizualizacja danych: pakiet lattice, wizualizacje 3d, przegląd wykresów, zasady efektywnej wizualizacji
  • zaawansowane przetwarzanie danych: zarządzanie dużymi zbiorami danych, optymalizacja pracy z pakietem data.table, wizualizacja tabel danych (pakiet gridExtra), eksport wyników do plików jpeg, png i pdf
  • ergonomia pracy w R: efektywne pisanie kodu, budowanie powtarzalnych i zautomatyzowanych kodów
  • zastosowanie R w analizie statystycznej: analiza tendencji centralnej, analiza zmienności, rozkład statystyczny jednej zmiennej, wizualizacja i komunikacja wyników obliczeń

Zapisy na kurs:

Podstawy statystyki matematycznej w R


Opis kursu:

Kurs powstał w wyniku analizy podręczników ze statystyki matematycznej dostępnych na rynku. Dlaczego nie można opowiedzieć tego w sposób ciekawy i intuicyjny? Dlaczego niektóre fundamentalne kwestie są przemilczane w większości książek i trzeba się ich samemu domyślać? Jeśli interesuje Cię jak dobrze skonstruować i wykonać badanie statystyczne lub po prostu chcesz poznać statystykę matematyczną od podstaw i zrozumieć wszystko od A do Z – to jest kurs dla Ciebie. Oprócz solidnego i szczegółowego wyjaśnienia sensu badań statystycznych na tym kursie oferujemy solidny i szeroki przegląd podstawowych testów statystycznych – testów Z, t-Studenta, testów nieparametrycznych, analizy korelacji czy badania zależności zjawisk w tablicy wielodzielniczej (kontyngencji).


Szczegółowa tematyka kursu:

  • metodologia badań statystycznych: projektowanie i przeprowadzanie badania, randomizacja próby, próbkowanie z populacji
  • statystyka opisowa: miary tendencji centralnej, miary rozproszenia, histogram, wykres pudełkowy, wykres słupkowy, rozkład empiryczny zmiennej, rozkłady statystyczne zmiennej ciągłej i dyskretnej,
  • elementy rachunku prawdopodobieństwa: dystrybuanta i funkcja gęstości, Prawo Wielkich Liczb, Centralne Twierdzenie Graniczne
  • statystyka matematyczna: błąd standardowy (pojęcie i oszacowanie, budowa hipotez statystycznych, weryfikacja hipotez – Błędy I i II rodzaju, określanie i znaczenie poziomu istotności, konstrukcja statystyki testowej, weryfikacja i interpretacja wyniku testu statystycznego, przedział ufności – budowa i interpretacja, badanie mocy testu, określanie wielkości próby do badania
  • przegląd testów parametrycznych: testy średniej w jednej próbie, test wariancji w jednej próbie, testy równości średnich w dwóch próbach, testy homogeniczności wariancji w dwóch próbach
  • badanie normalności rozkładu: znaczenie założenia o normalności rozkładu, testowanie hipotezy o normalności rozkładu (przegląd testów)
  • przegląd testów nieparametrycznych test znaków, test Manna-Witneya, testy Wicoxona, testy odsetka
  • analiza korelacji: korelacja Pearsona, korelacja Spearmana, korelacja Tau Kendalla, korelogram – wizualizacja macierzy korelacji, testy parametryczne i nieparametryczne istotności korelacji
  • tablica kontyngencji: test zgodności i niezależności chi-kwadrat, poprawka Yatesa, Test Fishera, statystyka V-Cramera, współczynnik Phi, wizualizacja tablicy kontyngencji – wykres mozaikowy, balloon plot
  • wstęp do regresji liniowej: teoria budowy modelu regresji liniowej, algorytm wyznaczania parametrów, regresja z jedną zmienną, regresja wielu zmiennych, oszacowanie i interpretacja wyników

Zapisy na kurs:

Zaawansowana statystyka matematyczna w R


Opis kursu:

Kurs na poziomie zaawansowanym, dla osób które mają dobrze opanowane podstawy statystyki matematycznej i posiadają praktykę w pracy z danymi. Grupą docelową są członkowie zespołów analitycznych i badawczych w podmiotach prywatnych i publicznych. Kurs jest kompendium wiedzy i umiejętności o zaawansowanych metodach statystycznych – od modelu ANOVA i testu Kruskala Wallisa po modele statystyki wielowymiarowej – analizę czynnikową i PCA i wprowadzenie do Data Miningu. Aplikacja modeli prezentowane są w praktycznych przykładach – uczestnicy mają możliwość zmierzenia się z konkretnym problemem badawczym, następnie szacują pod kierunkiem prowadzącego właściwy model – oceniają jego przydatność i poprawność stosując odpowiednie testy statystyczne.


Szczegółowa tematyka kursu:

  • Statystyka matematyczna: procedura weryfikacji hipotez statystycznych, poziom istotności, przedział ufności, badanie mocy testu
  • Model jedno czynnikowy ANOVA – budowa modelu, testowanie założeń, obciążenia Lovella, porównania wielokrotne i poprawka Tukeya
  • Model dwuczynnikowy ANOVA: model z interakcją, testowanie istotności efektów (I, II i III rodzaju, modele z obserwacjami zależnymi)
  • Rozszerzenia modelu ANOVA: model ANCOVA, model MANOVA, model nieparametryczny Kruskalla-Wallisa
  • Analiza współzależności: tradycyjne współczynniki korelacji, korelacja nieliniowa, zaawansowane testy korelacji, korelogramy jako metody wizualizacji wyników, tablica kontyngencji: przegląd testów niezależności, przegląd testów siły związku, analiza ilorazów szans i relatywnego ryzyka, czułość, specyficzność i dokładność
  • Analiza korespondencji: metodologia, diagnostyka, metody wizualizacji
  • Zaawansowana analiza regresji liniowej: budowa i diagnostyka modelu, analiza reszt (normalność, autokorelacja, heteroskedastyczność), analiza obserwacji odstających (odległość Cooka, wykres dźwigni), badanie stabilności oszacowań (test Chowa) wybór najlepszej formy funkcyjnej (przekształcenie Boxa-Coxa, test ilorazu wiarygodności)
  • Modele mieszane: Metoda największej wiarygodności: efekty stałe i losowe, modele mieszane z 1 i 2 komponentami wariacyjnymi, modele hierarchiczne
  • Wstęp do Data Miningu: analiza głównych składowych (PCA), drzewa klasyfikacyjne – estymacja, interpretacja diagnostyka

Zapisy na kurs:

Warsztaty analityka Data Science


Opis kursu:

Około 70% pracy analityka polega na pozyskaniu danych, czyszczeniu, transformacji i przygotowaniu do dalszych analiz. Kolejne 10% spędza na modelowaniu a ostatnie 20% na wizualizacji wyników i ich intuicyjnym raportowaniu. Czynności wykonywane w ramach pierwszego i ostatniego etapu często nie należą do skomplikowanych, jednak ich staranne wykonanie jest kluczowe dla budowy i efektywnym komunikowaniu wyników otrzymanych na podstawie budowanych modeli uczenia maszynowego i ekonometrycznych . Przetwarzanie i wizualizacja danych jest też relatywnie łatwa w automatyzacji – warto zainwestować trochę czasu na optymalizację czasu wykonywania i parametryzację skryptów. Na tych etapach opłaca się mieć kompetencje w różnych dziedzinach: umiejętność pracy w wielu językach (np. R, SQL, LateX, html, javascript), znajomość technik programowania funkcyjnego i obiektowego, umiejętność optymalizacji kodu (np. obliczenia równoległe) a także wiedzę o zaawansowanych metodach wizualizacji danych. Celem kursu „Data Science w R” jest przekazanie uczestnikom zestawu zaawansowanych kompetencji w dziedzinie przetwarzania danych – tzw. Data Science Toolbox. Program kursu zakłada znajomość podstaw programu R, u uczestników mile widziane jest również pewne doświadczenie w pracy z danymi, ponieważ ciężar kursu położony jest na rozwiązywanie praktycznych problemów, które napotykamy w projektach analitycznych.


Szczegółowa tematyka kursu:

  • Zaawansowane wczytywanie danych do R: przegląd opcji funkcji read*, wczytywanie złożonych i źle sformatowanych pliki tekstowe, komunikacja z plikami Excela, łączenie z dużymi bazami danych (pakiety bigmemory i ff), wczytywanie danych z SAS, SPSS i innych pakietów (pakiety: haven i rio), wczytywanie dat i czasu oraz efektywna obróbka dat w R (pakiet lubridate).
  • Zaawansowane przetwarzanie danych w pakiecie dplyr i tidyr: wykonywanie operacji w pętlach (instrukcje kończące się na _all, _if, _at), wywoływanie komend w standardowej ewaluacji (funkcje zakończone „_”), złożone i wieloetapowe przetwarzanie tabel danych, automatyzacja przetwarzania danych w pakietach caret, mlr, recipe.
  • Operacje na datach i tekstach w R: pakiety stringr, lubridate, wykorzystanie wyrażeń regularnych.
  • Wykorzystanie języka SQL w R: (pakiety sqldf, ODBC, RDBC, SQLite) – łączenie z bazami SQL (MS SQL Server i Access).
  • Imputacja danych w R: pakiet mice, simputation, wykorzystywanie modelu regresyjnego i uczenia maszynowego do imputacji braków danych.
  • Zaawansowana wizualizacja danych (w pakiecie ggplot2): przegląd złożonych wykresów, tworzenie wykresów zagnieżdżonych, tworzenie własnych wykresów na bazie istniejących geometrii.
  • Elementy programowania w R: przegląd obiektów i systemów obiektowych, pisanie własnych funkcji, programowanie defensywne, optymalizacja kodu, rodzina funkcji apply, obliczenia równoległe, wprowadzenie do pakietu Rcpp.

Zapisy na kurs:

Zaawansowana wizualizacja i raportowanie danych w R


Opis kursu:

Kurs na poziomie zaawansowanym. Podstawowa znajomość R jest wymagana. Jego celem jest usprawnienie i automatyzacja pracy analitycznej oraz poszerzenie zakresu kompetencji w zakresie wizualizacji danych. Jednym z wyzwań w pracy statystyka jest komunikacja wyników analiz dla przeciętnego odbiorcy. Umiejętność przenoszenia obliczeń na atrakcyjne i intuicyjne wykresy, tabele i infografiki jest zatem ważną kompetencją. Drugim kluczowym aspektem jest automatyzacja i optymalizacja własnej pracy oraz tzw. Reproducible research – umiejętność projektowania gotowych algorytmów do wykonywania powtarzalnych analiz. Osoby, które ukończą ten kurs mogą liczyć na znaczne podniesienie efektywności opracowywanych analiz w dwóch wymiarach – obniżenia liczby godzin spędzonych nad raportem i wyższą oceną pracy własnej przez przełożonych, kontrahentów oraz pozostałych odbiorców.


Szczegółowa tematyka kursu:

  • pakiet ggplot2: przegląd funkcji klasy geom_(), omówienie funkcji scales(), omówienie funkcji themes(), omówienie funkcji klasy stat_(), wybór kolorów i czcionek w R, rozszerzenia pakietów ggplot2 (automatyzacja pracy i implementacja zaawansowanych rozwiązań), tworzenie infografiki – połączenie pakietów gridExtra i ggplot2
  • wizualizacja analiz statystycznych: rozkład empiryczny jednej oraz dwóch zmiennych (zaawansowane zastosowanie histogramów, wykresów pudełkowych, wykresów klasy violin plot, bee swarm plot, dotplot), analiza i wizualizacja danych z ankiet, wizualizacja wyników modeli statystycznych
  • sztuka tworzenia wykresów w R: zasady efektywnej wizualizacji danych, przegląd zaawansowanych wykresów, wykresy interaktywne (pakiet Rcharts, pakiet plotly, projekt htmlwidgets, pakiet ggvis)
  • programowanie w R: instrukcje warunkowe, pętle, tworzenie własnych funkcji, zaawansowana praca na obiektach
  • automatyzacja pracy w R: komunikacja i generowanie raportów w R w formacie MS Word, Excel i PowerPoint, obsługa Rmarkdown – nowoczesne raporty i prezentacje w HTML i PDF

Zapisy na kurs:

Warsztaty Machine Learning cz. 2


Opis kursu:

Po zrozumieniu mniej złożonych algorytmów, adept Machine Learning powinien zacząć rozwijać swoje umiejętności w trzech kierunkach. Po pierwsze należy zgłębić tajniki kroswalidacji, tuningu parametrów oraz metod doboru zmiennych (feature engineering)Poprawi to jakość estymowanych modeli i skróci czas pracy nad nimi. Po drugie, można poznać bardziej zaawansowane algorytmy – sieci neuronowe, maszynę wektorów nośnych oraz analizę dyskryminacji – które w przeciwieństwie do modeli podstawowych są bardziej złożone i wymagają większej świadomości przy ich stosowaniu – użytkownik oprócz hiperparametrów często sam proponuje strukturę sieci neuronowej czy funkcję transformacji zmiennych w SVM. Po trzecie, w dalszym rozwoju swoich kompetencji należy skierować swoją uwagę na sposoby modelowania nietypowych zbiorów danych – dane nieustrukturyzowane, tekstowe (z wykorzystaniem dedykowanych technik text mining) oraz dane niezbalansowane (o nierównomiernym rozkładzie zmiennej objaśnianej).


Szczegółowa tematyka kursu:

  • Sieci neuronowe: typy sieci, typowe struktury i ich konstrukcja  (MLP, CNN), dostępne biblioteki (Keras w oparciu o TensorFlow), teoretyczne omówienie innych najważniejszych bibliotek sieci neuronowych, wykorzystanie sieci neuronowych w problemach klasyfikacji i regresji, w tym niestandardowe funkcje celu. Charakterystyki i wykorzystanie najważniejszych algorytmów optymalizacyjnych (SGD, Adagrad, Adam). Wykorzystanie batch normalization jako zapobieganie martwym neuronom. Warstwa dropout jako walka z przetrenowaniem.
  • Text mining: tokenizacja/stemming/normalizacja, metody tagowania i klasyfikacji słów, N-gramy, klasyfikacja dokumentów, algorytm word2vec oraz paragraph2vec, N-gramy, modele bag-of-words, klasyfikacja dokumentów, word/paragraph embedings, klasyfikacja dokumentów, analiza sentymentu, Latent Dirchlet Allocation oraz Latent Semantic Indexing.
  • Unsupervised learning dla zaawansowanych: Fuzzy clustering, Model Based Clustering, DBSCAN, Samoorganizujące się mapy (SOM), t-distributed stochastic neighbor embedding (t-SNE).
  • Supervised learning dla zaawansowanych: Maszyna Wektorów Nośnych (SVM), analiza dyskryminacji (LDA, QDA), zaawansowany ensembling modeli (boosting, stacking)
  • Wybrane zagadnienia specjalistyczne:  modelowanie zjawisk rzadkich (próby niezbalansowane,  wyszukiwanie i dobór zmiennych do modelu, metody optymalizacji wyników (np. optymalny dobór hiperparametrów modelu), optymalizacja procesu walidacji krzyżowej.