Zapisy na kurs:

Warsztaty Machine Learning cz. 2


Opis kursu:

Po zrozumieniu mniej złożonych algorytmów, adept Machine Learning powinien zacząć rozwijać swoje umiejętności w trzech kierunkach. Po pierwsze należy zgłębić tajniki kroswalidacji, tuningu parametrów oraz metod doboru zmiennych (feature engineering)Poprawi to jakość estymowanych modeli i skróci czas pracy nad nimi. Po drugie, można poznać bardziej zaawansowane algorytmy – sieci neuronowe, maszynę wektorów nośnych oraz analizę dyskryminacji – które w przeciwieństwie do modeli podstawowych są bardziej złożone i wymagają większej świadomości przy ich stosowaniu – użytkownik oprócz hiperparametrów często sam proponuje strukturę sieci neuronowej czy funkcję transformacji zmiennych w SVM. Po trzecie, w dalszym rozwoju swoich kompetencji należy skierować swoją uwagę na sposoby modelowania nietypowych zbiorów danych – dane nieustrukturyzowane, tekstowe (z wykorzystaniem dedykowanych technik text mining) oraz dane niezbalansowane (o nierównomiernym rozkładzie zmiennej objaśnianej).


Szczegółowa tematyka kursu:

  • Sieci neuronowe: typy sieci, typowe struktury i ich konstrukcja  (MLP, CNN), dostępne biblioteki (Keras w oparciu o TensorFlow), teoretyczne omówienie innych najważniejszych bibliotek sieci neuronowych, wykorzystanie sieci neuronowych w problemach klasyfikacji i regresji, w tym niestandardowe funkcje celu. Charakterystyki i wykorzystanie najważniejszych algorytmów optymalizacyjnych (SGD, Adagrad, Adam). Wykorzystanie batch normalization jako zapobieganie martwym neuronom. Warstwa dropout jako walka z przetrenowaniem.
  • Text mining: tokenizacja/stemming/normalizacja, metody tagowania i klasyfikacji słów, N-gramy, klasyfikacja dokumentów, algorytm word2vec oraz paragraph2vec, N-gramy, modele bag-of-words, klasyfikacja dokumentów, word/paragraph embedings, klasyfikacja dokumentów, analiza sentymentu, Latent Dirchlet Allocation oraz Latent Semantic Indexing.
  • Unsupervised learning dla zaawansowanych: Fuzzy clustering, Model Based Clustering, DBSCAN, Samoorganizujące się mapy (SOM), t-distributed stochastic neighbor embedding (t-SNE).
  • Supervised learning dla zaawansowanych: Maszyna Wektorów Nośnych (SVM), analiza dyskryminacji (LDA, QDA), zaawansowany ensembling modeli (boosting, stacking)
  • Wybrane zagadnienia specjalistyczne:  modelowanie zjawisk rzadkich (próby niezbalansowane,  wyszukiwanie i dobór zmiennych do modelu, metody optymalizacji wyników (np. optymalny dobór hiperparametrów modelu), optymalizacja procesu walidacji krzyżowej.