Analiza i wizualizacja danych ilościowych w środowisku R (NOWOŚĆ)

Udostępnij strone

Przedstawiamy ofertę nowego kursu

Analiza i wizualizacja danych ilościowych w środowisku R

nad którym opiekę merytoryczną sprawuje Jacek Bieliński.

Rekrutacja trwa do wyczerpania miejsc

Opis

Cel

Dane ilościowe są obecnie gromadzone i wykorzystywane w niespotykanym dotąd zakresie. Ich skuteczne wykorzystanie zależy od wiedzy i umiejętności posługiwania się narzędziami analitycznymi. Obecnie najbardziej popularnym narzędziem wykorzystywanym w analizie danych ilościowych jest język programowania R. R jest interaktywnym środowiskiem do wykonywania obliczeń i analiz statystycznych. Środowisko R jest wykorzystywane zarówno w nauce, jak i w komercyjnych rozwiązaniach analitycznych, również̇ tych oferowanych przez korporacje np. IBM, Bank of America, Microsoft, Facebook, Google, KickStarter, Mozilla, Twitter, Ford, New York Times. Jest swoistym lingua franca współczesnej statystyki i analizy danych.

Celem kursu jest wyposażenie uczestników w wiedzę i umiejętności pozwalające na samodzielne prowadzenie analizy danych ilościowych oraz ich wizualizację z wykorzystaniem środowiska R.

Kurs rozpoczyna się od zapoznania uczestników z pakietem statystycznym R oraz środowiskiem roboczym (IDE) RStudio. W trakcie pierwszej części kursu uczestnicy poznają składnię języka R, podstawowe struktury danych (wektory, macierze, ramki danych), omawiane i praktycznie ilustrowane są zagadnienia transformacji i przygotowania danych do analizy oraz wybrane techniki statystycznej analizy danych. Druga część kursu poświęcona jest szczegółowym zagadnieniom modelowania liniowego. Omawiany jest model liniowy, model liniowy z jakościowymi zmiennymi zależnymi, model regresji logistycznej oraz modele wielopoziomowe, szczegółowo poruszane są kwestie interpretacji parametrów modelu, jakości dopasowania modelu do danych oraz jego diagnostyki. Trzecia cześć kursu dotyczy zagadnień redukcji i klasyfikacji danych. Uczestnicy poznają techniki analizy czynnikowej i głównych składowych, oraz techniki klasyfikacji oparte na analizie skupień (k-średnich, hierarchiczna i rozmyta analiza skupień). Ostatnia część kursu poświęcona jest nowoczesnym technikom wizualizacji danych ilościowych oraz wyników analiz statystycznych z zastosowaniem pakietu ggplot2.

Warsztaty pomyślane są w taki sposób, aby oprócz podstawowych umiejętności posługiwania się językiem R, uczestnicy przede wszystkim poznali sposoby radzenia sobie w problemach spotykanych w codziennej pracy z danymi (ładowanie danych w różnych formatach, transformacje danych, rekodowanie, dobór konkretnych analiz statystycznych do stawianych pytań badawczych i ich i implementacja).

Kurs umożliwia:

Kurs umożliwia zdobycie wiedzy i umiejętności do samodzielnego prowadzenia analizy danych w nowoczesnym środowisku programistycznym i przy użyciu nowoczesnych narzędzi statystycznych. Ponadto, kurs pozwala na samodzielne rozszerzanie nabytych umiejętności na nowe obszary, nie objęte programem kursu.

Kurs pozwala na zdobycie wiedzy i praktycznych umiejętności z zakresu:

  1. składni języka R oraz podstawowych typów danych stosowanych środowisku R
  2. umiejętności posługiwania się językiem R do wykonywania typowych operacji na danych (ładowanie i zapis danych w różnych formatach, transformacje danych i rekodowanie itp.)
  3. technik analizy danych ilościowych oraz sposobami ich wykorzystywania w języku R: modelowanie liniowe (regresja liniowa, regresja logistyczna, modele wielopoziomowe), klasyfikacji i redukcji danych (analiza skupień k-średnich, hierarchiczna i rozmyta analiza skupień, analiza czynnikowa i analiza głównych składowych).
  4.  doboru odpowiednich technik analitycznych do stawianych problemów badawczych.
  5. wizualizacji danych ilościowych i wyników analiz statystycznych z wykorzystaniem nowoczesnych technik graficznej prezentacji danych: pakiet ggplot2, wizualizacja rozkładów jednej zmiennej, wizualizacja rozkładów wielu zmiennych, wizualizacja zależności między zmiennymi, dostosowywanie wyglądu wykresów.

Zalety kursu:

  1. Kurs prowadzony jest przez badaczy-praktyków z bogatym doświadczeniem w projektowaniu narzędzi badawczych i analizowaniu danych ilościowych.
  2. Kurs prowadzony jest przez dwóch prowadzących jednocześnie, co znacząco poprawia warunki zdobywania wiedzy przez uczestników.
  3. Kurs pozwala na zdobycie wiedzy i umiejętności w dziedzinie o dużym potencjale na rynku pracy. Środowisko R jest obecnie standardem wykorzystywanym powszechnie do analizowania danych ilościowych w biznesie i nauce.
  4. Kurs oparty jest na praktycznym wykorzystaniu zdobytej wiedzy. Uczestnicy nie tylko powtarzają za prowadzącym omawiane techniki analizy danych, ale przede wszystkim wykorzystują zdobytą wiedzę do samodzielnego rozwiązywania problemów analitycznych.

Korzyści z ukończenia kursu:

  1. uczestnicy potrafią samodzielnie importować dane ilościowe zapisane w różnych formatach (w tym w formatach komercyjnych) oraz przygotować dane do dalszych analiz
  2. uczestnicy potrafią przeprowadzić analizy opisowe: skonstruować i interpretować rozkłady jednej i wielu zmiennych oraz parametry rozkładu zmiennych
  3. uczestnicy potrafią badać siłę i kierunek związku między zmiennymi jakościowymi i ilościowymi
  4. uczestnicy kursu potrafią samodzielnie budować modele statystyczne służące do opisu i wyjaśniania (predykcji) cech ilościowych i dychotomicznych, również na danych pogrupowanych
  5. uczestnicy kursu potrafią samodzielnie dobrać najlepsze techniki wizualizacji danych oraz wykonać graficzną prezentację danych oraz wyników analiz statystycznych

Adresaci kursu

Kurs jest skierowany do:
Kurs skierowany jest do wszystkich osób, które wykorzystują lub chciałyby wykorzystywać dane ilościowe. W szczególności pracowników przedsiębiorstw, analityków, pracowników działów PR i HR, pracowników agencji i firm prowadzących badania społeczne, naukowców, pracowników administracji publicznej. Wcześniejsza znajomość środowiska R i zaawansowanych metod statystycznych nie jest wymagana.

Program

Program kursu* obejmuje 48 godzin dydaktycznych realizowanych przez jeden semestr w trybie niestacjonarnym (6 dni po 8 godzin).

Język wykładowy: polski

Ramowy program kursu:*

Moduł 1: Wprowadzenie do analizy danych w środowisku R (2 dni)

Dzień 1: Składnia języka i struktury danych. Przekształcanie i przygotowanie danych do analizy

  1. Wprowadzenie: R i RStudio; System pomocy R; Wprowadzanie poleceń i podstawowe typy danych
  2. Obiekty w R: Atrybuty obiektów; Więcej o ramkach danych; Definiowanie podzbiorowości (indeksowanie ramek danych)
  3. Operacje warunkowe i pętle; Funkcje z rodziny *apply()
  4. Ładowanie danych i zapis danych do plików w różnych formatach;
  5. Przygotowanie danych do analizy: obliczane wartości zmiennej (elementów wektora); rekodowanie, normalizacja danych itp.

Dzień 2: Rozkłady jednej i wielu zmiennych, badanie siły i kierunku związku między zmiennymi

  1. rozkład jednej i wielu zmiennych
  2. parametry rozkładu zmiennej, parametry warunkowe
  3. siła i kierunek związku między zmiennymi różnych typów
  4. analiza wariancji
  5. regresji liniowej
  6. regresja logistyczna

Moduł 2: Modelowanie liniowe w R (2 dni)

Dzień 1: Czym jest model liniowy? Regresja liniowa

  1. Uogólniony model liniowy i jego komponenty. Odmiany uogólnionego modelu liniowego
  2. Określanie zależności funkcyjnej
  3. Standardowa regresja liniowa: założenia, interpretacja parametrów, oceny dopasowania, porównywanie modeli
  4. Zmienne jakościowe w modelu regresji liniowej: określanie kontrastów; efekty interakcji
  5. Diagnostyka modelu: składniki resztowe, obserwacje odstające, homogeniczność wariancji
  6. Wartości przewidywane na podstawie modelu. Wizualizacja efektów modelu

Dzień 2: Regresja logistyczna. Modelowanie wielopoziomowe

  1. Prawdopodobieństwo, szansa, stosunek szans, logit
  2. Regresja logistyczna dla zmiennych binarnych: interpretacja parametrów, oceny miar dopasowania, porównanie modeli
  3. Przewidywane prawdopodobieństwa. Graficzna ilustracja efektów modelu
  4. Dane pogrupowane: wprowadzenie do modelowania wielopoziomowego. Dekompozycja wariancji
  5. Model z losowym wyrazem wolnym. Interpretacja parametrów modelu
  6. Model z losowym współczynnikiem kierunkowym

Moduł 3: Klasyfikacja i redukcja danych (1 dzień):

  1. analiza korespondencji
  2. eksploracyjna analiza czynnikowa
  3. analiza głównych składowych
  4. analiza skupień k-średnich
  5. hierarchiczna analiza skupień

Moduł 4: Wizualizacja danych z zastosowaniem pakietu ggplot2 (1 dzień)

  1. Wykres i jego warstwy: wizualizacja danych w ggplot2
  2. Rozkład jednej zmiennej: wykresy słupkowe, histogramy, krzywe gęstości
  3. Zależności między zmiennymi ilościowymi: diagramy rozrzutu, projekcja trendów
  4. Zależności między zmiennymi ilościowymi i jakościowymi: wykresy pudełkowe, wykresy kafelkowe
  5. Manipulowanie domyślnym wyglądem wykresu

*Program może ulec niewielkim zmianom.

Zasady realizacji i forma zaliczenia kursu

Zasady realizacji kursu:

Z uwagi na praktyczne zorientowanie kursu, opanowanie materiału omawianego w jego trakcie wymaga wykonywania na bieżąco przykładów przedstawianych przez prowadzących. W trakcie zajęć słuchacze wykonują w grupach ćwiczenia pozwalające utrwalić poszczególne porcje materiału; każdy moduł kończy się testem złożonym z kilku zadań sprawdzających umiejętność stosowania narzędzi i rozwiązań wprowadzonych w tym module. Ze względu na znaczny udział pracy własnej słuchaczy w trakcie kursu, obecność na wszystkich zajęciach w danym module jest kluczowa dla efektywnego opanowania przedstawionego w nim materiału.

Forma zaliczenia kursu
Warunkiem uzyskania świadectwa ukończenia kursu jest:

Każdy moduł kończy się testem złożonym z kilku zadań, których rozwiązanie wymaga wykorzystania umiejętności nabytych w ramach danego modułu. Zadania rozwiązywane będą w niewielkich, dwu-, trzyosobowych grupach. Warunkiem uzyskania świadectwa ukończenia kursu jest przedstawienie własnego rozwiązania zadań z wszystkich modułów. W przypadku uczestnictwa w wybranych modułach, warunkiem otrzymania zaświadczenia o ukończeniu modułu jest przedstawienie własnego rozwiązania zadań z danego modułu.

Absolwent całego kursu uzyskuje świadectwo ukończenia kursu wydane przez Collegium Civitas. Absolwent wybranego modułu uzyskuje zaświadczenie o ukończeniu modułu.

Kadra

Zajęcia prowadzą:

dr Jacek Bieliński – [jbielinski.pl] socjolog, adiunkt w Instytucie Socjologii Collegium Civitas, adiunkt i koordynator metodologiczny w Ośrodku Przetwarzania Informacji – Państwowym Instytucie Badawczym. Specjalizuje się w problematyce metodologii nauki, w badaniach wykorzystujących techniki ilościowe oraz statystyczne analizie danych. Zainteresowania naukowe koncentrują się na problematyce legitymizacji systemów społecznych i politycznych oraz normatywności we współczesnych społeczeństwach liberalnych demokracji. Ostatnia książka to „Między anomią a fatalizmem. Regulacja społeczna w Polsce w okresie zmiany systemowej”. Aktywnie działa w organizacjach pozarządowych, jest współzałożycielem i członkiem zarządu Fundacji „Wiedza Lokalna” oraz współzałożycielem i prezesem Stowarzyszenia „Niezależna Inicjatywa Kulturalna”.

 

dr Zbigniew Karpiński – socjolog, adiunkt w Zespole Badania Struktury Społecznej Instytutu Filozofii i Socjologii Polskiej Akademii Nauk, W pracy naukowej podejmuje zagadnienia związane ze strukturalnymi źródłami relacji międzygrupowych, kooperacją i zaufaniem w warunkach nierówności statusu, dyskryminacją oraz potocznymi ocenami nierówności społecznych. Laureat nagrody im. Floriana Znanieckiego (w 2003 r.) Polskiego Towarzystwa Socjologicznego oraz konkursu „Zostańcie z nami!” tygodnika Polityka (w 2010 r.). Autor i współautor kilkunastu artykułów publikowanych w polskich i zagranicznych czasopismach socjologicznych. W czasie wolnym od pracy zajmuje się z grubsza tym samym, co inni mieszkańcy Polski odpowiadający tym samym kryteriom społeczno-demograficznym, przede wszystkim jednak czyta i ogląda kryminały.

 

Organizacja zajęć

Czas trwania:

3 zjazdy w jednym semestrze: po 8h w każdym dniu szkoleniowym.

Terminy zjazdów w roku 2017/2018:

marzec 2018 (3-4, 17-18)

kwiecień 2018 (14-15)

Zasady przyjęć
Wypełnij formularz rekrutacyjny online na stronie https://rekrutacja.civitas.edu.pl/

Po potwierdzeniu utworzenia kursu, nie później niż 20 lutego 2018, skontaktujemy się z Tobą z prośbą o dostarczenie:

  • podpisanego formularza rekrutacyjnego,
  • podpisanych umów uczelnia-kursant,
  • potwierdzenia wpłaty opłaty za kurs.

Sposób składania dokumentów

Dokumenty można składać:

  • osobiście lub przez osoby trzecie, w siedzibie Collegium Civitas

Dział Rekrutacji Collegium Civitas
Plac Defilad 1, Pałac Kultury i Nauki, 12 piętro, pokój 1210

Warszawa

  • pocztą na adres:

Dział Rekrutacji Collegium Civitas
Plac Defilad 1
00-901 Warszawa

 

Opłaty

 

Nazwa kursu/modułu Opłata za kurs
Analiza i wizualizacja danych ilościowych w środowisku R 2500 zł
Wprowadzenie do analizy danych w środowisku R 1000 zł
Modelowanie liniowe w R

 

1000 zł
Klasyfikacja i redukcja danych

 

500 zł
Wizualizacja danych z zastosowaniem pakietu ggplot2

 

500 zł


Termin wpłaty opłaty za kurs:
w ciągu 5 dni od daty poinformowania o utworzeniu kursu.
Dane do przelewu:
Dane właściciela konta: Collegium Civitas
adres właściciela konta: plac Defilad 1, 00-901 Warszawa
Nazwa banku: Alior Bank SA

numer rachunku: 48 1060 0076 0000 3210 0018 9248

tytuł przelewu: imię i nazwisko, numer kandydata

SWIFT: ALBPPLPW

IBAN: PL48 1060 0076 0000 3210 0018 9248

 

Ważne: po wypełnieniu formularza rekrutacyjnego nasi Kandydaci mają możliwości płatności elektronicznej poprzez payu. Po wybraniu opcji płatności przez payu system samodzielnie wpisuje wszelkie dane do przelewu oraz kwotę przelewu.

Kontakt

Dział Rekrutacji Collegium Civitas
Plac Defilad 1
Pałac Kultury i Nauki
pokój 1210, XII piętro
00-901 Warszawa

adres e-mail: rekrutacja@civitas.edu.pl
tel. 22 656 71 89

Godziny pracy Działu Rekrutacji