Metody statystyczne są kluczowym narzędziem w data science, mimo to niewielu analityków danych zdobyło wykształcenie w ich zakresie. Może im to utrudniać uzyskiwanie prawidłowych efektów. Zrozumienie użytecznych zasad statystyki okazuje się ważne jeszcze dla programistów R i Pythona, którzy tworzą rozwiązania dla data science. Kursy podstaw statystyki rzadko jednak uwzględniają tę perspektywę, a większość podręczników do statystyki w ogóle nie zajmuje się narzędziami wywodzącymi się z informatyki.
To drugie wydanie lubianego podręcznika statystyki dedykowanego dla analityków danych. Uzupełniono je o obszerne przykłady w Pythonie i wyjaśnienie, jak stosować poszczególne metody statystyczne w problemach data science i jak ich nie używać. Skoncentrowano się też na tych zagadnieniach statystyki, które odgrywają istotną rolę w data science. Wyjaśniono, które koncepcje są ważne i przydatne z tej perspektywy, a które mniej pokaźne i dlaczego. Co ważne, poszczególne koncepcje i zagadnienia użyteczne przedstawiono w sposób przyswajalny i zrozumiały ponadto dla osób nienawykłych do posługiwania się statystyką na co dzień.
W książce pomiędzy innymi:
analiza eksploracyjna we wstępnym badaniu informacji
próby losowe a jakość dużych zbiorów informacji
podstawy planowania eksperymentów
regresja w szacowaniu wyników i wykrywaniu anomalii
statystyczne uczenie maszynowe
uczenie nienadzorowane a znaczenie danych niesklasyfikowanych
Statystyka: klasyczne narzędzia w najnowszych technikach!
O autorach
Peter Bruce jest ekspertem w dziedzinie nauczania statystyki. Prowadzi Institute for Statistics Education, gdzie proponuje setki kursów skierowanych między innymi do naukowców.
Dr Andrew Bruce jest głównym analitykiem w Amazonie. Od trzydziestu lat zajmuje się statystyką i nauką o danych, opracowując rozwiązania problemów z wielu branż.
Dr Peter Gedeck jest badaczem w Collaborative Drug Discovery. Generuje algorytmy uczenia maszynowego do przewidywania właściwości substancji stanowiących potencjalne leki.