159386
Książka
W koszyku
Analiza wielkich zbiorów danych Wyzwania w nauce o danych Przedstawiamy Apache Spark Scala dla badaczy danych Model programowania w Spark Wiązanie rekordów danych Pierwsze kroki - powłoka Spark i kontekst SparkContext Przesyłanie danych z klastra do klienta Wysyłanie kodu z klienta do klastra Tworzenie list danych i klas wyboru Agregowanie danych Tworzenie histogramów Statystyki sumaryzacyjne ciągłych wartości Tworzenie współdzielonego kodu wyliczającego statystyki sumaryczne Prosty wybór zmiennych i ocena zgodności rekordów Rekomendowanie muzyki i dane Audioscrobbler Zbiór danych Algorytm rekomendacyjny wykorzystujący metodę naprzemiennych najmniejszych kwadratów Utworzenie pierwszego modelu Wyrywkowe sprawdzanie rekomendacji Ocena jakości rekomendacji Obliczenie metryki AUC Dobór wartości hiperparametrów Przygotowanie rekomendacji Prognozowanie zalesienia za pomocą drzewa decyzyjnego Szybkie przejście do regresji Wektory i cechy Przykłady treningowe Drzewa i lasy decyzyjne Dane Covtype Pierwsze drzewo decyzyjne Hiperparametry drzewa decyzyjnego Regulacja drzewa decyzyjnego Weryfikacja cech kategorialnych Losowy las decyzyjny Prognozowanie Wykrywanie anomalii w ruchu sieciowym metodą grupowania według k-średnich Wykrywanie anomalii Grupowanie według k-średnich Włamania sieciowe Dane KDD Cup 1999 Pierwsza próba grupowania Dobór wartości k Wizualizacja w środowisku R Normalizacja cech Zmienne kategorialne Wykorzystanie etykiet i wskaźnika entropii Grupowanie w akcji Wikipedia i ukryta analiza semantyczna Macierz słowo - dokument Pobranie danych Analiza składni i przygotowanie danych Lematyzacja Wyliczenie metryk TF-IDF Rozkład według wartości osobliwych Wyszukiwanie ważnych pojęć Wyszukiwanie i ocenianie informacji za pomocą niskowymiarowej reprezentacji danych Związek dwóch słów Związek dwóch dokumentów Związek słowa i dokumentu Wyszukiwanie wielu słów Analiza sieci współwystępowań za pomocą biblioteki GraphX Katalog cytowań bazy MEDLINE - analiza sieci Analiza dokumentów XML za pomocą biblioteki Scala Analiza głównych znaczników i ich współwystępowań Konstruowanie sieci współwystępowań za pomocą biblioteki GraphX Struktura sieci Połączone komponenty Rozkład stopni wierzchołków Filtrowanie krawędzi zakłócających dane Przetwarzanie struktury EdgeTriplet Analiza przefiltrowanego grafu Kliki i współczynniki klastrowania (139) Obliczenie średniej długości ścieżki za pomocą systemu Pregel Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek Przetwarzanie danych temporalnych i geoprzestrzennych w systemie Spark Przetwarzanie danych temporalnych za pomocą bibliotek JodaTime i NScalaTime Przetwarzanie danych geoprzestrzennych za pomocą Esri Geometry API i Spray Użycie interfejsu API Esri Geometry Wprowadzenie do formatu GeoJSON Przygotowanie danych dotyczących kursów taksówek Obsługa dużej liczby błędnych rekordów danych Analiza danych geoprzestrzennych Sesjonowanie w systemie Spark Budowanie sesji - dodatkowe sortowanie danych w systemie Spark Szacowanie ryzyka finansowego metodą symulacji Monte Carlo Terminologia Metody obliczania wskaźnika VaR Wariancja-kowariancja Symulacja historyczna Symulacja Monte Carlo Nasz model Pobranie danych Wstępne przetworzenie danych Określenie wag czynników Losowanie prób Wielowymiarowy rozkład normalny Wykonanie testów Wizualizacja rozkładu zwrotów Ocena wyników Analiza danych genomicznych i projekt BDG Rozdzielenie sposobów zapisu i modelowania danych Przetwarzanie danych genomicznych za pomocą wiersza poleceń systemu ADAM Format Parquet i format kolumnowy Prognozowanie miejsc wiązania czynnika transkrypcyjnego na podstawie danych ENCODE Odczytywanie informacji o genotypach z danych 1000 Genomes Analiza danych neuroobrazowych za pomocą pakietów PySpark i Thunder Ogólne informacje o pakiecie PySpark Budowa pakietu PySpark Ogólne informacje i instalacja biblioteki pakietu Thunder Ładowanie danych za pomocą pakietu Thunder Podstawowe typy danych w pakiecie Thunder Klasyfikowanie neuronów za pomocą pakietu Thunder Więcej o systemie Spark Serializacja Akumulatory System Spark i metody pracy badacza danych Formaty plików Podprojekty Spark MLlib Spark Streaming Spark SQL GraphX Nowy interfejs MLlib Pipelines API Samo modelowanie to za mało Interfejs API Pipelines Przykład procesu klasyfikacji tekstu
Sygnatura czytelni BWEAiI: XII E 18
Pliki multimedialne:
Status dostępności:
Biblioteka WEAiI
Egzemplarze są dostępne wyłącznie na miejscu w bibliotece: sygn. 157107 N (1 egz.)
Strefa uwag:
Tytuł oryginału: Advanced analytics with Spark, 2015
Uwaga ogólna
Na okładce: Analiza ogromnych zbiorów danych nie musi być wolna!
Uwaga dotycząca bibliografii
Indeks.
Pozycja została dodana do koszyka. Jeśli nie wiesz, do czego służy koszyk, kliknij tutaj, aby poznać szczegóły.
Nie pokazuj tego więcej

Deklaracja dostępności