155362
Książka
W koszyku
Część I. Tworzenie pełzaczy 1.Twój pierwszy robot indeksujący Połączenie Wprowadzenie do biblioteki BeautifulSoup Instalacja biblioteki BeautifulSoup Korzystanie z biblioteki BeautifulSoup Stabilne połączenia i obsługa wyjątków 2.Zaawansowana analiza składniowa HTML Młotek nie zawsze jest potrzebny Kolejna porcja BeautifulSoup Funkcje find() i find_all() Inne obiekty biblioteki BeautifulSoup Poruszanie się po drzewach hierarchii Wyrażenia regularne Wyrażenia regularne w bibliotece BeautifulSoup Uzyskiwanie dostępu do atrybutów Wyrażenia lambda 3.Tworzenie robotów indeksujących Poruszanie się po pojedynczej domenie Pełzanie po całej witrynie Gromadzenie danych z całej witryny Pełzanie po internecie 4.Modele ekstrakcji danych Planowanie i definiowanie obiektów Obsługa różnych szat graficznych Konstruowanie robotów indeksujących Poruszanie się po witrynach za pomocą paska wyszukiwania Poruszanie się po witrynach za pomocą odnośników Poruszanie się pomiędzy różnymi typami stron Właściwe podejście do procesu tworzenia modeli robotów indeksujących 5.Scrapy Instalacja biblioteki Scrapy Inicjowanie nowego pająka Pisanie prostego robota indeksującego Korzystanie z pająków przy użyciu reguł Tworzenie elementów Wyświetlanie elementów Potoki elementów Dzienniki zdarzeń w bibliotece Scrapy Dodatkowe zasoby 6.Przechowywanie danych Pliki multimedialne Przechowywanie danych w plikach CSV MySQL Instalacja środowiska MySQL Podstawowe polecenia Integracja ze środowiskiem Python Techniki bazodanowe i dobre rozwiązania Sześć stopni oddalenia w środowisku MySQL Alerty e-mail Część II. Zaawansowana ekstrakcja danych 7. Odczytywanie dokumentów Kodowanie dokumentu Pliki tekstowe Kodowanie tekstu a internet globalny Format CSV Odczyt plików CSV Format PDF Edytor Microsoft Word i pliki .docx 8.Oczyszczanie danych Oczyszczanie na poziomie kodu Normalizacja danych Oczyszczanie pozyskanych danych OpenRefine 9.Odczyt i zapis języków naturalnych Podsumowywanie danych Modele Markowa Sześć stopni oddalenia od Wikipedii — podsumowanie Natural Language Toolkit Instalacja i konfiguracja Analiza statystyczna za pomocą pakietu NLTK Analiza leksykologiczna za pomocą pakietu NLTK Dodatkowe zasoby 10.Kwestia formularzy i pól logowania Biblioteka Reąuests Przesyłanie podstawowego formularza Przyciski opcji, pola zaznaczania i inne mechanizmy wprowadzania danych Wysyłanie plików i obrazów Pola logowania i ciasteczka Podstawowe uwierzytelnianie protokołu HTTP Inne problemy z formularzami 11.Ekstrakcja danych a język JavaScript Krótkie wprowadzenie do języka JavaScript Popularne biblioteki JavaScriptu Ajax i dynamiczny HTML Uruchamianie kodu JavaScriptu w środowisku Python za pomocą biblioteki Selenium Dodatkowe obiekty WebDriver Obsługa przekierowań Końcowe uwagi na temat języka JavaScript 12.Ekstrakcja danych poprzez API Krótkie wprowadzenie do API Metody HTTP a API Dodatkowe informacje na temat odpowiedzi API Analizowanie składni formatu JSON Nieudokumentowane API Wyszukiwanie nieudokumentowanych API Dokumentowanie nieudokumentowanych API Automatyczne wyszukiwanie i dokumentowanie API Łączenie API z innymi źródłami danych Dodatkowe informacje na temat API 13.Przetwarzanie obrazów i rozpoznawanie tekstu Przegląd bibliotek Pillow Tesseract NumPy Przetwarzanie prawidłowo sformatowanego tekstu Automatyczne korygowanie obrazów Ekstrakcja danych z obrazów umieszczonych w witrynach Odczytywanie znaków CAPTCHA i uczenie aplikacji Tesseract Uczenie aplikacji Tesseract Ekstrakcja kodów CAPTCHA i przesyłanie odpowiedzi 14.Unikanie pułapek na boty Kwestia etyki Udawanie człowieka Dostosuj nagłówki Obsługa ciastek za pomocą języka JavaScript Wyczucie czasu to podstawa Popularne zabezpieczenia formularzy Wartości ukrytych pól wejściowych Unikanie wabików Być człowiekiem 15.Testowanie witryn internetowych za pomocą robotów indeksujących Wprowadzenie do testowania Czym są testy jednostkowe? Moduł unittest Testowanie Wikipedii Testowanie za pomocą biblioteki Selenium Interakcje z witryną Selenium czy unittest? 16.Zrównoleglanie procesu ekstrakcji danych Procesy i wątki Wielowątkowa ekstrakcja danych Wyścigi i kolejki Moduł threading Wieloprocesowa ekstrakcja danych Przykład z Wikipedią Komunikacja międzyprocesowa Wieloprocesowa ekstrakcja danych — metoda alternatywna 17.Zdalna ekstrakcja danych z internetu Powody korzystania z serwerów zdalnych Unikanie blokowania adresu IP Przenośność i rozszerzalność Tor PySocks Hosting zdalny Uruchamianie z poziomu serwisu hostingowego Uruchamianie z poziomu chmury Dodatkowe zasoby 18.Legalność i etyka ekstrakcji danych z internetu Znaki towarowe, prawa autorskie, patenty, ojej! 251 Prawo autorskie Naruszenie prawa własności rzeczy ruchomych Ustawa o oszustwach i nadużyciach komputerowych Plik robots.txt i warunki świadczenia usług Trzy roboty indeksujące Sprawa eBay przeciwko Bidder's Edge (prawo własności rzeczy ruchomych) Sprawa Stany Zjednoczone przeciwko Auernheimerowi (ustawa CFAA) Sprawa Field przeciwko Google (prawo autorskie i plik robots.txt)
Sygnatura czytelni BWEAiI: XII Ł 155
Pliki multimedialne:
Status dostępności:
Biblioteka WEAiI
Wszystkie egzemplarze są obecnie wypożyczone: sygn. 148499 N (1 egz.)
Strefa uwag:
Tytuł oryginału: Web scraping with Python : collecting data from the modern web
Uwaga ogólna
Tytuł oryginału: Web scraping with Python : collecting data from the modern web.
Podtytuł według okładki.
Wydanie 2. odnosi się do oryginału.
Na stronie tytułowej również informacje o miejscach wydania i wydawcy oryginału - O'Reilly.
Na książce także ISBN oryginału: 9781491985571.
Uwaga dotycząca bibliografii
Indeks.
Pozycja została dodana do koszyka. Jeśli nie wiesz, do czego służy koszyk, kliknij tutaj, aby poznać szczegóły.
Nie pokazuj tego więcej

Deklaracja dostępności