100 sposobów na tworzenie robotów sieciowych pełna wersja.pdf

(10367 KB) Pobierz
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
IDZ DO
PRZYK£ADOW Y ROZDZIA£
100 sposobów na tworzenie
robotów sieciowych
SPIS TRECI
KATALOG KSI¥¯EK
Autorzy: Kevin Hemenway, Tara Calishain
T³umaczenie: Tomasz ¯mijewski
ISBN: 83-7361-452-4
Tytu³ orygina³u: Spidering Hacks
Format: B5, stron: 384
KATALOG ONLINE
ZAMÓW DRUKOWANY KATALOG
TWÓJ KOSZYK
DODAJ DO KOSZYKA
Internet to niewyczerpane ród³o informacji. Zwykle jednak znalezienie w g¹szczu
witryn i danych tego, co jest naprawdê potrzebne, jest zadaniem niezwykle trudnym.
Wyszukiwarki internetowe, nawet te najpopularniejsze i najbardziej efektywne
w dzia³aniu, nie zawsze s¹ odpowiednim rozwi¹zaniem. W takich przypadkach trzeba
poszukaæ innego sposobu, a nawet opracowaæ w³asn¹ metodê przeszukiwania sieci.
Ksi¹¿ka „100 sposobów na tworzenie robotów sieciowych” mo¿e s³u¿yæ pomoc¹
w wielu takich w³anie przypadkach. Przedstawia sposoby tworzenia
i wykorzystywania „paj¹ków” przeszukuj¹cych sieæ pod k¹tem okrelonych zasobów.
W ksi¹¿ce poruszono nastêpuj¹ce zagadnienia:
• Uwarunkowania prawne dotycz¹ce korzystania z programów
przeszukuj¹cych sieæ
• Narzêdzia do tworzenia robotów oraz wyszukiwania danych
• Sposoby wyszukiwania i pobierania plików multimedialnych
• Przeszukiwanie sieciowych baz danych
• Metody zapisywania zbiorów danych i aktualizowania ich
• Tworzenie zbiorów danych ³atwych do przeszukiwania przez innych
W ksi¹¿ce przedstawiono techniki tworzenia kompletnych programów przeszukuj¹cych
sieæ (paj¹ków), umo¿liwiaj¹cych odnalezienie wszystkich potrzebnych danych.
CENNIK I INFORMACJE
ZAMÓW INFORMACJE
O NOWOCIACH
ZAMÓW CENNIK
CZYTELNIA
FRAGMENTY KSI¥¯EK ONLINE
Wydawnictwo Helion
ul. Chopina 6
44-100 Gliwice
tel. (32)230-98-63
e-mail: helion@helion.pl
850904309.017.png 850904309.018.png 850904309.019.png 850904309.020.png 850904309.001.png 850904309.002.png 850904309.003.png 850904309.004.png 850904309.005.png 850904309.006.png 850904309.007.png 850904309.008.png 850904309.009.png 850904309.010.png 850904309.011.png 850904309.012.png 850904309.013.png 850904309.014.png 850904309.015.png
 
Spis treci
O Autorach....................................................................................................................................... 7
Wstp.............................................................................................................................................. 13
Rozdział 1. Łagodne wprowadzenie ............................................................................................ 17
1.
Pajki i zbieranie danych: kurs na zderzenie............................................................... 17
2.
Zasady obowizujce pajka i jego uytkownika....................................................... 19
3.
Anatomia strony HTML.................................................................................................. 23
4.
Rejestrowanie pajka........................................................................................................ 26
5.
Przedstawiamy si+............................................................................................................ 28
6.
Ostronie z uyciem pajka............................................................................................ 30
7.
Szukanie wzorców w identyfikatorach......................................................................... 33
Rozdział 2. Zestaw narzdzi ......................................................................................................... 37
8.
Instalowanie modułów Perla.......................................................................................... 40
9.
Po prostu pobieranie za pomoc LWP::Simple ........................................................... 42
10.
Bardziej złoone dania — LWP::UserAgent ............................................................ 44
11.
Dodawanie do dania nagłówków HTTP.................................................................. 45
12.
Wysyłanie danych przez LWP ....................................................................................... 47
13.
Uwierzytelnianie, ciasteczka i serwery proxy ............................................................. 49
14.
Obsługa wzgl+dnych i bezwzgl+dnych adresów URL............................................... 53
15.
Dost+p do zabezpieczonych zasobów i atrybuty przegldarki .................................. 55
16.
Ograniczanie zajmowanego pasma............................................................................... 56
17.
Poszanowanie dla pliku robots.txt................................................................................. 60
18.
Dodawanie w skryptach pasków post+pu ................................................................... 61
19.
Pobieranie danych za pomoc HTML::TreeBuilder.................................................... 66
20.
Analizowanie kodu za pomoc HTML::TokeParser................................................... 69
21.
WWW::Mechanize 101..................................................................................................... 72
22.
Pobieranie danych za pomoc WWW::Mechanize ..................................................... 75
Spis treci
3
|
850904309.016.png
 
23.
Pochwała wyrae< regularnych..................................................................................... 79
24.
Template::Extract: bezproblemowe RSS ....................................................................... 82
25.
Wprowadzenie do XPath ................................................................................................ 85
26.
Pobieranie zasobów za pomoc curl i wget................................................................. 90
27.
wget dla zaawansowanych............................................................................................. 91
28.
Łczenie polece< potokami............................................................................................. 93
29.
Jednoczesne uruchamianie wielu narz+dzi.................................................................. 98
30.
Uycie Web Scraping Proxy.......................................................................................... 100
31.
Zawczasu unikaj kłopotów........................................................................................... 104
32.
Liczenie si+ ze zmiennoAci witryny........................................................................... 107
Rozdział 3. Zbieranie plików multimedialnych ......................................................................... 109
33.
Sprawa dla detektywa: Newgrounds.......................................................................... 109
34.
Sprawa dla detektywa: iFilm........................................................................................ 114
35.
Pobieranie filmów z Biblioteki Kongresu USA ......................................................... 117
36.
Pobieranie obrazów z Webshots .................................................................................. 120
37.
Pobieranie komiksów — dailystrips............................................................................ 124
38.
Kolekcjonowanie kadrów z kamer sieciowych.......................................................... 126
39.
News Wallpaper dla naszej witryny ........................................................................... 130
40.
Zapisywanie samych załczników wiadomoAci POP3............................................. 133
41.
Pobieranie plików MP3 z listy odtwarzania.............................................................. 139
42.
Pobieranie danych z Usenetu za pomoc nget.......................................................... 144
Rozdział 4. Zbieranie danych z baz danych .............................................................................. 147
43.
Uycie yahoo2mbox do pobierania wiadomoAci z grup Yahoo! .............................. 147
44.
Archiwizacja wiadomoAci z grup Yahoo! za pomoc WWW::Yahoo::Groups........149
45.
Zbieranie Buzz z Yahoo!................................................................................................ 153
46.
Pajki w katalogu Yahoo!.............................................................................................. 155
47.
Hledzenie nowoAci Yahoo!............................................................................................. 162
48.
Szukanie rozproszone w Yahoo! i Google.................................................................. 164
49.
Idea mindshare i katalog Yahoo! w Google............................................................... 168
50.
Wyniki z Google bez dzienników sieciowych........................................................... 172
51.
Pajki, Google a wiele domen ...................................................................................... 174
52.
Pobieranie recenzji z Amazon.com.............................................................................. 178
53.
Pobieranie drog pocztow nowo dodanych na Amazon.com recenzji ............... 180
54.
Pobieranie zalece< dla klienta Amazon.com ............................................................. 183
55.
Publikowanie statystyk Amazon.com Associates..................................................... 185
56.
Sortowanie Amazon.com według ocen klientów...................................................... 187
57.
Alexa i produkty podobne na Amazon.com.............................................................. 190
4
| Spis treci
58.
Uycie Javy do pobierania danych z Alexy ............................................................... 194
59.
Znajdowanie danych o albumie za pomoc FreeDB i Amazon.com..................... 196
60.
Poszerzanie swoich horyzontów muzycznych.......................................................... 203
61.
Horoskop na co dzie<.................................................................................................... 207
62.
Graficzna prezentacja danych: RRDTOOL................................................................. 209
63.
Zbieranie notowa< giełdowych.................................................................................... 213
64.
Wszystko o autorze ........................................................................................................ 216
65.
Bestsellery wydawnictwa O’Reilly a zainteresowanie w bibliotece ...................... 230
66.
Listy ksiek z All Consuming..................................................................................... 233
67.
Hledzenie paczek FedEx................................................................................................. 238
68.
Szukanie nowych komentarzy w dziennikach sieciowych ..................................... 240
69.
Agregowanie RSS i przesyłanie zmian ....................................................................... 244
70.
Uycie Link Cosmos na Technorati............................................................................. 251
71.
Szukanie powizanych pakietów RSS......................................................................... 254
72.
Automatyczne znajdowanie interesujcych nas dzienników sieciowych............. 264
73.
Pobieranie zapowiedzi programu telewizyjnego...................................................... 267
74.
Jaka jest pogoda u Twojego goAcia? ............................................................................ 271
75.
OkreAlanie trendów według lokalizacji ...................................................................... 274
76.
Znajdowanie najlepszych połcze< kolejowych........................................................ 279
77.
Palcem po mapie............................................................................................................. 282
78.
Angielski słowniczek ..................................................................................................... 287
79.
Zwizki słów w Lexical Freenet................................................................................... 291
80.
Zmiana formatowania raportów Bugtraq .................................................................. 294
81.
Zakładki w sieci via e-mail ........................................................................................... 298
82.
Publikacja w swojej witrynie zakładki Ulubione ...................................................... 304
83.
Analiza cen gier w GameStop.com.............................................................................. 311
84.
Na zakupy z PHP ........................................................................................................... 313
85.
Łczenie wyników z rónych wyszukiwarek............................................................ 319
86.
Robot Karaoke................................................................................................................. 323
87.
Przeszukiwanie Biur na Rzecz Poprawy JakoAci Usług........................................... 326
88.
Szukanie ocen sanitarnych............................................................................................ 329
89.
NieprzyzwoitoAci mówimy nie!................................................................................... 332
Rozdział 5. W trosce o własny stan posiadania ....................................................................... 335
90.
Uycie crona do automatyzacji zada< ........................................................................ 335
91.
Terminowe wykonywanie zada< bez crona .............................................................. 337
92.
Tworzenie kopii witryn za pomoc wget i rsync...................................................... 341
93.
Gromadzenie wyników poszukiwa< .......................................................................... 344
Spis treci
5
|
Rozdział 6. Teraz my dla innych................................................................................................. 349
94.
Uycie XML::RSS do przekształcania danych ........................................................... 350
95.
Umieszczanie w witrynie nagłówków RSS................................................................ 353
96.
Udost+pniamy nasz witryn+ dla wyrae< regularnych......................................... 356
97.
Udost+pnianie naszych zasobów dla automatów za pomoc interfejsu REST .......362
98.
Udost+pnianie zasobów przy uyciu XML-RPC....................................................... 365
99.
Tworzenie interfejsu IM ................................................................................................ 369
100.
Co dalej?........................................................................................................................... 372
Skorowidz .................................................................................................................................... 375
6
| Spis treci
Zgłoś jeśli naruszono regulamin