| www :: scraper :: Lite. °Ë»ö ¿£Áø¿¡¼ °á°ú¸¦ ±Ü¾î ¸ðÀ¸±âÀ§ÇÑ ÇÁ·¹ÀÓ ¿öÅ© |
Áö±Ý ´Ù¿î·Îµå |
www :: scraper :: Lite. ¼øÀ§ ¹× ¿ä¾à
- °Ô½ÃÀÚ À̸§:
- Roger Pettett
- °Ô½ÃÀÚ À¥»çÀÌÆ®:
- http://search.cpan.org/~rpettett/
www :: scraper :: Lite. ű×
www :: scraper :: Lite. ¼³¸í
°Ë»ö ¿£Áø¿¡¼ °á°ú¸¦ ±Ü¾î ¸ðÀ¸±âÀ§ÇÑ ÇÁ·¹ÀÓ ¿öÅ©ÀÔ´Ï´Ù www :: ½ºÅ©·¡ÆÛ :: Lite´Â Perl.Synopsis ³» $ domain = 'http : //devsite.local/'·Î ÀÛ¼ºµÈ HTTP ½ºÅ©·¹ÀÌÆÛ ¸ðµâÀÔ´Ï´Ù. ³» $ scraper = www :: scraper :: lite-> new (); $ scraper-> crawl ($ domain, { '// a'tags tags a ¸ðµç 'tags ³» ($ scraper, $ nodes) = @_; $ scraper-> entqueue (grep {$ _ = ~ m {^ $ domain}}} #ÀÌ µµ¸ÞÀÎ ¸Ê {$ scraper-> URL_REMOVE_ANCHOR ($ _) # anchor ¸Ê¾ø´Â ÆäÀÌÁö ¸¸ À妽º ÆäÀÌÁö ¸¸ {$ scraper-> url_make_absolute ($ _make_absolute ($ _)} # Àε¦¼´Â Àý´ë URL ¸Ê ÇÊ¿ä { $ _-> {href}} # 'a'dom node @ {$ nodes});}, '/ *'=> ¸ðµç ³»¿ë¿¡ ´ëÇÑ ÇÏÀ§ {# Çڵ鷯 ³» ($ ½ºÅ©·¹ÀÌÆÛ, $ nodes) = @ _, $ scraper -> {clent} -> {Response} -> ÄÜÅÙÃ÷; # http response},}; ¿ä±¸ »çÇ× : ¡¤ Perl. ¡¤ ¾ö°ÝÇÑ ¡¤ °æ°í ¡¤ LWP :: UserAgent. ¡¤ HTML :: TreeBuilder :: XPath.
www :: scraper :: Lite. °ü·Ã ¼ÒÇÁÆ®¿þ¾î