www :: scraper :: Lite.

°Ë»ö ¿£Áø¿¡¼­ °á°ú¸¦ ±Ü¾î ¸ðÀ¸±âÀ§ÇÑ ÇÁ·¹ÀÓ ¿öÅ©
Áö±Ý ´Ù¿î·Îµå

www :: scraper :: Lite. ¼øÀ§ ¹× ¿ä¾à

±¤°í

  • Rating:
  • ƯÇã:
  • GPL v3
  • °Ô½ÃÀÚ À̸§:
  • Roger Pettett
  • °Ô½ÃÀÚ À¥»çÀÌÆ®:
  • http://search.cpan.org/~rpettett/

www :: scraper :: Lite. ű×


www :: scraper :: Lite. ¼³¸í

°Ë»ö ¿£Áø¿¡¼­ °á°ú¸¦ ±Ü¾î ¸ðÀ¸±âÀ§ÇÑ ÇÁ·¹ÀÓ ¿öÅ©ÀÔ´Ï´Ù www :: ½ºÅ©·¡ÆÛ :: Lite´Â Perl.Synopsis ³» $ domain = 'http : //devsite.local/'·Î ÀÛ¼ºµÈ HTTP ½ºÅ©·¹ÀÌÆÛ ¸ðµâÀÔ´Ï´Ù. ³» $ scraper = www :: scraper :: lite-> new (); $ scraper-> crawl ($ domain, { '// a'tags tags a ¸ðµç 'tags ³» ($ scraper, $ nodes) = @_; $ scraper-> entqueue (grep {$ _ = ~ m {^ $ domain}}} #ÀÌ µµ¸ÞÀÎ ¸Ê {$ scraper-> URL_REMOVE_ANCHOR ($ _) # anchor ¸Ê¾ø´Â ÆäÀÌÁö ¸¸ À妽º ÆäÀÌÁö ¸¸ {$ scraper-> url_make_absolute ($ _make_absolute ($ _)} # Àε¦¼­´Â Àý´ë URL ¸Ê ÇÊ¿ä { $ _-> {href}} # 'a'dom node @ {$ nodes});}, '/ *'=> ¸ðµç ³»¿ë¿¡ ´ëÇÑ ÇÏÀ§ {# Çڵ鷯 ³» ($ ½ºÅ©·¹ÀÌÆÛ, $ nodes) = @ _, $ scraper -> {clent} -> {Response} -> ÄÜÅÙÃ÷; # http response},}; ¿ä±¸ »çÇ× : ¡¤ Perl. ¡¤ ¾ö°ÝÇÑ ¡¤ °æ°í ¡¤ LWP :: UserAgent. ¡¤ HTML :: TreeBuilder :: XPath.


www :: scraper :: Lite. °ü·Ã ¼ÒÇÁÆ®¿þ¾î