| À¥ :: ½ºÅ©·¹ÀÌÆÛ HTML ¹× CSS ¼±Åñ⠶Ǵ XPath Ç¥Çö½ÄÀ» »ç¿ëÇÏ´Â À¥ ½ºÅ©·¦ ÅøŶ |
Áö±Ý ´Ù¿î·Îµå |
À¥ :: ½ºÅ©·¹ÀÌÆÛ ¼øÀ§ ¹× ¿ä¾à
- ƯÇã:
- Perl Artistic License
- °Ô½ÃÀÚ À̸§:
- Tatsuhiko Miyagawa
- °Ô½ÃÀÚ À¥»çÀÌÆ®:
- http://search.cpan.org/~miyagawa/
À¥ :: ½ºÅ©·¹ÀÌÆÛ Å±×
À¥ :: ½ºÅ©·¹ÀÌÆÛ ¼³¸í
HTML ¹× CSS ¼±Åñ⠶Ǵ XPath Ç¥Çö½ÄÀ» »ç¿ëÇÏ´Â À¥ ½ºÅ©·¦ ÅøŶ Web :: Scraper´Â RubyÀÇ µ¿µîÇÑ Scrapi¿¡¼ ¿µ°¨À» ¾òÀº À¥ ½ºÅ©·¹ÀÌÆÛ ÅøŶÀÔ´Ï´Ù. HTML ¹®¼¸¦ Ž»öÇÏ°í ±ò²ûÇÏ°Ô ¹è¿ µÈ Perl Data STRUTUREÀ» ¹ÝȯÇϱâÀ§ÇÑ DSL-ISH ÀÎÅÍÆäÀ̽º¸¦ Á¦°øÇÕ´Ï´Ù. ½ºÅ©·¹ÀÌÆÛ ¹× ÇÁ·Î¼¼½º ºí·ÏÀº ÃßÃâ ÇÒ ¹®¼ÀÇ ¼¼±×¸ÕÆ®¸¦ Á¤ÀÇÇÏ´Â ¹æ¹ýÀ» Á¦°øÇÕ´Ï´Ù. ±×°ÍÀº CSS ¹× HTML ¼±Åñâ¿Í XPath Ç¥Çö½ÄÀ» ÀÌÇØÇÕ´Ï´Ù. Synopsis URI¸¦ »ç¿ëÇÕ´Ï´Ù. À¥ :: ½ºÅ©·¹ÀÌÆÛ; # ¸ÕÀú ½ºÅ©·¹ÀÌÆÛ ºí·ÏÀ» ¸¸µì´Ï´Ù. My $ Tweets = Scraper {status status "¸¦ »ç¿ëÇÏ¿© ¸ðµç LIS¸¦ ±¸¹® ºÐ¼®ÇÏ°í °á°ú # ¹è¿À» ±± µîÀ¸·Î ÀúÀåÇϽʽÿÀ. ¿ì¸®´Â °¢ ±±¿¡ ´ëÇØ ´Ù¸¥ ½ºÅ©·¹ÀÌÆÛ¸¦ »ðÀÔÇß½À´Ï´Ù. ÇÁ·Î¼¼½º "li.status", "tweets [] => Scraper {#"= {straper {struction-intress "="reset-date "¹× ¸µÅ© ÇÁ·Î¼¼½º"¸¦ Ŭ·¡½º # "¸µÅ©·Î °¡Á® ¿À½Ê½Ã¿À".Entry- ÄÜÅÙÃ÷ ", º»Ã¼ => 'ÅؽºÆ®'; ÇÁ·Î¼¼½º ".entry-date", => 'text'; ÇÁ·Î¼¼½º 'a ', ¸µÅ© => '@href'; }; }; MY $ RES = $ Tweets-> Scrape (URI-> »õ ( "http://twitter.com/miyagawa")); # °á°ú¿¡ $ Tweet (@ {$ res-> {tweets}}) {print "$ tweet -> {body} $ tweet -> {when} (¸µÅ© : $ tweet -> ¸µÅ© })\N"; } ¿ä±¸ »çÇ× : ¡¤ Perl.
À¥ :: ½ºÅ©·¹ÀÌÆÛ °ü·Ã ¼ÒÇÁÆ®¿þ¾î