| HTML Æļ HTML Æļ´Â ¼±Çü ¶Ç´Â Áßø µÈ ¹æ½ÄÀ¸·Î HTMLÀ» ±¸¹® ºÐ¼®ÇÏ´Â µ¥ »ç¿ëµÇ´Â Java ¶óÀ̺귯¸®ÀÔ´Ï´Ù. |
Áö±Ý ´Ù¿î·Îµå |
HTML Æļ ¼øÀ§ ¹× ¿ä¾à
- °Ô½ÃÀÚ À̸§:
- Derrick Oswald
- °Ô½ÃÀÚ À¥»çÀÌÆ®:
- http://htmlparser.org
HTML Æļ ű×
HTML Æļ ¼³¸í
HTML Æļ´Â ¼±Çü ¶Ç´Â Áßø µÈ ¹æ½ÄÀ¸·Î HTMLÀ» ÆĽÌÇÏ´Â µ¥ »ç¿ëµÇ´Â Java ¶óÀ̺귯¸®ÀÔ´Ï´Ù. HTMLParser´Â ½ÇÁ¦ HTMLÀ»À§ÇÑ ½´ÆÛ ÆнºÆ® ¸®¾ó ŸÀÓ ÆļÀÔ´Ï´Ù. HTMLParser¿¡ ´ëºÎºÐÀÇ °³¹ßÀÚ¸¦ ²ø¾î ´ç±â´Â °ÍÀº ¼³°è, ¼Óµµ ¹× ½ºÆ®¸®¹Ö ½ÇÁ¦ HTMLÀ» ó¸® ÇÒ ¼öÀÖ´Â ´É·ÂÀÌ ´Ü¼ø ÇØÁ³½À´Ï´Ù. Æļ°¡ ó¸®ÇÏ´Â µÎ °¡Áö ±âº» »ç¿ë »ç·Ê´Â ÃßÃâ ¹× º¯È¯ (ÇÕ¼º »ç¿ë »ç·Ê, ¿©±â¼ HTML ÆäÀÌÁö´Â óÀ½ºÎÅÍ »ý¼ºµÇ¸ç ´Ù¸¥ µµ±¸°¡ µ¥ÀÌÅÍ ¼Ò½º¿¡ ´õ °¡±õ°Ô 󸮵˴ϴÙ.) ÀÌÀü ¹öÀüÀº À¥ ÆäÀÌÁö¿¡¼ µ¥ÀÌÅÍ ÃßÃâ¿¡ ÁýÁߵǾî ÀÖÁö¸¸ HTMLParserÀÇ ¹öÀü 1.4´Â À¥ ÆäÀÌÁö¸¦ ´Ü¼øÈÇÏ°í ÆíÁýÇÏ°í verbatim tohtml () ¸Þ¼µå¸¦ »ç¿ëÇÏ¿© À¥ ÆäÀÌÁö¸¦ º¯È¯ÇÏ´Â ¿µ¿ª¿¡¼ »ó´çÇÑ Çâ»óµÈ ±â´ÉÀÌ ÀÖ½À´Ï´Ù. Java ÇÁ·Î±×·¡¹Ö ¾ð¾î¿¡ Äڵ带 ÀÛ¼ºÇÒ ¼ö ÀÖ½À´Ï´Ù. ¼ÀÖ´Â °Íó·³ À¯¿ë ÇÒ ¼öÀÖ´Â ÇÁ·Î±×·¥ÀÇ ÀϺΠ¿¹Á¦ ÇÁ·Î±×·¥ÀÌ Á¦°ø µÇ´õ¶óµµ, ÀÚ½ÅÀÇ ÇÁ·Î±×·¥À» ¸¸µé°Å³ª ¿øÇÏ´Â ÀÀ¿ë ÇÁ·Î±×·¥°ú ÀÏÄ¡Çϵµ·Ï Á¦°øµÇ´Â °ÍµéÀ» ¼öÁ¤ÇÏ´Â °ÍÀÌ ÇÊ¿äÇÒ °ÍÀÔ´Ï´Ù. ¶óÀ̺귯¸®¸¦ »ç¿ëÇÏ·Á¸é ´ÙÀ½À» ¼öÇàÇؾßÇÕ´Ï´Ù. ÄÄÆÄÀÏ ¹× ½ÇÇà Áß¿¡ HTMLLEXER.JAR ¶Ç´Â HTMLPARSER.jar¸¦ CLASSPATH¿¡ Ãß°¡ÇϽʽÿÀ. htmllexer.jar´Â ÆäÀÌÁöÀÇ ÆäÀÌÁöÀÇ ÀÏ¹Ý ¹®ÀÚ¿, ºñ°í ¹× ÅÂ±× ³ëµå¿¡ ³·Àº ¼öÁØÀÇ ¾×¼¼½º¸¦ Á¦°øÇÕ´Ï´Ù. htmllexer.jar¿¡¼ ¹ß°ß µÈ Ŭ·¡½º°¡ Æ÷ÇÔ µÈ htmlparser.jar´Â ¹®ÀÚ¿, ºñ°í ¹× ±âŸ ÅÂ±× ³ëµå°¡ Æ÷ÇÔ µÈ Áßø µÈ Â÷º°È µÈ ű×ÀÇ ½ÃÄö½º·Î ÆäÀÌÁö¿¡ ´ëÇÑ ¾×¼¼½º¸¦ Á¦°øÇÕ´Ï´Ù. ±×·¡¼ ·º¼ NextNode () ¸Þ¼µå·Î È£Ãâ µÈ Ãâ·ÂÀº ´ÙÀ½°ú °°½À´Ï´Ù.
"ȯ¿µ" etc ... parser nodeIteratorÀÇ Ãâ·Â ű׸¦ ±× ¾ÆÀ̵é°ú ´Ù¸¥ ³ëµå·Î µÕÁö¸¦ Áþ°í
"ȯ¿µ" etc ... Æļ°¡ ±ÕÇüÀ» ÀÒ°ÔÇÏ·Á°íÇÕ´Ï´Ù. ÆäÀÌÁöÀÇ ±¸Á¶¸¦ Á¦½ÃÇϴ űװ¡Àִ ű׸¦ ¿°í ·º¼´Â ´Ü¼øÈ÷ ³ëµå¸¦ ¹ñ¾î³À´Ï´Ù. ÀÀ¿ë ÇÁ·Î±×·¥ÀÌ ÆäÀÌÁö¿¡ ´ëÇÑ °â¼ÕÇÑ ±¸Á¶ Áö½Ä ¸¸ ÇÊ¿äÇϸç ÁÖ·Î °³ÀÎ, °í¸³ µÈ ³ëµå¿Í °ü·ÃÀÌ ÀÖÀ¸¸é °æ·® ·º¼¸¦ »ç¿ëÇؾßÇÕ´Ï´Ù. ±×·¯³ª ÀÀ¿ë ÇÁ·Î±×·¥¿¡ ÆäÀÌÁöÀÇ Áßø µÈ ±¸Á¶¿¡ ´ëÇÑ Áö½ÄÀÌ ÇÊ¿äÇÑ °æ¿ì ¿¹¸¦ µé¾î Å×À̺íÀ» ó¸® ÇÒ ¼ö ÀÖ½À´Ï´Ù. ¾Æ¸¶µµ Àüü Æļ¸¦ »ç¿ëÇÒ °ÍÀÔ´Ï´Ù .ExtractionExtractionÀº ¼Ò½º ÆäÀÌÁö¸¦ º¸Á¸Çϱâ À§ÇØ ÀǹÌÇÏÁö ¾Ê´Â ¸ðµç Á¤º¸ °Ë»ö ÇÁ·Î±×·¥À» Æ÷ÇÔÇÕ´Ï´Ù. ÀÌ Ç¥Áö´Â ´ÙÀ½°ú °°Àº »ç¿ëÀ» »ç¿ëÇÕ´Ï´Ù : ¡¤ ÅؽºÆ® ÃßÃâ, ¿¹¸¦ µé¾î À¥ ÆäÀÌÁö¸¦ ÅëÇØ Å©·Ñ¸µÇϱâ À§ÇØ ÅؽºÆ® °Ë»ö ¿£Áø µ¥ÀÌÅͺ£À̽º, ¿¹ : À¥ ÆäÀÌÁö¸¦ ÅëÇØ Å©·Ñ¸µÇϰųª ÀüÀÚ ¸ÞÀÏ ÁÖ¼Ò¸¦ ¼öÈ® ÇÒ ¼ö Àְųª À¥ ÆäÀÌÁö¿¡¼ ÇÁ·Î±×·¡¹Ö ¹æ½Ä µ¥ÀÌÅÍ ÀÔ·Â ¡¤ À̹ÌÁö ¼öÁý, À̹ÌÁö ¼öÁý ¶Ç´Â »ç¿îµå ¡¤ ºê¶ó¿ìÀú ÇÁ·±Æ® ¿£µå, ÆäÀÌÁö µð½ºÇ÷¹ÀÌÀÇ ¿¹ºñ ´Ü°è ¡¤ ¸µÅ© °Ë»ç, ¸µÅ©°¡ À¯È¿ÇÕ´Ï´Ù. ¸µÅ©°¡ À¯È¿ÇÕ´Ï´Ù. ´Ü¼øÇÑ dicfstphere ÀÌ»óÀÇ ÆäÀÌÁö Â÷ÀÌÁ¡ È®ÀÎ HTMLParser Äڵ庣À̽ºÀÇ ¿©·¯ ½Ã¼³Àº ÇÊÅÍ, ¹æ¹®ÀÚ ¹× JavaBeans.TransformationTransformation¿¡´Â ÀԷ°ú Ãâ·ÂÀÌ HTML ÆäÀÌÁö ÀÎ ¸ðµç 󸮰¡ Æ÷ÇԵ˴ϴÙ. ÀϺΠ¿¹´Â ´ÙÀ½°ú °°½À´Ï´Ù. ¡¤ ÆäÀÌÁö ĸó, À¥¿¡¼ ·ÎÄà µð½ºÅ© ¡¤ °Ë¿ ¹× ÆäÀÌÁö¿¡¼ ºÒÄèÇÑ ´Ü¾î ¹× ±¸¸¦ Á¦°ÅÇÏ°í, ¿À·ù ÆäÀÌÁö¸¦ ¼öÁ¤ÇÏ´Â ¡¤ ±¤°í Á¦°Å, excising ±¤°í¸¦ ÂüÁ¶ÇÏ´Â URL ¡¤ ±âÁ¸ À¥ ÆäÀÌÁö¸¦ XmlduringÀ¸·Î À̵¿Çϰųª ÆäÀÌÁö¿¡¼ ÀÐÀº ÈÄ¿¡ ³ëµåÀÇ Á¶ÀÛÀº "Á¦ À§Ä¡¿¡"¿¡¼ ¸¹Àº º¯È¯ ÀÛ¾÷À» ¼öÇà ÇÒ ¼ö ÀÖ½À´Ï´Ù. ÀÌ´Â ToHTML () ¸Þ¼µå·Î Ãâ·Â ÇÒ ¼ö ÀÖ½À´Ï´Ù. ÀÀ¿ë ÇÁ·Î±×·¥ÀÇ ¸ñÀû¿¡ µû¶ó PrototypicalNodeFactory¿Í ÇÔ²² ³ëµå Àå½Ä°¡, ¹æ¹®ÀÚ ¶Ç´Â »ç¿ëÀÚ Á¤ÀÇ Å±׸¦ »ìÆ캸°í ½ÍÀ» °ÍÀÔ´Ï´Ù. HTML Æļ´Â ±âº»ÀûÀ¸·Î ´ç½ÅÀÌ ¾Ë°íÀÖ´Â GNU ´ú ÀÏ¹Ý ´ëÁß ¶óÀ̼±½º¿¡¼ ¸±¸®½º µÈ ¿ÀÇ ¼Ò½º ¶óÀ̺귯¸®ÀÔ´Ï´Ù. ÀÚÀ¯·Ó°Ô ÀÛ¼ºÀÚ°¡ Á¦Ãâ ÇÑ °Í°ú HTMLParserÀÇ ¼Ò½º Äڵ尡 ´Ù¸¥ Á¦Ç°°ú ÇÔ²² Á¦°øµÇ°Å³ª »ç¿ëÇÒ ¼öÀÖ´Â ÇÑ ´Ù¸¥ Á¦Ç°ÀÇ "±×´ë·Î"±×´ë·Î ". ¼öÁ¤ ¶Ç´Â ÀÓº£µðµå »ç¿ëÀ» À§ÇØ LGPL ¶óÀ̼¾½º¸¦ ÂüÁ¶ÇϽʽÿÀ.
HTML Æļ °ü·Ã ¼ÒÇÁÆ®¿þ¾î