¿©¸®°í HTML Æļ°£´ÜÇÏÁö¸¸ °·ÂÇÑ Java ¶óÀ̺귯¸®´Â HTML ¹®¼ÀÇ ÀϺκРºÐ¼® ¹× Á¶ÀÛÀ» Çã¿ëÇÕ´Ï´Ù. | |
Áö±Ý ´Ù¿î·Îµå |
¿©¸®°í HTML Æļ ¼øÀ§ ¹× ¿ä¾à
±¤°í
¿©¸®°í HTML Æļ ű×
¿©¸®°í HTML Æļ ¼³¸í
°£´ÜÇÏÁö¸¸ °·ÂÇÑ Java ¶óÀ̺귯¸®°¡ HTML ¹®¼ÀÇ ÀϺΠºÐ¼® ¹× Á¶ÀÛÀ» Çã¿ëÇÕ´Ï´Ù. Jerich HTML Æļ´Â ÀϺΠÀϹÝÀûÀÎ ¼¹ö Ãø ű׸¦ Æ÷ÇÔÇÏ¿© HTML ¹®¼ÀÇ ÀϺθ¦ ºÐ¼®ÇÏ°í Á¶ÀÛ ÇÒ ¼ö ÀÖÀ¸¸ç, ÀϺΠÀϹÝÀûÀÎ ¼¹ö Ãø ű׸¦ Æ÷ÇÔÇÏ¿© ArrobatimÀ» ÀÎ½Ä ÇÒ ¼ö ¾ø°Å³ª À¯È¿ÇÏÁö ¾ÊÀº HTMLÀ» Àç»ýÇÒ ¼ö ÀÖ½À´Ï´Ù. ¶ÇÇÑ °í±Þ HTML ¾ç½Ä Á¶ÀÛ ±â´ÉÀ» Á¦°øÇÕ´Ï´Ù .Jericho HTML Æļ ÇÁ·ÎÁ§Æ®´Â GNU ´ú ÀÏ¹Ý ´ëÁß ¶óÀ̼¾½º (LGPL)¿¡ µû¶ó Ãâ½Ã µÈ ¿ÀÇ ¼Ò½º ¶óÀ̺귯¸®ÀÔ´Ï´Ù. µû¶ó¼ ¶óÀ̼¾½º ¹®¼¿¡ ÀÚ¼¼ÇÑ Á¶°ÇÀÌ Àû¿ëµÇ´Â »ó¾÷¿ë ÀÀ¿ë ÇÁ·Î±×·¥¿¡¼´Â ¹«·á·Î »ç¿ëÇÒ ¼ö ÀÖ½À´Ï´Ù. ´ÙÀ½Àº "Jericho HTML Parser"ÀÇ ¸î °¡Áö ÁÖ¿ä ±â´ÉÀÔ´Ï´Ù. ¡¤ Àüü ¹®¼ÀÇ ±¸¹® ºÐ¼® Æ®¸®´Â ÀÌÁ¦±îÁö »ý¼ºµÇÁö ¾Ê½À´Ï´Ù. ¹®¼ ¼Ò½º ÅؽºÆ®´Â ÇöÀç ÀÛ¾÷°ú °ü·ÃµÈ ¸¶Å© ¾÷¿¡¸¸ °Ë»öµË´Ï´Ù. À̸¦ ÅëÇØ ¶óÀ̺귯¸®´Â À߸øµÇ¾ú°Å³ª À߸ø ÁöÁ¤µÈ HTML ¶Ç´Â ´Ù¸¥ ¼¹ö ¶Ç´Â Ŭ¶óÀ̾ðÆ® Ãø ÄÚµå, ½ºÅ©¸³Æ®, ¸ÅÅ©·Î ¶Ç´Â ¸¶Å© ¾÷À» Æ÷ÇÔÇÏ´Â ¹®¼¸¦ ºÐ¼®ÇÏ°í ¼öÁ¤ÇÒ ¼ö ÀÖ½À´Ï´Ù. ´ëºÎºÐÀÇ ´Ù¸¥ Æļ´Â Àû¿ëµÇµµ·Ï ¸í½Ã ÀûÀ¸·Î ÇÁ·Î±×·¡¹ÖµÇÁö ¾ÊÀº ÄÜÅÙÃ÷¸¦ ó¸® ÇÒ ¼ö ¾ø½À´Ï´Ù. ¡¤ ¸ðµç ÆÄ½Ì µÈ ¼¼±×¸ÕÆ®ÀÇ ¿øº» ÅؽºÆ®ÀÇ ½ÃÀÛ ¹× ³¡ À§Ä¡´Â ±¸¹® ºÐ¼® Æ®¸®¿¡¼ Àüü ¹®¼¸¦ À籸¼ºÇÏÁö ¾Ê°íµµ ¹®¼ÀÇ ¼±ÅÃµÈ ¼¼±×¸ÕÆ® ¸¸ ¼öÁ¤ÇÒ ¼ö ÀÖµµ·Ï ¾×¼¼½º ÇÒ ¼ö ÀÖ½À´Ï´Ù. À§ÀÇ À§ÀÇ Á¶ÇÕ À¸·ÎÀÌ ±â´ÉÀº ÅøŶÀ» ¸Å¿ì °·ÂÇÏ°Ô ¸¸µì´Ï´Ù. ¡¤ Ãʱ⠰ªÀÇ ÃßÃâ ¹× Àα¸¸¦ Æ÷ÇÔÇÏ¿© HTML ¾ç½Ä ÄÁÆ®·ÑÀÇ ºÐ¼® ¹× Á¶ÀÛ¿¡ °£´ÜÇÏÁö¸¸ Æ÷°ýÀû ÀÎ ÀÎÅÍÆäÀ̽º¸¦ Á¦°øÇÏ°í Àбâ Àü¿ë ¶Ç´Â µ¥ÀÌÅÍ µð½ºÇ÷¹ÀÌ ¸ðµå·Î º¯È¯ÇÕ´Ï´Ù. ¾ç½Ä Á¦¾îÀÇ ºÐ¼®Àº ¶ÇÇÑ ¾ç½ÄÀ¸·ÎºÎÅÍ ¼ö½Å µÈ µ¥ÀÌÅÍ°¡ ÀûÀýÇÑ ¹æ½ÄÀ¸·Î ÀúÀåµÇ°í Á¦½Ã µÉ ¼öÀÖ°ÔÇÑ´Ù. ¡¤ ASP, JSP, PSP, PHP ¹× Mason Server ű״ Æļ°¡ ÀνÄÇϱâ À§ÇØ µî·Ï ÇÒ ¼ö ÀÖÀ¸¸ç ÀÌ·¯ÇÑ ¾ð¾î¿¡ ´ëÇÑ ½ÇÁ¦ Æļ¸¦ ¶óÀ̺귯¸®¿¡ ÅëÇÕÇÏÁö ¾Ê°íµµ Á¤È®ÇÏ°Ô Àνĵ˴ϴÙ. ±×·± ´ÙÀ½ ¶óÀ̺귯¸®´Â ³ª¸ÓÁö ¹®¼¸¦ ÆÄ½Ì ÇÒ ¶§ ÀÌ·¯ÇÑ ¼¼±×¸ÕÆ® Áß Çϳª¸¦ ¹«½ÃÇÒ ¼ö ÀÖÀ¸¹Ç·Î HTML ±¸¹®À» ¹æÇØÇÏÁö ¾Êµµ·ÏÇϽʽÿÀ. (Segment.IgnoreWhenParsing () ÂüÁ¶) ¡¤ »ç¿ëÀÚ Á¤ÀÇ ÅÂ±× À¯ÇüÀ» ½±°Ô Á¤ÀÇÇÏ°í Æļ°¡ ÀÎ½Ä ÇÒ ¼ö ÀÖ½À´Ï´Ù. ÀÌ ¸±¸®½º¿¡¼´Â »õ·Î¿î ±â´É : ¹ö±× ¼öÁ¤: ¡¤ segment.getAllStartTags ()¿¡ ¹«ÇÑ ·çÇÁ ¡¤ Segment.getAllElements ()¿¡ ¹«ÇÑ ·çÇÁ () ¡¤ segment.getFirst * ¸Þ¼Òµå´Â °æ°è ¼¼±×¸ÕÆ® ¿ÜºÎÀÇ ¼¼±×¸ÕÆ®¸¦ ¹ÝȯÇÕ´Ï´Ù. ¡¤ SEGMENT.GOTALLELEMESS ¸Þ¼Òµå´Â ÀϺΠ»óȲ¿¡¼ µ¿ºÀ µÈ ¸ðµç ¿ä¼Ò¸¦ ¹ÝȯÇÏÁö ¾Ê¾Ò½À´Ï´Ù. ¡¤ Segment.getAllElements ¸Þ¼ÒµåÀÇ °íÁ¤ ¹®¼ ¿À·ù. ¡¤ StreamedSource Ŭ·¡½º°¡ Ãß°¡µÇ¾ú½À´Ï´Ù. ±âÁ¸ ÇÁ·Î±×·¥ÀÇ µ¿ÀÛ¿¡ ¿µÇâÀ» ÁÙ ¼öÀÖ´Â º¯°æ »çÇ× : ¡¤ Ŭ·¡½º¿¡¼ ÀÎÅÍÆäÀ̽º·Î ÆĽÖÀ» º¯°æÇß½À´Ï´Ù. ¡¤ segment.getnodeIterator ()°¡ ÀÌÁ¦ ¹®ÀÚ ÂüÁ¶¸¦ º°µµÀÇ ³ëµå·Î ¹ÝȯÇÕ´Ï´Ù. ¡¤ Ư¼º °ª Á¤±Ô Ç¥Çö½ÄÀ» ±â¹ÝÀ¸·Î ÅÂ±× °Ë»ö ¹æ¹ýÀ» Ãß°¡Çß½À´Ï´Ù. ¡¤ HTML Ŭ·¡½º ¼Ó¼ºÀ» ±â¹ÝÀ¸·Î ÅÂ±× °Ë»ö ¹æ¹ýÀ» Ãß°¡Çß½À´Ï´Ù. ¡¤ static source.legacynodeIteratorcompatabilityMode ¼Ó¼ºÀ» ÀϽÃÀûÀ¸·Î Ãß°¡ÇÏ¿© ÀÌÀü ¹öÀüÀÇ segment.getnodeIterator () ±â´ÉÀ» º¹¿øÇÕ´Ï´Ù. ¡¤ ÆÄ ±×·ì¿¡¼ char [] ±â¹Ý °Ë»ö ¹æ¹ýÀ» Á¦°ÅÇß½À´Ï´Ù. ¡¤ CharacterReference.appendCharto (Appendable) ¸Þ¼µå¸¦ Ãß°¡Çß½À´Ï´Ù. ¡¤ OutputDocument (¼¼±×¸ÕÆ®) »ý¼ºÀÚ°¡ Ãß°¡µÇ¾ú½À´Ï´Ù. ¡¤ StreamedSourceCopy »ùÇà ÇÁ·Î±×·¥ÀÌ Ãß°¡µÇ¾ú½À´Ï´Ù.
¿©¸®°í HTML Æļ °ü·Ã ¼ÒÇÁÆ®¿þ¾î