| jtokeniser. Á÷°üÀûÀ¸·Î ÀÚ¿¬ ¾ð¾î·Î ´Ù·ç´Â ¼¼Æ®ÀÇ ÅäÅ« ¼¼Æ®¸¦ °áÇÕÇÑ ÀÚÀ¯ ¼ÒÇÁÆ®¿þ¾î ¼Ö·ç¼Ç |
Áö±Ý ´Ù¿î·Îµå |
jtokeniser. ¼øÀ§ ¹× ¿ä¾à
- °Ô½ÃÀÚ À̸§:
- Andy Roberts
- ¿î¿µÃ¼Á¦:
- Windows All / Unix
jtokeniser. ű×
jtokeniser. ¼³¸í
ÅäÅ« ¸µ ¹®ÀÚ¿Àº ±¸¼º ÅäÅ« / ´Ü¾î·Î ÀÎÇÑ »ç¼ÒÇÑ ¿¹°¡ ±î´Ù·Î¿ï ¼ö ÀÖ½À´Ï´Ù. ƯÈ÷ ÀÚ¿¬ ¾ð¾î¸¦ ´Ù·ç´Â °æ¿ì ´Ü¾î¸¦ °Ý¸®Çϱâ À§ÇØ ±¸µÎÁ¡À» °í·ÁÇؾßÇÕ´Ï´Ù. °¢ ÅäÅ«Àú´Â Ŭ·¡½º¸¦ ÀνºÅϽºÈÇÏ°í ÅäÅ«À» ÃßÃâÇÏ´Â ¹æ¹ýÀÇ °üÁ¡¿¡¼ java.util.StringTokenizer¿Í À¯»çÇÑ ±¸Á¶¸¦ äÅÃÇÕ´Ï´Ù. Áï, »ç¿ëÇϱⰡ °£´ÜÇÕ´Ï´Ù. ÀÔ·ÂÇÏ°í º¹»ç ¹× ºÙ¿© ³Ö±â¸¦ ÀÔ·ÂÇϰųª ÅؽºÆ® ÆÄÀÏÀ» ÀÀ¿ë ÇÁ·Î±×·¥¿¡ ³ÖÀ» ¼ö ÀÖ½À´Ï´Ù. ÅäÅ« µðÀú°¡ ¼±ÅÃÇÒ ¼öÀÖ´Â ¼±Åà (¹× °ü½É ¿É¼Ç)À» ¼±ÅÃÇÑ ´ÙÀ½ ÅäÅ« È ¹öÆ°À» ´©¸¨´Ï´Ù. °á°ú°¡ 󸮵Ǵ Áï½Ã °á°ú°¡ Ç¥½ÃµÇ°í ¼±ÅÃÇÑ °æ¿ì °á°ú¸¦ ÆÄÀÏ¿¡ ÀúÀåÇÒ ¼öÀÖ´Â ¿É¼ÇÀÌ ÀÖ½À´Ï´Ù. GUI´Â ƯÈ÷ NLP °úÁ¤°ú °°Àº ±³¼ö ȯ°æ¿¡¼ ÅäÅ« È ¹æ¹ýÀ¸·Î ½ÇÇèÇÏ´Â µ¥ À¯¿ëÇÕ´Ï´Ù. JTokeniser µµ¼°üÀ» »ç¿ëÇÏ°íÀÚÇÏ´Â »ç¶÷µé¿¡°Ôµµ °ü½ÉÀÌ ¾øÁö¸¸ Äڵ带 Á÷Á¢ È°¿ëÇÏ´Â Java ÇÁ·Î±×·¡¹Ö °æÇèÀÌ ¾ø½À´Ï´Ù. jTokeniser´Â ¸ðµç ÅäÅ« ¼¼ÀÌÀú·Î ±¸¼ºµÈ 4 °³ÀÇ ÅäÅ« ¼¼ÀÌÀú·Î ±¸¼ºµÇ¾î ÀÖ½À´Ï´Ù. ¡¤ WhitespaceTokeniser - °ø¹é, ´º¶óÀÎ, ÅÇ ¹× LineFeed°¡ Æ÷ÇÔ µÈ °ø¹éÀÌ Æ÷ÇÔ µÈ ¸ðµç °ø¹é ¹ß»ý½Ã ¹®ÀÚ¿À» ºÐ¸®ÇÕ´Ï´Ù. ¡¤ StringTokeniser - ±âº»ÀûÀ¸·Î java.util.StringTokenizer¿Í µ¿ÀÏÇÑ ¹æ¹ýÀ¸·Î µ¿ÀÏÇÑ ¸Þ¼Òµå (ÅäÅ© Å×ÀÌÀú¿¡¼ È®ÀåµË´Ï´Ù). ±×·¯³ª ±âº» µ¿ÀÛÀº WhitesPaceTokenizer·Î ÀÛµ¿ÇÏ´Â °ÍÀÔ´Ï´Ù. ±×·¯³ª ´Ü¾î ±¸ºÐ ±âÈ£¸¦ ³ªÅ¸³»´Â µ¥ »ç¿ëÇÒ ¹®ÀÚ ÁýÇÕÀ» ÁöÁ¤ÇÒ ¼ö ÀÖ½À´Ï´Ù. ¡¤ regextokeniser -ÀÌ ÅäÅ« ¸ÞÀÌÀú´Â Á¤±Ô Ç¥Çö½ÄÀ» »ç¿ëÇÏ¿© ÅäÅ«ÀÌ ¹«¾ùÀÎÁö Á¤ÀÇ ÇÒ ¼öÀÖ´Â °Íó·³ ÈξÀ À¯¿¬ÇÕ´Ï´Ù. ±×·¡¼ "\ w +"´Â Çϳª ÀÌ»óÀÇ ±ÛÀÚ¿Í ÀÏÄ¡ ÇÒ ¶§¸¶´Ù ´Ü¾î¸¦ °í·ÁÇÒ °ÍÀÔ´Ï´Ù. ±âº»ÀûÀ¸·Î °ø¹é ÅäÅ« µðÀú¿Í µ¿ÀÏÇÑ Á¤±Ô Ç¥Çö½ÄÀ» »ç¿ëÇÕ´Ï´Ù. ¡¤ regexseparatortokeniser - ÀÌ°ÍÀº °í±Þ StringTokeiser·Î »ý°¢ÇÒ ¼ö ÀÖ½À´Ï´Ù. StringTokeiser´Â °³º° ¹®ÀÚ ÁýÇÕÀ¸·Î ±¸ºÐ ±âÈ£¸¦ Á¤ÀÇÇÏ´Â °ÍÀ¸·Î Á¦ÇѵǴ ¹Ý¸é, RegexseParatokeoceniser´Â ´õ dzºÎÇÏ°í À¯¿¬ÇÑ Á¢±Ù ¹æ½ÄÀ» À§ÇØ Á¤±Ô Ç¥Çö½ÄÀ» È°¿ëÇÒ ¼ö ÀÖ½À´Ï´Ù. ¡¤ Breakiteratorokeniser - ¶óÀ̺귯¸®ÀÇ °¡Àå Á¤±³ÇÑ ÅäÅ« ¼¼ÀÌÀú Áß Çϳª´Â ÀÚ¿¬½º·¯¿î ¾ð¾î ¹®ÀÚ¿¿¡¸¸ ´Ü¾î¸¦ °Ý¸®ÇؾßÇÕ´Ï´Ù. ¶ÇÇÑ ´Ü¾î¸¦ ã´Â ¹æ¹ý, ±¸µÎÁ¡À» ¹«½ÃÇÏ´Â ¹æ¹ýÀ» ¾Æ´Â ¹æ¹ý¿¡ ´ëÇÑ ³»Àå µÈ ±ÔÄ¢ÀÌ Á¦°øµË´Ï´Ù. ¡¤ SentenceTokeniser - ÀÌ°ÍÀº ¶ÇÇÑ À§¿Í °°Àº breachiterater¸¦ »ç¿ëÇÏÁö¸¸ ¹®Àå °æ°è¸¦ ã´ÂÂÊÀ¸·Î Á¶Á¤µË´Ï´Ù. ÀÌ kokeniserÀÇ "ÅäÅ«"Àº »ç½Ç °³º° ¹®ÀåÀÔ´Ï´Ù.
jtokeniser. °ü·Ã ¼ÒÇÁÆ®¿þ¾î