Àú¹ø¿¡ ´Ù·ð´ø ±×·¡µð¾ðÆ® ºÎ½ºÆÃ(Gradient Boosting)ÀÇ ½Ç½ÀÀ» ÁøÇàÇϰڽÀ´Ï´Ù.
Outline
EM¿¡¼ Á¦°øÇÏ´Â ±×·¹À̵ð¾ðÆ® ºÎ½ºÆÃ(Gradient Boosting)³ëµå¸¦ »ç¿ëÇÒ °Í ÀÌ¸ç °úÀûÇÕÀ» ¹æÁöÇϱâ À§ÇÑ ¿É¼Çµé¿¡ ´ëÇØ »ìÆìº¸°í ¿É¼ÇµéÀ»
º¯°æÇÏ¿© ¼º´É¿¡ ¾î¶² ¿µÇâÀ» ¹ÌÄ¡´ÂÁö »ìÆìº¸°Ú½À´Ï´Ù.


¹Ýº¹¼ö
ÀϹÝÀûÀ¸·Î ¹Ýº¹¼ö NÀ» ³ôÀÌ¸é ¼º´ÉÀº ³ô¾ÆÁöÁö¸¸ °úÀûÇÕÀÌ ÀϾ°í
¿¬»ê·®ÀÌ ´Ã¾î³ª´Â ´ÜÁ¡ÀÌ ÀÖ½À´Ï´Ù. µû¶ó¼ ÀûÀýÇÑ NÀ» ¼³Á¤ÇÏ´Â
°ÍÀÌ Áß¿äÇÕ´Ï´Ù.
Ãà¼Ò
±×·¡µð¾ðÆ® ºÎ½ºÆÃÀÇ ¼º´ÉÀº Ãà¼Ò(shrinkage)¿¡ µû¶óµµ ´Þ¶óÁö´Âµ¥ ±× °úÁ¤Àº ¾Æ·¡¿Í °°ÀÌ ÇнÀ¼ÓµµÀÇ °³³äÀ» °¡Áö´Â ¸Å°³º¯¼öv¸¦ ÀÌ¿ëÇÏ´Â °ÍÀÔ´Ï´Ù.
ÀϹÝÀûÀ¸·Î ÇнÀ¼Óµµ°¡ ÀÛÀº (v<1) ±×·¡µð¾ð ºÎ½ºÆÃÀÌ shrinkage°¡ ¾ø´Â (v=1) °Í º¸´Ù ¸ðµ¨ÀÇ ÀϹÝÈ ´É·ÂÀÌ ÁÁ¾ÆÁö´Â °ÍÀ¸·Î ¾Ë·ÁÁ® ÀÖ½À´Ï´Ù.
±×·¯³ª ÇнÀ¼Óµµ v°¡
ÀÛÀ»¼ö·Ï ´õ ¸¹Àº ¹Ýº¹ÀÌ ÇÊ¿äÇϱ⠶§¹®¿¡ ¿¬»ê·®ÀÌ Áõ°¡ÇÑ´Ù´Â °Í°ú °úÀûÇÕÀÇ ´ÜÁ¡ÀÌ ÀÖ½À´Ï´Ù.

ÈĹö ¼Õ½ÇÇÔ¼ö
Àú¹ø½Ã°£¿¡ ¾ð±ÞÇß´ø ÈĹö¼Õ½ÇÇÔ¼ö(ÀÌ»óÄ¡°¡ ¸¹Àº µ¥ÀÌÅͼ¿¡ »ç¿ë)µµ ¿É¼Ç¿¡ Æ÷ÇԵǾî ÀÖ½À´Ï´Ù. ÇÏÁö¸¸ À̹ø ½Ç½À¿¡´Â »ç¿ëÇÏÁø ¾Ê°Ú½À´Ï´Ù.
Dataset
µ¥ÀÌÅͼÂÀº UCI machine
learning repository¿¡¼ ¹èÆ÷ÇÑ redwinequality.scv ¸¦ »ç¿ëÇß°í Æ÷ÇÔµÈ º¯¼öµéÀº ¾Æ·¡¿Í °°½À´Ï´Ù. ¿ÍÀÎÀÇ ÆòÁ¡À» ÀǹÌÇÏ´Â quality º¯¼ö¸¦ Ÿ°ÙÀ¸·Î ¼³Á¤ÇÏ¿´½À´Ï´Ù. µ¥ÀÌÅ͸¦ °¡Á®¿À´Â °úÁ¤¿¡¼´Â º¯¼öÁ¦°Å ¾øÀÌ ÀüºÎ °¡Á®¿ÔÀ¸¸ç º¯¼öº¯È¯ ³ëµå¸¦ ¿¬°áÇÏ¿© Interval inputÀ» Best·Î ¼³Á¤ÇÏ¿´½À´Ï´Ù.


Flow diagram
ºÐ¼® È帧µµ´Â ´ÙÀ½°ú °°½À´Ï´Ù.

¿ì¼± ¹Ýº¹¼öNÀÌ Áõ°¡ÇÔ¿¡ µû¶ó ¸ðµ¨ÀÇ ¼º´ÉÀÌ ÁÁ¾ÆÁö´Â Áö È®ÀÎÇϱâ
À§ÇØ v°ª(shrinkage)À» 0.5·Î °íÁ¤ÇÑ »óÅ¿¡¼ N°ªÀ»
20, 50, 100, 150, 200À¸·Î ´Ù¸£°Ô ÇÏ¿© ¸ðµ¨À» ¸¸µé¾î º¸¾Ò½À´Ï´Ù.

ÇÏÁö¸¸ ¸ðµç °æ¿ì¿¡¼ Æò°¡ÀÇ ±âÁØÀÌ µÇ´Â Åë°è·®µéÀÌ ¸ðµÎ °°°Ô ³ª¿Ô°í, ÀÌ´Â
v=0.5ÀÏ ¶§´Â ¹Ýº¹¼ö°¡ 20¸¸ µÇ¾îµµ ÃæºÐÇÑ ¹Ýº¹¼öÀ̱â
¶§¹®ÀÎ °ÍÀ¸·Î ÆÇ´ÜÇÏ¿© ¹Ýº¹¼ö¸¦ 1, 5, 10, 15 , 20À¸·Î ¼³Á¤ÇÏ¿© ´Ù½Ã µ¹·Áº¸¾Ò½À´Ï´Ù.

±× °á°ú, ¹Ýº¹¼ö 20¿¡¼ 10±îÁö´Â ¸¶Âù°¡Áö·Î ¶È°°Àº °ªµéÀÌ ³ª¿ÔÁö¸¸ 5¿¡¼ºÎÅÍ´Â ¼º´ÉÀÌ ³·¾ÆÁø
°ÍÀ¸·Î º¸¾Æ ÃÖÀûÀÇ ¹Ýº¹¼ö´Â 10¿¡¼ 5»çÀÌ¿¡ Á¸ÀçÇÑ´Ù´Â
°ÍÀ» ¹ß°ßÇß½À´Ï´Ù.

¸¶Âù°¡Áö ¹æ¹ýÀ¸·Î v=0.1ÀÎ °æ¿ì ÃÖÀûÀÇ ¹Ýº¹¼ö¸¦ ¾Ë¾Æº» °á°ú 30¿¡¼ 50 »çÀÌ¿¡ ÃÖÀûÀÇ ¹Ýº¹¼ö°¡ Á¸ÀçÇÏ¿´½À´Ï´Ù. V°¡ ÀÛ¾ÆÁ³±â ¶§¹®¿¡ ÃÖÀûÀÇ ¹Ýº¹¼ö°¡ Ä¿Áø °ÍÀ» È®ÀÎÇÏ¿´½À´Ï´Ù.
Conclusion
À̹ø½Ã°£¿¡´Â ºÎ½ºÆÃÀÇ ¹ßÀüµÈ ÇüÅÂÀÎ ±×·¡µð¾ðÆ® ºÎ½ºÆÃÀ» E-Miner ÀDZ׷¹À̵ð¾ðÆ®
ºÎ½ºÆÃ(Gradient Boosting)³ëµå¸¦ ÅëÇØ ½Ç½ÀÇØº¸¾Ò½À´Ï´Ù.
ÇнÀ¼Óµµ¸¦ ³ªÅ¸³»´Â ¸Å°³º¯¼öv¿¡ µû¶ó ÃÖÀûÀÇ ¹Ýº¹¼ö°¡ ´Þ¶óÁö´Â °ÍÀ» ¾Ë ¼ö ÀÖ¾ú½À´Ï´Ù. ÇÏÁö¸¸ v°¡ ÀÛ¾ÆÁú¼ö·Ï ¸ðµ¨ÀÇ ¼º´ÉÀÌ ¹Ýµå½Ã ÁÁ¾ÆÁö´Â °ÍÀº ¾Æ´Ï¾ú½À´Ï´Ù. ÀÌ¿¡ ´ëÇÑ ÀÌÀ¯´Â ¾ÆÁ÷ °øºÎ°¡ ´ú µÅ¼ ¼³¸íÇØ µå¸± ¼ö´Â ¾øÁö¸¸ ÃÖÀûÀÇ ±×·¡µð¾ðÆ® ºÎ½ºÆÃ ¸ðµ¨À» ¸¸µé±â À§Çؼ´Â
¸Å°³º¯¼ö¸¦ ³Ê¹« Å©Áöµµ ÀÛÁöµµ ¾Ê°Ô Á¶ÀýÇÏ´Â °ÍÀÌ Áß¿äÇÏ´Ù´Â °ÍÀ» ¾Ë ¼ö ÀÖ¾ú½À´Ï´Ù. ´ÙÀ½½Ã°£¿¡´Â SVM (support vector machine) ¿¡ ´ëÇØ ¾Ë¾Æº¸µµ·Ï ÇϰڽÀ´Ï´Ù.
Reference
https://en.wikipedia.org/wiki/Gradient_boosting
https://projecteuclid.org/download/pdf_1/euclid.aos/1013203451
|