ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Concept] Feature Engineering
    AI부트캠프 2020. 12. 29. 23:46

    [section1-sprint1]

     

    Feature Engineering

    methods : use domain knowledge / visualization / statistics

    techniques : outlier petection tech / handling missing value / one hot encoding
         *one hot encoding : text 대신 numerical value로 classify

    tidy 형태 : 행 - observation, 열 - feature


    Feature Engineering은 말 그대로 데이터에 특성을 다루는 분야로, data cleaning을 용이하게한다.

     

    실험실에서 일하면서 다른 연구원에게 받은 자료를 보고 나도 똑같은 형태로 데이터를 정리한 적이 있었다. 두번의 실험 결과를 바탕으로 각각에서 도출한 결과값을 더해서 표 마지막 열에 추가했었는데, 그것이 무슨 의미인지 모르고 그저 다른 연구원을 따라했을 뿐이었다. 진행상황에 대한 발표를 하고 피드백을 받으면서 알게되었다. 아, 그건 의미가 없는 데이터였구나.

     

    Data에는 4가지 type이 있다. 이전 글에서 나와있듯이, absolute zero가 존재하고, 겉보기에 ratio scale data로 보여도, 그 데이터가 어떤 목적으로 수집되었는지에 따라 data type을 다르게 구분할 수 있다고한다.

     

    내가 만약 feature engineering에 대해 지식이 있었다면, 실험실에서 데이터를 분석할 때, Null 값을 알맞게 imputation 하고, 의미없는 데이터나 outlier를 배제할 수 있었겠지. data type(int, string, ...)을 확인하는 것도 우선시 되어야 했을 것이다. data type을 확인않고 연산을 시도한 경험도 많았기 때문에...ㅎ 그럼 더 빠르고 효율적으로 분석할 수 있지 않았을까, 하는 생각이 들었다.

Designed by Tistory.