ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Concept] Intermediate Linear Algebra
    AI부트캠프 2021. 1. 19. 00:00

    [Section1/Sprint3]

     

    Variance 분산 

     

    데이터가 퍼져있는 정도

    각 값들의 평균으로부터의 차이의 제곱 평균

     

    분산 구하는 공식 :

    python code :

    data.var(ddof=0)

     

    여기서 ddof를 0으로 지정해 주는 것은, 모집단의 분산을 계산하기 위함이다. ddof를 설정하지 않을 경우, default 값인 1로 설정되어 '샘플의 분산'으로 계산이 된다.

     

    샘플의 분산 구하는 공식 :

    python code :

    data.var(ddof=1)

    샘플의 분산은 분모가 'N-1'임에 주의하자. 이 이유는 다음 블로그를 참조하여, 표본의 분산이 모집단의 분산보다 작기 때문에, 이를 보완하기 위함임을 알 수 있다.

    m.blog.naver.com/sw4r/221021838997

     

     

    Standard Deviation 표준편차

    분산은 데이터 Scale에 영향을 받는다. 따라서 표준편차를 사용하면 normalized 된 값을 얻을 수 있다. 표준편차는 분산의 제곱근이다.

    python code :

    data.std(ddof=0)

     

    Covariance 공분산

    하나의 변수가 변화할 때 다른 변수가 어떠한 연관성을 나타내며 변화하는지에 대한 지표이다.

    x가 커지면 y도 증가 --> covariance 값은 양수

     

     

     

     

     

    x가 커지면 y는 감소 --> covariance 값은 음수

     

     

     

     

     

    python code :

    df.cov()

    여기서 결과값은 matrix로 표현되고, 이것을 variance-covariance matrix라 한다. 대각선 부분은 분산, 대각선 이외의 값들은 각 변수 간 공분산이다.

    하지만 공분산 또한 data 의 scale에 영향을 받는다. 표준화된 값을 사용하기 위해 correlation coefficient를 사용한다.

     

    Correlation coefficient (Pearson correlation) 상관계수

    상관계수는 공분산을 변수의 표준편차로 각각 나누어 준 값이다.

    -1에서 1 사이의 값을 나타내며, 이 때문에 data의 scale에 관계 없이 비교가 용이하다.

    공식 :

     

    python code :

    df.corr()

    상관계수의 절대값이 1이면 한 변수가 다른 변수에 대해 완벽한 선형관계를 갖고 있다는 것을 의미한다.

     

    Spearman correlation

    numeric 데이터가 아닌 categorical 데이터의 통계치를 구하기 위해 사용한다.

    python code :

    scipy.stats.pearsonr( )

     

    Span

    주어진 벡터의 조합으로 만들 수 있는 벡터의 집합 (공간)

     

    linearly dependent vectors(선형관계가 있는 벡터) : 같은 span위에 있는 벡터들로, 이 벡터들의 조합으로는 더 큰 차원의 공간에 존재하는 벡터를 만들 수 없다.

     

     

    Basis

    공간(span)을 만들어 낼 수 있는 선형관계가 아닌 벡터들의 모음

     

    Rank

    matrix의 열을 이루는 벡터들로 만들 수 있는 span의 차원

    matrix의 차원이 rank 보다 클 경우, matrix의 행 또는 열을 구성하는 벡터들 중, 선형관계의 벡터가 있다고 볼 수 있다.

    다른 말로, rank는 matrix의 행 또는 열을 구성하는 벡터들 중, 서로 linearly dependent인 벡터의 개수이다.

    (행렬의 열과 행의 rank는 같은 값을 가진다!)

     

    2차원 공간에서의 Linear projection

    *초록색 선이 v, 파란색 벡터가 w라고 하면,

    *붉은 색 벡터가 projection of w on v

     

    *여기서 노란색 선과 붉은색 선은 서로 직교한다. 이 두 선을 벡터로 두고 내적(dot product)하면 0이 된다! (직교하는 벡터끼리의 내적 = 0)

     

    *linear projection이 필요한 이유는, 데이터를 표기할 때 필요한 feature의 개수를 줄이는 데 사용된다. (PCA 참고)

    *적은 양의 data를 담고 있는 feature를 줄여 차원을 축소할 수 있다.

    'AI부트캠프' 카테고리의 다른 글

    [Method] Linear regression (선형회귀)  (0) 2021.01.28
    [Concept] Section review  (0) 2021.01.27
    [Concept] Vectors/ Metrices  (0) 2021.01.13
    [Concept] Hypothesis Test  (2) 2021.01.06
    [Method] Feature Engineering  (2) 2021.01.04
Designed by Tistory.