-
[Concept] Intermediate Linear AlgebraAI부트캠프 2021. 1. 19. 00:00
[Section1/Sprint3]
Variance 분산
데이터가 퍼져있는 정도
각 값들의 평균으로부터의 차이의 제곱 평균
분산 구하는 공식 :
python code :
data.var(ddof=0)
여기서 ddof를 0으로 지정해 주는 것은, 모집단의 분산을 계산하기 위함이다. ddof를 설정하지 않을 경우, default 값인 1로 설정되어 '샘플의 분산'으로 계산이 된다.
샘플의 분산 구하는 공식 :
python code :
data.var(ddof=1)
샘플의 분산은 분모가 'N-1'임에 주의하자. 이 이유는 다음 블로그를 참조하여, 표본의 분산이 모집단의 분산보다 작기 때문에, 이를 보완하기 위함임을 알 수 있다.
m.blog.naver.com/sw4r/221021838997
Standard Deviation 표준편차
분산은 데이터 Scale에 영향을 받는다. 따라서 표준편차를 사용하면 normalized 된 값을 얻을 수 있다. 표준편차는 분산의 제곱근이다.
python code :
data.std(ddof=0)
Covariance 공분산
하나의 변수가 변화할 때 다른 변수가 어떠한 연관성을 나타내며 변화하는지에 대한 지표이다.
x가 커지면 y도 증가 --> covariance 값은 양수
x가 커지면 y는 감소 --> covariance 값은 음수
python code :
df.cov()
여기서 결과값은 matrix로 표현되고, 이것을 variance-covariance matrix라 한다. 대각선 부분은 분산, 대각선 이외의 값들은 각 변수 간 공분산이다.
하지만 공분산 또한 data 의 scale에 영향을 받는다. 표준화된 값을 사용하기 위해 correlation coefficient를 사용한다.
Correlation coefficient (Pearson correlation) 상관계수
상관계수는 공분산을 변수의 표준편차로 각각 나누어 준 값이다.
-1에서 1 사이의 값을 나타내며, 이 때문에 data의 scale에 관계 없이 비교가 용이하다.
공식 :
python code :
df.corr()
상관계수의 절대값이 1이면 한 변수가 다른 변수에 대해 완벽한 선형관계를 갖고 있다는 것을 의미한다.
Spearman correlation
numeric 데이터가 아닌 categorical 데이터의 통계치를 구하기 위해 사용한다.
python code :
scipy.stats.pearsonr( )
Span
주어진 벡터의 조합으로 만들 수 있는 벡터의 집합 (공간)
linearly dependent vectors(선형관계가 있는 벡터) : 같은 span위에 있는 벡터들로, 이 벡터들의 조합으로는 더 큰 차원의 공간에 존재하는 벡터를 만들 수 없다.
Basis
공간(span)을 만들어 낼 수 있는 선형관계가 아닌 벡터들의 모음
Rank
matrix의 열을 이루는 벡터들로 만들 수 있는 span의 차원
matrix의 차원이 rank 보다 클 경우, matrix의 행 또는 열을 구성하는 벡터들 중, 선형관계의 벡터가 있다고 볼 수 있다.
다른 말로, rank는 matrix의 행 또는 열을 구성하는 벡터들 중, 서로 linearly dependent인 벡터의 개수이다.
(행렬의 열과 행의 rank는 같은 값을 가진다!)
2차원 공간에서의 Linear projection
*초록색 선이 v, 파란색 벡터가 w라고 하면,
*붉은 색 벡터가 projection of w on v
*여기서 노란색 선과 붉은색 선은 서로 직교한다. 이 두 선을 벡터로 두고 내적(dot product)하면 0이 된다! (직교하는 벡터끼리의 내적 = 0)
*linear projection이 필요한 이유는, 데이터를 표기할 때 필요한 feature의 개수를 줄이는 데 사용된다. (PCA 참고)
*적은 양의 data를 담고 있는 feature를 줄여 차원을 축소할 수 있다.
'AI부트캠프' 카테고리의 다른 글
[Method] Linear regression (선형회귀) (0) 2021.01.28 [Concept] Section review (0) 2021.01.27 [Concept] Vectors/ Metrices (0) 2021.01.13 [Concept] Hypothesis Test (2) 2021.01.06 [Method] Feature Engineering (2) 2021.01.04