[Concept] Intermediate Linear Algebra

AI부트캠프 2021. 1. 19. 00:00

[Section1/Sprint3]

Variance 분산

데이터가 퍼져있는 정도

각 값들의 평균으로부터의 차이의 제곱 평균

분산 구하는 공식 :

python code :

data.var(ddof=0)

여기서 ddof를 0으로 지정해 주는 것은, 모집단의 분산을 계산하기 위함이다. ddof를 설정하지 않을 경우, default 값인 1로 설정되어 '샘플의 분산'으로 계산이 된다.

샘플의 분산 구하는 공식 :

python code :

data.var(ddof=1)

샘플의 분산은 분모가 'N-1'임에 주의하자. 이 이유는 다음 블로그를 참조하여, 표본의 분산이 모집단의 분산보다 작기 때문에, 이를 보완하기 위함임을 알 수 있다.

m.blog.naver.com/sw4r/221021838997

Standard Deviation 표준편차

분산은 데이터 Scale에 영향을 받는다. 따라서 표준편차를 사용하면 normalized 된 값을 얻을 수 있다. 표준편차는 분산의 제곱근이다.

python code :

data.std(ddof=0)

Covariance 공분산

하나의 변수가 변화할 때 다른 변수가 어떠한 연관성을 나타내며 변화하는지에 대한 지표이다.

x가 커지면 y도 증가 --> covariance 값은 양수

x가 커지면 y는 감소 --> covariance 값은 음수

python code :

df.cov()

여기서 결과값은 matrix로 표현되고, 이것을 variance-covariance matrix라 한다. 대각선 부분은 분산, 대각선 이외의 값들은 각 변수 간 공분산이다.

하지만 공분산 또한 data 의 scale에 영향을 받는다. 표준화된 값을 사용하기 위해 correlation coefficient를 사용한다.

Correlation coefficient (Pearson correlation) 상관계수

상관계수는 공분산을 변수의 표준편차로 각각 나누어 준 값이다.

-1에서 1 사이의 값을 나타내며, 이 때문에 data의 scale에 관계 없이 비교가 용이하다.

공식 :

python code :

df.corr()

상관계수의 절대값이 1이면 한 변수가 다른 변수에 대해 완벽한 선형관계를 갖고 있다는 것을 의미한다.

Spearman correlation

numeric 데이터가 아닌 categorical 데이터의 통계치를 구하기 위해 사용한다.

python code :

scipy.stats.pearsonr( )

Span

주어진 벡터의 조합으로 만들 수 있는 벡터의 집합 (공간)

linearly dependent vectors(선형관계가 있는 벡터) : 같은 span위에 있는 벡터들로, 이 벡터들의 조합으로는 더 큰 차원의 공간에 존재하는 벡터를 만들 수 없다.

Basis

공간(span)을 만들어 낼 수 있는 선형관계가 아닌 벡터들의 모음

Rank

matrix의 열을 이루는 벡터들로 만들 수 있는 span의 차원

matrix의 차원이 rank 보다 클 경우, matrix의 행 또는 열을 구성하는 벡터들 중, 선형관계의 벡터가 있다고 볼 수 있다.

다른 말로, rank는 matrix의 행 또는 열을 구성하는 벡터들 중, 서로 linearly dependent인 벡터의 개수이다.

(행렬의 열과 행의 rank는 같은 값을 가진다!)

2차원 공간에서의 Linear projection

*초록색 선이 v, 파란색 벡터가 w라고 하면,

*붉은 색 벡터가 projection of w on v

*여기서 노란색 선과 붉은색 선은 서로 직교한다. 이 두 선을 벡터로 두고 내적(dot product)하면 0이 된다! (직교하는 벡터끼리의 내적 = 0)

*linear projection이 필요한 이유는, 데이터를 표기할 때 필요한 feature의 개수를 줄이는 데 사용된다. (PCA 참고)

*적은 양의 data를 담고 있는 feature를 줄여 차원을 축소할 수 있다.

'AI부트캠프' 카테고리의 다른 글

[Method] Linear regression (선형회귀) (0)	2021.01.28
[Concept] Section review (0)	2021.01.27
[Concept] Vectors/ Metrices (0)	2021.01.13
[Concept] Hypothesis Test (2)	2021.01.06
[Method] Feature Engineering (2)	2021.01.04

ABOUT ME

Yum's blog Yum's blog

Variance 분산

Standard Deviation 표준편차

Covariance 공분산

Correlation coefficient (Pearson correlation) 상관계수

Spearman correlation

Span

Basis

Rank

2차원 공간에서의 Linear projection

'AI부트캠프' 카테고리의 다른 글

티스토리툴바

ABOUT ME

Variance 분산

Standard Deviation 표준편차

Covariance 공분산

Correlation coefficient (Pearson correlation) 상관계수

Spearman correlation

Span

Basis

Rank

2차원 공간에서의 Linear projection

'AI부트캠프' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바