[수학] 왜도 (skewness)

2023. 9. 30. 01:39수학

1. 왜도?

 

분포의 비대칭도를 나타내는 수.

대칭적 분포(ex. 정규분포)의 왜도는 0이다.

 

오른쪽으로 치우쳐진 분포는 왜도가 양수,

왼쪽으로 치우쳐진 분포는 왜도가 음수이다.

 

 

2. 어떻게 계산되는거지?

 

 

n : 데이터 개수

x_i : 현재 데이터의 값

x : 데이터들의 평균

s : 데이터들의 표준편차

 

즉, 왜도는 third standardized moment (3차 표준 모멘트)로 정의되어 있다.

 

 

3. pandas의 skew함수

 

python의 유명한 데이터처리 모듈인 pandas에서는 왜도를 계산하는 매서드를 기본 제공한다.

 

그런데 이상한 점은 위의 공식의 계산과 다른 결과를 내놓는다.

 

정의와 pandas 내장함수로 구한 skewness값의 차이

 

skew_manual이라는 함수를 새롭게 정의하였으며, 이는 위의 언급된 공식으로 skewness를 계산한 결과를 반환한다.

다음으로 skew() 매서드 또한 pandas에서 내부적으로 skewness를 계산해 반환한다.

 

그런데, 거의 비슷하지만 미세하게 다른 값을 내놓는것을 알 수 있다.

 

4. 알고리즘의 차이가 있는걸까?

https://saturncloud.io/blog/how-does-pandas-calculate-skew/

 

How Does Pandas Calculate Skew | Saturn Cloud Blog

As a data scientist or software engineer youre probably familiar with the powerful data manipulation library pandas One of the many statistical functions available in pandas is the calculation of skewness a measure of the asymmetry of a dataset In this art

saturncloud.io

위의 사이트를 읽어보면, pandas에서의 skew함수는 third standardized moment 공식이 아닌 더 효율적인 방식으로 계산되고 있다고 한다. 그런데 구체적인 알고리즘은 찾지 못했다..

 

 

 

5. 데이터값에 로그를 씌우면 왜도가 낮아진다.

 

이유에 대해서 차차 공부할 생각이다.