DL/Basic

Cross Entropy 맛보기

scone 2024. 5. 9. 18:08

 

Entropy에 대해 설명해주세요.

  • 정보량

$$ I(X)=log_b\big(\frac{1}{P(X)}\big)=-log_bP(X) $$

  • 엔트로피

$$ H(P)=-\sum_iP(i)logP(i) $$

더보기

확률 변수의 Entropy란 평균 정보량을 의미합니다. 놀라움의 평균, 불확실성의 평균 이라고도 표현합니다.

 

* 저 스스로는 정보량에 대해 이해하기를, 특정 사건을 다루기 위해 쓰여야하는 비용 정도로 이해했습니다.

가령 비가 내리는 것을 보고 우리는 "비가 내린다." 라고 표현하면 되지만, 비를 난생 처음 본 사람들은 "하늘에서 물방울들이 무리지어, 시간적 딜레이가 거의 없이, 지속적으로 내렸다. 하늘은 꺼멓게 되었고, 귓가에 물방울이 땅에 부딪혀 튀기는 소리가 사방에서 들렸고, 도로에는 물이 조금씩 차올랐는데, 동시에 흙이 어느정도 흡수를 하여서, 신발 밑창에 닿는 정도로만 물이 차올랐다...." 라고 길고 장황하게 설명해야할 것입니다. 이때 전자는 의레 일어나는 일이 일어난 것이고, 후자는 일어날 수 없는 일이 일어난 것일 겁니다. 따라서 전자는 엔트로피가 낮은 것이고, 후자는 엔트로피가 높은 것이다 라고 이해했습니다.

 

* 식에서 로그의 밑이 2라면, 이는 비트를 통해 사건을 전달하는데 드는 비용. 다시 말해서 비트로 표현했을 때의 비트의 길이 정도로 표현할 수 있을 것입니다. 이때의 그 길이가 정보량이 되는 것입니다.

 

위의 참고 )

https://www.youtube.com/watch?v=z1k8HVU4Mxc

https://norman3.github.io/prml/docs/chapter01/6.html#:~:text=%EC%97%94%ED%8A%B8%EB%A1%9C%ED%94%BC%EB%8A%94%20%EB%9E%9C%EB%8D%A4%20%EB%B3%80%EC%88%98%EC%9D%98,%ED%95%98%EA%B2%8C%20%EB%90%98%EB%AF%80%EB%A1%9C%20Lower%20Bound%EC%9E%84

 

 

 

Cross Entropy에 대해 설명해주세요.

$$ H(p,q)=-\sum_{x}p(x)\log q(x) $$

더보기

예측 확률 분포에 따른 평균 정보량을 의미합니다. 실제 확률 분포와 별개인 예측 확률 분포를 이용해 정보량을 측정하며, 실제 확률 분포를 가지고 평균을 계산합니다.

실제 분포를 근사 분포로부터 표현할 때 나타나는 평균 정보량

 

* 딥러닝에서 모델이 예측 확률 분포 q를 실제 확률 분포 p에 가깝게 하기 위한 목적 함수로 기능할 수 있습니다.
( 실제 확률 분포 p는 정답 레이블로 계산 합니다. )

* 엔트로피는 Cross Entropy의 Lower Bound가 되게 됩니다. ( H(p, q) >= H(p) )

 

 

 

KL - Divergence가 무엇인가?

$$ D_{KL}(p||q) = -{\underset{x}\Sigma} p(x)\ log\ q(x) + {\underset{x}\Sigma} p(x)\ log\ p(x) $$

더보기

예측 확률 분포와 실제 확률 분포 간의 상대적 엔트로피를 측정합니다. 두 확률 분포간의 차이를 측정하는 지표로 사용할 수 있습니다.

 

 

 

ML에서 Loss Func으로 Cross-Entropy를 두었을 때와, KL-Divergence를 두었을 때 결과가 다르지 않은 이유는 무엇인가?

더보기

모델의 예측 확률 분포(q)를 정답 레이블의 확률 분포( p )에 가깝기 하기 위해, 두 확률 분포간의 차이를 비교하는 KL-Divergence를 사용할 수 있습니다. 다만 정답 레이블의 확률 분포( p )를 대변하는 엔트로피( H(p) )는 변하지 않는 상수값이기 때문에,  KL-Divergence를 계산하는 것은 모델의 예측 확률 분포를 대변하는 크로스 엔트로피( H(p, q) )만을 계산하는 것과 다를 바가 없게 됩니다.  

 

 

 

Mutual Information이 무엇인가요?

$$ I(X; Y) \triangleq D_{KL}(p(x, y) \parallel p(x)p(y)) = \sum_{y \in Y} \sum_{x \in X} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} $$

$$ I(X; Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) $$

더보기

두 확률 변수 간의 상호 의존성을 측정하는 지표 입니다.
결합 확률 분포 P(X,Y)와 두 주변 확률 분포 P(X), P(Y) 간의 곱에 대한 엔트로피 차이를 계산합니다.

 

 

출처 )

https://en.wikipedia.org/wiki/Entropy_(information_theory)

https://3months.tistory.com/436