PCA(Principal Component Analysis, 주성분) 분석
PCA 분석에 대해 알아보다가 너무 상세하게 잘 설명한 블로그를 보아 남긴다. ( Excelsior-JH 님의 블로그) 그리고 일부 요약. PCA(Principal Component Analysis) 주성분 분석은 가장 대표적인 차원 축소 알고리즘이다. 고차원의 데이터를 저차원의 데이터로 환원시키는 기법을 말한다. PCA는 먼저 데이터에 가장 가까운 초평면(hyperplane)을 구한 다음, 데이터를 이 초평면에 투영(projection)시킨다. 그 중에서도 내가 얻었던 중요한 정보는 (1) 분산 보존 저차원의 초평면에 데이터를 투영하기 전에 먼저 적절한 초평면을 선택해야 한다. PCA는 데이터의 분산이 최대가 되는 축을 찾는다. 즉, 원본 데이터셋과 투영된 데이터셋 간의 평균제곱거리를 최소화 하는 축을 찾는다. 아래의 그림에서 왼쪽 2차원 데이터셋을 오른쪽 그림처럼 투영했을 때 축으로 투영한 데이터가 분산이 최대로 보존되는 것을 확인할 수 있다. JH 블로그 中 대기화학 분야에서는 발생원 추정 을 위해 PCA분석이 사용되고, 중금속 성분의 단위가 모두 같기 때문에 공분산행렬을 이용해 PCA 분석을 실시할 수 있다. 주성분 고유치(eigen value)를 X개로 분류하여 전체정보에 대해 몇 %를 보여주고 있는지도 도출되며, 나아가 이를 통해 발생원의 강도까지도 해석이 가능하다. 예를 들면, TC, NO 3 - , SO 4 2- , NH 4 + 가 전체 정보의 52%를 차지하였고, 이를 Reference의 Source Profile을 참고하여 오염원을 도로 오염원(Road-Dust)으로 추정하는 것. EPA에서 PM2.5에 대한 오염원 분류표가 있다. (일일히 첨자를 해줘야되는 관계로.. 예시는 여기까지..)