13.3 요인분석의 개요
1. 개념
요인분석은 다수 변인들간의 관계(상관관계)를 분석하여 변수들의 바탕을 이루는 공통차원들(common underlying dimensions)을 통해 이 변수들을 설명하는 통계기법이다.. 요인분석의 목적은 다수의 변수들을 정보손실을 최소화화면서 소수의 요인들(factors)로 축약하는 것이다.
요인분석에는 독립변수와 종속변수가 없으며, 모든 변수들 간의 관계를 분석함으로써 변수들의 토대를 이루는 요인을 발견하는 것이다. 요인분석은 주어진 자료 자체를 분석하는 것으로 분석결과로부터 모집단의 특성에 관한 추정을 하지 않는다. 따라서 추계통계기법이 아닌 기술통계기법으로, 모수와 통계량, 가설검증 등의 개념은 요인분석에 적용되지 않는다.
2. 자료
요인분석을 하기 위해서는 변수가 간격척도 혹은 비율척도에 의해 측정되어야 한다.
또한 표본의 크기(관측치의 수)는 100개 이상이 바람직하며 최소한 50개는 되어야 한다.
변수의 수를 고려하면 변수의 수보다 관측치의 수가 10배 이상이 바람직하며 최소한 5배는 되어야 한다.
요인분석을 하기 위해서는 먼저 원자료로부터 상관관계행렬이 만들어지며, 이 상관관계행렬이 요인분석을 위한 입력자료(input data)가 된다. 그런데 요인분석은 기본적으로 상관관계가 높은 변수끼리 높은 변수들끼리 그룹핑하는 것이므로 변수들 간의 상관관계가 전반적으로 매우 낮다면 (대체로 ±0.3 이하), 그 자료는 요인분석에 부적합하다고 할 수 있다.
3.. 요인추출방법
요인추출방법에는 주성분분석과 공통요인분석의 두 가지가 있는데, 주성분분석이 보다 널리 이용된다.
- 주성분분석(principal component analysis) : 원래의 변수들의 분산 중 가급적 많은 부분을 설명하는 소수의 요인을 추출하는 데 목적이 있다. 그러므로 이 경우 변수들로부터 요인이 추출된다(variables → component). 주성분분석의 경우 상관행렬의 대각선에 1이 사용되는데 이는 모든 분산(total variance)이 사용된다는 것을 의미한다.
(※ SPSS의 경우 주성분분석에 의해 요인을 추출하는 경우 추출된 요인을 성분(component)으로 표기한다.)
- 공통요인분석(common factor analysis) : 원래 변수들의 토대가 되는 잠재차원들(latent dimensions or constructs)을 찾아내는 데 목적이 있다. 그러므로 이 경우 요인들로부터 변수들이 산출된 것으로 본다(factor→variables), 상관행렬의 대각선에는 communalities가 사용되는데 이는 공통분산(common variance, shared variance)만이 사용된다는 것을 의미한다. (※공통요인분석은 실행상 몇 가지 문제를 갖는다.)
추출할 요인의 수를 결정하는 방법에는 다음의 몇 가지가 있다.
(1)Eigenvalues
eigenvalue는 한 요인의 설명력을 나타내는데 한 요인에 대한 '요인적재값의 제곱의 합'을 가리킨다. 그러므로 eigenvalue가 크다는 것은 그 요인이 변수들의 분산을 잘 설명한다는 것을 의미한다. eigenvalue를 기준으로 할 때는 보통 eigenvalue 1이상을 갖는 요인의 수만큼 추출한다. 원칙적으로 변수의 수가 20개를 넘는 경우 이 방법이 적절하나, 변수의 수가 그보다 적은 경우에도 이 방법이 많이 사용된다.
(2)요인의 수를 사전에 결정한다.
이 방법은 요인분석에서 추출될 요인의 수를 미리 결정하여 지정하는 방법이다. 이 방법은 연구자가 몇 개의 요인이 적절하다는 것을 사전에 알거나 다른 연구자가 수행한 연구를 반복하면서 그 연구에서 추출된 요인의 개수만큼 요인을 추출하고자 할 때 사용된다.
(3)전체 요인들의 설명력 기준
이는 요인들의 설명력의 합이 어느 정도는 되어야 한다는 것을 사전에 정하고 그 수준의 설명력을 가져오는 요인들을 추출하는 것이다. 절대적인 기준은 없으나 사회과학에서는 60% 내외로 결정하는 경향이 있다.
(4)스크리 도표
컴퓨터 프로그램을 이용하여 스크리 도표(scree table)를 그릴 수 있다. 스크리 도표는 각 요인의 eigenvalue를 그림으로 보여주는데 첫 번째 요인부터 마지막 요인으로 갈수록 eigenvalue는 점점 작아진다. 스크리 도표는 각 요인의 설명력이 처음 몇 개 요인까지는 큰 폭으로 감소하다가 어느 위치부터는 감소폭이 매우 체감하는 경향을 보여줄 수 있다. 이 때 감소폭이 체감하기 직전까지의 요인의 수를 기준으로 요인을 추출할 수 있다.
(5)종합
요인의 수를 미리 결정하는 방법 외의 다른 세 가지 방법은 자료분석의 결과에 따라 요인의 수를 결정하는 방법이다. 이 세 가지 방법에 의해 요인의 수를 결정할 때 얼마든지 다른 결과가 나올 수 있다. 조사자 혹은 분석자는 자신의 판단에 따라 방법을 결정하는데 eigenvalue를 이요하는 경우가 가장 많으며 기준은 보통 eigenvalue 1이 된다. 그리고 요인의 수를 미리 결정하는 방법을 다음으로 많이 이용한다.
4. 요인의 회전
통계패키지에 의해 요인분석을 하면 비회전 요인행렬(unrotated component matrix)이 구해진다. 요인의 수를 결정하는 방법이 사전에 지정되면 이에 맞도록 요인의 수가 도출된다. 그런데 이 때 도출되는 요인은 원래 변수들의 선형결합(linear combination of original variables)이다. 요인행렬에 있는 요인적재값(factor loading)은 각 변수와 해당 요인 간의 상관관계계수이다. 그런데 요인행렬은 기초자료를 축소시켜 보여주기는 하지만 이로부터 어떤 변수들이 어떤 요인에 높게 관계되는지 명확하게 알기 어렵다. 그렇기 때문에 추출된 요인을 회전하게 되며, 회전에 의하여 요인구조(factor structure)를 명확히 알 수 잇다. 다시 말하면 요인을 회전함으로써 어떤 변수가 어떤 요인에 높게 관계되는지 알 수 있다.
요인을 회전하는 방법에는 직각요인회전과 사각요인회전의 두 가지가 있다.
- 먼저 직각요인회전(orthogonal factor rotation)은 직각을 유지하면서(즉, 요인들간에 독립성을 유지하면서) 요인구조가 가장 뚜렷할 때까지 요인을 회전시키는 방법이다.
- 사각요인회전(oblique factor rotation)은 직각을 유지하지 않은 채 요인구조가 가장 뚜렷할 때까지 요인을 회전시키는 것이다.
요인을 회전할 때 직각을 유지한다는 것은 곧 요인들 간에 상관관계가 '0'임을 가정하는 것이다. 사각회전은 직각을 유지하지 않고 요인구조가 가장 뚜렷할때까지 각각의 요인을 회전하는데, 요인들 간에 '0'의 상관관계를 가정하지 않으므로 보다 실제적(realistic)이다. 사각 회전은 직각회전에 비하여 변수들이 회전된 요인에 보다 가깝게 군집하는 결과를 가져다준다. 뿐만 아니라 사각회전결과는 요인들이 서로 간에 얼마나 관계게 있는지에 대한 정보를 제공한다. 즉, 각도가 직각보다 작을수록 正(+)의 상관관계, 그리고 직각보다 클수록 負(-)의 상관관계가 있음을 보여준다. 그런데 이론적으로 사각회전방식이 우수한 면이 있으나 사각회전 수행절차가 그다지 잘 개발되어 있지 않고 또한 논쟁의 여지가 있어 직각회전방식이 보다 자주 사용된다.
직각회전방식에는 세 가지가 있다 : VARIMAX, QUARTIMAX, EQUIMAX.
- 먼저 VARIMAX 방식은 요인행렬의 열(column)의 분산의 합계를 최대화함으로써(maximize the sum of variances) 열을 단순화하는 방식이다. 여기서 열의 분산의 합계를 최대화하는 것은 적재값을 가급적 +1, -1, 혹은 0에 가깝게 하도록 함으로써 가능하다. 회전이후 각 요인의 적재값은 회전 이전에 비하여 0 혹은 1에 보다 가까워지는 것으로 나타났다.
- QUARTIMAX방식은 행(row)을 중심으로 하는데 한 변수가 한 요인에는 가급적 높게 그리고 다른 요인들에는 가급적 낮게 적재되도록 함으로써 행을 단순화하는 방식이다.
- EQUIMAX방식은 두 가지를 절충한 방식이다. 세 가지 방식 중 요인구조를 단순화(혹은 명확화)하고 해석이 가장 용이한 방식은 VARIMAX방식이며, 따라서 VARIMAX방식이 가장 많이 쓰인다.
'Books (Etc)' 카테고리의 다른 글
SPSS 20.0 매뉴얼 : 7장. 분산분석 I: 일원 ANOVA, 블럭디자인, 이원 ANOVA (0) | 2013.10.08 |
---|---|
Understanding and applying medical anthropology (Chapter 1, 2, 7) (0) | 2013.09.11 |
THE ONE PAGE PROPOSAL : 강력하고 간결한 한 장의 기획서 (0) | 2013.07.26 |
SPSS 20.0 매뉴얼 : 11장. 회귀분석 - 상관관계계수(0차 상관계수, 설명력, 편상관계수, 부분상관계수) (3) | 2013.07.12 |
SPSS 20.0 매뉴얼 : 8장. 분산분석 II : 피실험자내 디자인 ANOVA와 삼원 ANOVA (구형성 가정, Sphericity assumption) (0) | 2013.07.03 |