ch 07 - 데이터 검토

Page content

개요

  • 수집된 데이터에 대해 정규성 검증을 하는 것은 중요하다.
  • 그런데, CB-SEMPLS-SEM의 기준 조건은 조금 상이하다.

정규성 분포 확인

  • Kolmogorov-Smirnov Test 또는 Shapiro-Wilk Test를 통해서 검증한다.
    • 귀무가설: 데이터분포를 정규분포를 이룬다, p-value > 0.05
  • 데이터가 치우쳐 있는 정도를 나타내는 왜도(skewness: S)와 첨도(Kurtosis: K)를 검토한다.
    • 첨도와 왜도가 -1보다 작거나 또는 +1 보다 크지 않으면 변수는 정규분포를 하고 있다고 판단한다.
  • 그러나, 이 부분은 분석 방법에 대해 조금 상이하다.
    • 회귀 분석: 엄밀하게는 2, 관용적으로 3을 사용함. (이일현, 2014)
    • SEM: 왜도가 2 이상이고, 첨도가 7 이상이면 비졍규분포로 봄 (West, Finch & Curran, 1995)

결측치

  • 설문문항에 의도적으로 혹은 부주의로 하나 이상의 문항에 대한 답을 하지 않았을 때 발생함.
  • PLS-SEM에서는 (1) 평균값대체(mean value replacement)와 (2) 사례별 제거 등이 있다.
    • 측정변수(지표변수)별로 5% 미만인 경우에는 평균값 대체를, 5% 초과시에는 사례별 제거방법을 사용한다.
    • 사례별 제거 방법은 권장하지 않는다. 설문지가 많으면 상관이 없지만, 대개의 경우 그렇지 못하기 때문에, 가급적이면 삭제는 권장하지 않는다.
    • 단, 결측치가 사례별로 15%를 초과하는 경우에는 데이터 파일에서 삭제하는 것이 좋다.

이상치

  • 이상치는 특정 설문 혹은 모든 설문에 대한 극단적인 응답값을 말한다.
    • 일반적인 기준으로는 표준화 변량값인 Z값과 표준편차가 $\pm$ 3 이상인 경우는 극단치에 해당한다.
    • 마할라노비스 거리 통계량$D^2$을 이용하여 판단할 수 있음. 만약, $D^2$값이 유의수준 0.01보다 작으면 해당 관측변수는 다변량 이상치로 판단할 수 있다.
    • 이상치는 PLS-SEM을 시행하기 전에 반드시 확인하고 문제가 되는 응답치가 포함되어 있는 경우네느 데이터 파일에서 삭제해야 한다.
    • 가장 일반적인 경우는 이상치가 소수인 경우로 이 때는 해당 이상치를 데이터 파일에서 제거한다.
    • 영향력이 큰 이상치가 있는 경우에는 PLS-SEM에서 OLS 회귀에 영향을 미치기 때문에 면밀한 검토와 평가가 필요하며 조치해야 한다.

다중공선성

  • 측정변수(지표)들 간에 다중공선성(Multicollinearity)가 있는지를 확인한다.
  • 완벽한 공선성(Collinearity)가 나타나는 경우는 거의 없으며 일반적으로 높은 공선성이 나타난다.
  • SmartPLS에서는 분산팽창인자(Variance Inflation Factor: VIF)를 이용하여 평가한다.
    • 모든 측정변수에 대해 VIF값이 임계치인 5보다 작으면 공선성은 존재하지 않는다.
    • VIF값이 5 이상인 경우 잠재적인 공선성 문제(Collinearity Problem)를 지니게 된다.

PLS-SEM vs. CB-SEM

  • PLS-SEMCB-SEM의 차이점은 아래와 같이 서술 할 수 있다.
구분PLS-SEMCB-SEM
사용목적예측이론 검증
표본 수30-100개 가능200-800개
데이터 파일CSV 파일모든 파일 가능
분포 가정분포 가정이 없음, 비모수적 기법엄격한 분포 가정(다변량 정규성이 있어야 함)
모델 복잡성수백 개의 측정 변수 있어도 가능측정변수의 수가 100개 미만
잠재변수당 측정변수 의 수1개 이상3~4개 이상
반영적 지표 + 형성적 지표매우 용이(모두 사용)주로 반영적 지표 사용
반영적 지표 + 형성적 지표매우 용이(모두 사용)주로 반영적 지표 사용
모델 적합도모델 적합도 보고 없음상세한 모델 적합도 보고 필요
오차항의 고려모델 구축 시 오차항(측정오차와 구조 오차)를 표시하지 않음오차항(측정오차와 구조오차)을 모델 구축 시 표시함
재귀모델과 비재귀모델재귀모델(일방향 인과관계)만 가능재귀모델과 비재귀모델 가능
잠재변수 산출잠재변수 점수의 산출 가능, 이 점수를 후속연구에 사용잠재변수 점수의 직접적인 추정이 불가능
모델 평가측정모델과 구조모델 동시에 설정하고 평가(동시분석법)측정모델을 이용해 개별 측정변수와 잠재변수의 신뢰도와 타당도를 분석한 후 구조모델을 통해 가설검증을 시행 (2단계 분석법)

Reference

신건권. (2018). 석박사학위 및 학술논문 작성 중심의 SmartPLS 3.0 구조방정식모델링. 서울: 청람.