통계학의 분류
① 기술통계학(descriptive statistics): 통계자료를 적절하게 그림, 도표 또는 수치로 요약하고 그 특성을 기술하는 방법론
② 추론통계학(inferential statistics): 모집단에서 뽑은 표본을 통하여 모집단의 특성을 예측 또는 추측하는 방법론
- 확률의 역할: 확률은 기술통계학(descriptive statistics)과 통계적 추론(inferential statistics)을 연결하는 가교 역할을 함
- 표본크기(sample size): 단순히 표본 내 요소의 수
(2) 표본추출: 자료의 수집
-표본오차(sampling error): 모집단의 일부를 선택하여 모수를 추정하기 때문에 생기는 오차
: 모수와 통계량이 불일치한 정도를 의미, 우연적인 요인에 의해 통제할 수 없는 상황에서 발생
- 비표본오차(nonsampling error): 표본선택이 잘못된 것이 아니라 표본의 성격을 관찰하는 방법이 부정확해서 발생하는 오차
: 표본으로 추출된 대상을 실제로 관찰할 때 생기는 오차로 측정대상과 측정결과의 불일치
- 확률추출(probability sampling): 모집단에서 일정한 확률에 입각하여 표본을 추출하는 방법
① 단순확률추출(simple random sampling): 어느 특정 표본크기(sampling size)내 표본들의 선택될 확률이 모두 동일한 추출법
② 체계적 추출(계통추출, systematic sampling): 모집단의 구성체계가 무작위로 배열된 상태에서 표본을 추출하는 것
③ 층별추출(층화추출, stratified sampling): 모집단이 여러 개의 층(strata)을 형성할 때 각 층 내에서 표본을 랜덤하게 추출 예) 모집단을 일정한 수준에 의하여 두 개 이상의 동질적인 소집단으로 분류한 다음, 각 소집단으로부터 단순 무작위 추출하는 것
④ 군집추출(집락추출, cluster sampling): 모집단을 몇 개 동질적인 집락으로 나누어 이 집락을 단순임의 표집하여 선택된 그룹 내 모든 원소를 조사 예) 도시 소득상태 조사 시 2동 주민대상
- 비확률추출(nonprobability sampling): 추출된 표본에 대하여 오차를 명백히 추정하는 통계처리가 불가능한 추출로 무작위로 표본을 추출할 수 없는 것을 의미
① 편의추출(convenience sampling): 연구자가 자유롭게 연구대상을 표본에 포함시키는 것
② 판단추출(judgement sampling): 연구자가 연구목적에 맞는 사항을 충족시킬 수 있다는 판단에 따라 대표하는 표본을 선택하는 방법
③ 할당추출(quota sampling): 표본이 모집단을 대표하도록 하는 경우에 사용
④ 눈덩이표집(snowball sampling): 조사를 하기 힘든 모집단의 경우 특정 집단을 잘 알고 있다고 판단되는 사람을 표본으로 삼아, 그들로부터 다른 후보 제보자들의 소개를 받아 점점 많이 조사를 하는 모습을 형상화한 조사 방법
(3) 자료수집방법 - 관측연구(observation study): 요인에 대한 통제가 없는 연구. 변화를 인위적으로 가하지 않음 -
실험(experiment): 제어된 조사 연구, 조사 대상을 무작위로 적정 수로 나누어 그 중 하나 또는 몇몇 집단에 대해 어떤 조치를 취한 후 그 반응을 관찰 실험단위(experiment unit) - 후향연구(retrospective study): 역사적 자료(historical data:특정 기간 동안 수집된 자료)를 사용
(4) 자료의 요약 - 모수(parameter): 모집단의 특성을 나타내는 수치들 (모평균, 모분산, μ: 모평균, : 모분산)
- 통계량(statistic): 표본의 특성 값을 나타내는 수치들 (알파벳 표시 : 표본 평균, : 표본 분산)
- 측정(measurement): 관찰대상의 속성을 질적인 상태에 따라 수치를 부여하는 것
① 질적자료(qualitative data), 범주형자료(categorial data): 수량과 관계없는 자료
② 양적자료(quantitative data): 자료가 수로 표현, 수치로 의미 있는 자료
- 척도(scale): 일정한 규칙을 세워 질적인 자료를 양적인 자료로 전환시켜주는 도구
① 명목척도(nominal data): 관찰대상을 범주로 분류하기 위해 숫자 사용(우편번호, 지역 등)
② 순서척도(ordinal data): 관찰대상의 속성에 따라 순위 결정(선호하는 자동차 순위 등)
③ 등간척도(interval scale): 측정대상 사이의 거리를 비교하는 방법, 리커트척도(Likert)
④ 비율척도(ratio scale): 위의 세 척도의 특성과 더불어 비율 개념이 첨가된 척도
§1.2 위치 측도와 산포 측도
(1) 위치 측도: 자료의 중심이 어디인가를 알 수 있는 계량적인 측도
- 모평균(population mean):
- 표본평균(sample mean): 산술평균(numerical average)
이상값, 극단값, 특이점(outlier): 전체 중 몇 개만 아주 크거나 아주 작은 값들이 포함될 경우 평균은 대표값으로 의미를 상실
- 중앙값(중위수: median): 자료를 크기순으로 열거했을 때, 가운데에 해당 하는 값
- 절사평균(trimmed mean): 자료의 가장 큰 부분과 작은 부분을 일정비율 제거한 나머지의 평균
- 최빈값(mode): 두 번 이상 나타난 자료 중에서 그 빈도수가 최대인 값 관측값의 수가 많아도 쉽게 구할 수 있으며, 질적 자료에도 사용할 수 있음
예) 1, 2, 3, 4, 5, 6, 7, 8 : 최빈값 없음 1, 2, 2, 3, 3, 3, 4, 4, 4 : 최빈값 3과 4 - 5 - -
평균, 중앙값, 최빈값간의 관계
(2) 산포측도: 자료가 얼마나 흩어져 있는가를 측정하는 측도
- 각 관측 값이 평균에서 얼마나 떨어져 있는지에 대한 차이를 계산한 후 모두 더한다면 다음과 같음
- 모분산(population variance): 모집단의 관측값
- 표본분산(sample variance): 표본의 관측값
* 자유도(degrees of freedom), 변동을 계산하는데 이용되는 독립된 정보의 수
* 분산 측정 단위는 관측 값의 측정 단위 제곱으로 나타냄
- 표준편차(standard deviation): 분산에 대한 양의 제곱근으로 정의
• 모표준편차(population standard deviation):
• 표본표준편차(sample standard deviation):
- 사분위수(quartile)와 백분위수 : 크기 순서에 따라 나열했을 경우 4등분(백등분)되는 위치의 관측값
'딥러닝 > 통계' 카테고리의 다른 글
Granger causality (0) | 2020.12.07 |
---|
댓글