최효근 엠디에널리틱스 대표는 서울대학교 의과대학 학사/석사/박사를 졸업하고, 서울대병원에서 이비인후과 전공의, 전임의를 수료한 뒤 한림대학교에서 10년간 빅데이터에 대한 연구를 하여, 총 307편의 SCI 논문을 주저자로 작성을 하였습니다. 엠디에널리틱스는 각종 빅데이터에 대한 자료 분석 및 연구의 통계 방법, 대상자 수 분석, 리뷰어의 통계 질문에 대한 답변 같은 통계 자문 서비스를 제공하고 있습니다. 본 연구자는 이전에 웹진에 4회에 걸쳐 투고하였던 통계 이야기에 대한 후속편 4회를 연재하려고 합니다.
특정 질병이 발병하는 원인을 찾고 상관관계를 찾기 위해서 가설을 세우고 이를 검증하는 방법을 사용한다. 이를 분석역학이라고 하며 대표적 연구가 환자-대조군 연구(Case-control Study)와 코호트 연구(Cohort Study)다.
환자-대조군 연구는 특정 질병이 있는 경우 환자군으로 분류하고, 이와 달리 특정 질병이 없는 경우 대조군으로 선정한다. 환자-대조군 연구는 특정 요인에 대한 노출 상태를 확인하여 질병의 원인 관계를 규명하는 연구 방법이다. 코호트 연구는 이름처럼 동일 집단의 코호트를 질병 위험의 노출 유무에 따라 노출군과 비노출군 두 개의 집단으로 구분한다. 이 집단 간 질병 발생률에 어떤 차이를 보이는지 추적 관찰하는 방식이다.
오즈(Odds)는 어떤 사건이 일어날 확률(P)을 사건이 일어나지 않을 확률(1-P)로 나눈 값이다. 경기에서 이길 오즈를 구한다면, 이길 확률을 질 확률로 나누면 된다. 이를 환자 대조군 연구에 대입하여 질병 있는 사람(환자군)의 오즈를 구한다면, 환자군이 위험요인에 노출되었을 확률을 환자군이 위험요인에 노출되지 않은 확률로 나누면 된다. 예를 들어 폐암 환자(환자군)의 오즈를 구한다면, 폐암 환자가 담배에 노출된 확률을 폐암 환자가 담배에 노출되지 않은 확률로 나누면 된다. 반대로 폐암이 아닌 사람(대조군)의 오즈를 구한다면, 대조군이 과거 담배에 노출된 확률을 대조군이 담배에 노출되지 않은 확률로 나누면 된다. 이 두 개를 나누면 바로 오즈비, OR이다. OR은 환자군의 오즈를 대조군의 오즈로 나누어 비율로 나타내어, 환자군의 오즈가 대조군의 오즈의 몇 배인지를 나타낸다.
OR은 코호트 연구에서도 대입 가능하다. 코호트 연구에서는 원인의 요인 노출 여부를 찾는 것부터 시작하니 담배를 핀 사람(노출군)의 오즈와 담배를 피지 않은 사람(대조군)의 오즈로 나누어서 구한다. 구하는 방식은 달라도 결국 값은 같게 된다. 이를 표와 수식으로 정리하면 아래와 같다.
환자-대조군 연구 | 환자군 | 대조군 |
---|---|---|
과거 노출 | a | b |
과거 비노출 | c | d |
코호트 연구 | 질병 발생 | 질병 발생 X |
---|---|---|
노출군 | a | b |
비노출군 | c | d |
OR이 1인 경우 요인과 질병은 전혀 관계가 없으며, 1보다 크면 위험인자에 노출될 경우 노출되지 않은 경우보다 질병 발생 위험이 높고, 1보다 작으면 오히려 노출된 경우 질병 발생 위험이 감소한다고 해석하면 된다.
환자-대조군 연구와 코호트 연구에 모두 사용 가능한 OR과 다르게 상대위험도, RR은 코호트 연구에만 사용 가능하다. 환자-대조군 연구는 이미 병에 걸린 환자군과 병에 걸리지 않은 대조군을 구한 후에 연구를 시작한다. RR은 위험인자 노출군의 질병 발생률을 비노출군의 질병 발생률로 나누어서 구하기 때문에 질병 발생률의 의미가 없다. RR은 위험인자에 노출되었을 때 질병 발생률이 몇 배나 높은지 직관적으로 볼 수 있어 해석하기 쉽다는 장점이 있다.
RR에 대한 해석은 앞서 설명한 OR과 같게 하면 된다. RR이 1이면 해당 요인과 질병의 연관성이 없다. RR이 1보다 크면 위험요인 노출로 질병의 위험도가 증가한다는 것을 의미한다. 또한, 1보다 작으면 음의 연관성이 있어 오히려 질병을 예방하는 효과가 있다고 한다.
환자 대조군 연구에서는 RR을 직접 계산할 수는 없지만, 아래 조건을 만족하는 경우 OR과 RR이 유사하다고 볼 수 있다.
위의 OR, RR과 비슷하지만 다른 개념이 하나 더 있다. 바로 위험비, HR이다. 실험군의 위험률을 대조군의 위험률로 나눈 것으로 두 그룹의 상대적 위험을 비교한 것이다. 상대적인 위험률을 나타낸다는 것에서 RR과 비슷하다고 볼 수 있다. 하지만 전체 연구 기간 동안의 누적된 확률을 사용하는 OR, RR과는 다르게 HR은 특정 시점의 개념이 포함된다. 또한, 로지스틱 회귀분석에 사용되는 OR과는 다르게 HR은 COX 회귀분석(또는 COX 비례위험모형)에서 사용된다. 치료법의 예후를 파악하여 사망이나 재발 등의 변화를 파악하는 생존분석 중 COX 회귀분석은 두 집단의 생존율을 비교한다. 임상에서는 연구와 다른 이유로 사망하든지, 이사 등의 이유로 병원을 방문하지 않아 추적이 불가능하거나 사건 발생 전 관찰이 종료되는 등 중도절단 자료가 많아, 모든 사람의 연구 관찰 시간이 같을 수 없으므로 비교가 어렵다. 이에 COX 회귀분석에서는 이러한 관찰 시간과 상관없이 HR이 같다고 가정한다.
HR은 1이면 실험군과 대조군이 동일한 위험을 가지고 있으며 위험인자가 질병 발생에 의미가 없다는 뜻이다. 1보다 크면 실험군이 대조군에 비해 위험률이 높으며, 1보다 작으면 실험군이 대조군에 비해 위험률이 낮다고 해석된다.
위 세 개의 지표는 신뢰구간과 함께 제시되어야 한다. 보통 95%의 신뢰구간과 함께 제시되며 이 때 1을 포함한다면 이는 통계적으로 유의하지 않을 수 있다.
의학통계전문 분석기업 MD Analytics (통계 자문 및 컨설팅, 자료 분석)
https://mdanalytics.modoo.at/