본문 바로가기

카테고리 없음

Propensity score matching (성향 점수 매칭) - example with R(Updating..)

성향 점수 매칭(PSM)

관찰 데이터의 통계 분석에서, 치료, 정책 또는 기타 개입의 효과를 추정하기 위해 사용하는 통계적 매칭 기법
(이때, 특정 처치를 받을 것으로 예측하는 공변량을 고려)

 

유닛들(처치군과 대조군) 사이의 단순 결과 비교로 얻어지는 처치 효과 추정에서 발견될 수 있는 교란 요인들 때문에 발생하는 편향을 줄이려고 시도

(Paul R. Rosenbaum and Donald Rubin introduced the technique in 1983.)

 

치료(처치)군과 비치료군 사이의 치료 결과의 차이가 치료 자체가 아니라 치료를 예측하는 요인에 의해 발생할 수 있기 때문에 편향 가능성이 발생

  • - 치료 때문이 아니라, 치료를 예측하는 변수가 해당 상황을 제대로 설명하지 못할 때

 

무작위 실험에서는 무작위 치료 효과 편향 추정을 가능하게;
각 공변량에 대해 무작위화는 치료 그룹이 큰 수의 법칙에 따라 평균적으로 균형을 이루는 것

 

관찰 연구(추적 관찰 연구 혹은 코호트 연구)에서 연구 대상에 대해 치료 배정(치료군, 대조군 나누는 것)이 진짜 무작위는 아님.

  • 아마 실제 실험 환자들을 모집할 때 완전 무작위로 한다는 게 더 어려울것이라.. 실험 대상자들이 실험을 위해 방문할 때, 제비 뽑기로 너는 A, 너는 B 이렇게 할 수 도 없고, 오는 순서대로 나이나 성별 같은 분포를 보면서 A가 B보다 나이가 많은 거 같으니까 너는 어려서 A로 가라 할 수도 없고.. 그런것 아닐까

 

매칭은 모든 관찰된 공변량에서 치료를 받지 않은 단위 표본과 비교할 수 있는 치료를 받은 단위 표본을 생성하여 처리 할당 편향을 줄이고 무작위 화를 모방

  •  예) "담배를 피면 어떻게 되지?" 를 알고 싶어서 실험을 할건데, <흡연>이라는 처치(치료, 치료라고 하기는 뭐하지만)를 실험 대상자를 뽑아서 무작위로 배정하면 너무 비윤리적인 실험이니까 대상자를 처치 여부에 따라 배정하는 실험을 하면 안되고, 관찰 연구로 진행해야지
  • 단순하게 흡연자와 비 흡연자를 비교하여 추정된 치료 효과(여기서는 담배폈을 때 나타나는 효과)는 흡연을 예측하는 요인(흡연 영향도 모델 만들 때 사용하면 변수들, 성별이나 연령같은 거 많이 쓰니까 그런거)에 의해서 편향됨

 

PSM은 치료(처치)를 받는 그룹과 치료를 받지 않는 그룹을 대조 변수(control variables)와 비교하여 발생할 수 있는 편향 통제를 시도

 

 

개요

 

PSM은 다음과 같은 비실험 환경에서 인과 추론과 단순 선택 편향을 위해서 사용

  1. 비치료(비처치)군에서 처치군과 비교할 수 있는 유닛의 수가 몇 없을 때,
  2. 유닛은 고차원 세트(처치나 치료전 특성)에 걸쳐서 비교해야 해서 처치군과 유사한 대조군의 부분 집합이 선택되기는 어려움

Normal Matching에서 처치군과 대조군을 구별하는 단일 특성(변수)은 두 군을 좀 더 유사하게 만들게 매치한다.

그렇지만 두 군이 실질적으로 겹치지 않으면 오류를 발생시킬 수 있다. 

예를 들어,  대조군(비치료)의 최악의 사례랑 처치군의 최상의 사례가 비교되는 경우, 결과가 평균 회귀해서 대조군이 실제 상황보다 좋지 않게 보일 수 있음(반대의 경우도)

 

PSM은 관측된 예측 변수를 기반 구해진 군 구성원의 예측 확률을 사용, 이때의 예측 확률은 반사실 집단을 만들기 위해 사용된 로지스틱 회귀 분석으로 얻어짐

PS(Propensity scores)는 매칭에 사용될 수도 있고, 공변량으로 사용될 수도 있고, 

PS만 쓸 수도 있고, PS랑 다른 매칭 변수랑 사용될 수도 있고, PS랑 공변량이랑 같이 쓸 수도 있고 

이래저래 요모조모 섞어서 쓸 수 있음

 

 

 

PSM 일반적인 절차

 

  1. 로지스틱 회귀 
    • 종속 변수: 보통 로지스틱 회귀 분석 하듯이 이진 변수 형태 (예. 대조군=1, 처치군=2)
    • 적절한 교란 요인(변수) 선택 - 치료, 처치, 결과등 과 관련이 있을 거라고 가정한 변수
    • PS 추정치 계산: 예측 확률(p) 또는 log[p/(1-p)] 
  2. PS의 계층내에서 처치군과 대조군 간에 공변량이 균형 잡혀있는 지 확인
    • 표준화된 차이나 분포 설명 그래프 사용
  3. PS에서 처치군의 각 참가자를 비 처치군(대조군)의 참가자와 매칭하는 데 다음의 방법 중 하나 사용
    • 최근접 매칭 (Nearest neighbor matching)
    • 캘리퍼 매칭 (Caliper matching): 위에서 구한 참가자 별 PS의 특정 너비 내 비교 참가자 매칭.(이때의 너비는 PS의 표준 편차 사용)
    • PSM과 마할라노비스 매트릭스를 사용한 매칭 (Mahalanobis metric matching in conjunction with PSM)
    • 층화 매칭(Stratification matching)
    • Difference-in-differences matching (kernel and local linear weights)
    • Exact matching
  4. 일치되거나 가중된 샘플에서 처리 및 비교 그룹간에 공변량이 균형적인지 확인
  5. 새로운 샘플을 가지고 다변량 분석
    • 둘 이상의 대조군 참여자가 처치군의 각 참여자와 매칭되는 경우 비 독립 일치 샘플에 적합한 분석 사용
  6. 처리된 단일 관측치에 대해 여러 일치 항목이 있는 경우 일반 최소 제곱보다는 가중치가 적용된 최소 제곱 사용

 

정의

 

기본적으로 두 개의 경우(0 or 1, 처치군 or 대조군)를 갖는다(N개의 피험자 - 이때의 피험자는 iid한 상태).

각각의 피험자 i는 \( r_{1i} \)(처치군 일 때), \( r_{0i} \)(대조군 일 때)

평균 처치 효과 : \( E[r_1]-E[r_0] \)

변수 \(Z_i\)는 지시 변수(indicates variable) - 각 i (피험자)에 대해 Z=1이면 처치군, Z=0이면 대조군

\( X_i \)는 각 i에 대해 처치 이전 측정된 값(혹은 공변량)의 벡터 

\( X_i \)의 관측 값은 치료 할당 전에 이루어지지만, \( X_i \)의 변수들은 치료 할당을 결정하는 데 사용된 모든 변수를 포함하지 않을 수 있다.

 

 

 

en.wikipedia.org/wiki/Propensity_score_matching