General Principles on Plan, Design and Analysis of Pharmacoepidemiological Studies That Utilize Real-World Data for Safety Assessment of Medicines#
작성자 : 박상호
원자료 : Link
1. Introduction#
1.1 Objectives: 본 문서의 목적은 의약품(약물, 백신 및 기타 생물학적 제제)의 안전성 평가를 위해 목적에 맞는 데이터를 활용하는 관찰적(비중재적) 약물역학 연구의 계획, 설계 및 분석에 관한 일반 원칙에 대해 국제 표준을 권장하고 조화를 촉진하는 것이다. (Claude 3.5 Sonnet New)
1.2 Background
약물역학 연구는 시판 후 안전성 평가의 데이터와 증거의 원천이었음. 안전성에 대한 평가는 다양한 데이터 원천으로부터 행할 수 있음.
규제적 관점에서 증거를 사용하려면 믿을만하고 관련성이 있어야 함
1.3 Scope
이 가이드라인은 RWD를 활용하여 시판 후 약물 제품의 안전성을 평가하는 데 초점이 맞춰져 있음.
RWD만으로는 데이터가 불충분하여 추가적으로 데이터를 수집해야 할 수도 있고, 이 가이드라인은 이러한 상황도 고려함.
다음은 이 가이드라인의 범위를 벗어남
국가 또는 세계 규모의 데이터베이스에서 얻은 자발적인 보고에 따른 약물감시
처치 할당이 수반되는 임상시험
환자가 경험한 데이터 (patient experience data)
2. General principles#
가이드라인에서는 순차적인 절차에 대해 설명하고 있음. (하지만 스터디 설계와 데이터 원천 선택이 반복적(iterative)일 수는 있음)
Research question을 만든다.
Study population, exposure, outcome, covariates(보정변수)를 찾는다.
적절한 평가를 위한 최소한의 데이터 요구사항을 찾는다.
데이터 원천이 Target population (연구하고자 하는 population)을 잘 나타내고 있는지 평가한다.
잠재적인 편향과 confounding을 고려한다.
적절한 데이터 원천과 데이터 수집 방법이 세워진 후에 설계를 더 다듬는 과정을 수반한다. 이는 스터디의 타당도를 다룬다.
이러한 모든 과정이 분명하고 투명해야 한다.
3. Framework for Generating Adequate Evidence using Real-World Data#
Research question이 먼저 세워져야 함
그 이후에 data relevance와 data reliability가 평가되어야 함
적절한 스터디 설계와 분석 방법
연구 한계와 그 한계가 결과 증거의 궁극적인 타당성과 신뢰성 및 결과 해석에 미치는 영향에 대한 정성적/정량적 평가를 실시한다.
프로토콜 개발 단계에서의 실현 가능성 평가와 스터디 시작 후에 프로토콜에 미리 적힌 민감도 분석을 실시하여 증거의 적절성을 평가한다.
웹사이트, 블로그, 소셜미디어, 대화방에서 추출한 사용자가 만든 건강 데이터는 적절하지 않을 수 있으나 가설을 생성하거나 연구의 결과의 맥락을 설명하는 데 사용할 수 있음.
4. Initial Design and Feasibility#
4.1 Research Question#
Research question은 스터디 목적과 가설에 대한 간결한 statement이다.
Research question은 5가지 관점 (PICOT)을 고려하여 만들 수 있다.
Population
Intervention
비중재적 연구에서는 exposure로 간주하기도 한다.
Comparator
Outcome
Timing
Follow-up을 언제까지 할 것인지, 시작 시점을 언제로 할 것인지.
Research question은 문헌을 리뷰하고 knowledge gap을 이해하고, 이전 연구의 강점과 약점을 이해하고, 효과 크기를 파악하고, 중요한 confounder를 파악한 뒤에 만들어져야 한다.
연구자들은 스터디 설계와 데이터 형식에 대한 document를 protocol에 적절하게 제시해야 한다.
연구자들은 target trial 접근이나 estimand 접근을 하여 스터디를 설계하고 추정할 수 있다. 이를 통해 initial design과 feasibility 분석을 할 수 있다.
4.2 Feasibility Assessment#
Feasibility assessment는 처치군의 outcome을 평가하지 않고 연구에 적합한 데이터 원천을 찾는 것이다.
데이터가 가능한지, 충분한지 살펴본다.
후보 데이터 원천에 대해 실현 가능성 평가를 해본다.
Research question과 설계(design) 요소가 만들어지면 연구자들은 연구 질문에 답할 수 있는 필수 설계 요소들을 밝혀야 한다.
population, exposure, comparator, outcome, covariate을 포함하여야 한다.
Outcome을 보기 위한 follow-up 최소 기간을 밝혀야 한다.
목표로 하는 sample size와 event rate와 예상하는 study precision을 밝혀야 한다.
관심 지역을 밝혀야 한다.
실현가능하다면, 헬스케어 시스템 내에서 진단 방법, 선호하는 의학, coverage와 처방 practice에 대한 정보를 밝혀야 한다.
다른 중요한 요소는 다음과 같다.
진단을 위한 코드가 가용한지 (ex : rare disease)
Exposure와 outcome의 타당도를 평가하기 위한 연구실 진단(laboratory confirmation) 또는 진료 기록에의 접근
코딩 알고리즘의 타당도의 증거
데이터를 선택할 때 데이터 원천, 데이터의 최신성, 데이터 refresh 주기, exposure로부터 outcome까지의 follow-up 완결성을 고려하여야 한다.
결측 데이터의 잠재적인 영향에 대해 평가하여야 한다.
흡연 상태의 정보가 결측인 경우에 흡연과 exposure, outcome 사이의 관계를 파악하고, 양적 bias 접근을 하여 예상되는 효과 추정의 범위의 타당도를 평가하여야 한다.
상세한 평가가 완료된 경우에 데이터 원천이 선택될 수 있다.
추가적인 데이터 수집(primary data collection)을 위해서 feasibility assessment를 할 수도 있다.
Comparator group을 선택하는 것은 설계 단계에서 매우 중요하다. 의료 정책이나 보험 정책은 disease severity에 의존하여 행해질 수 있기 때문에 이러한 내용을 고려하여야 한다.
하지만 rare disease의 경우에는 historical or former standard of care comparator가 사용된다.
5. Protocol Development#
약물역학적 안전성 연구의 설계와 수행의 성공을 위해 경험이 많은 다학제적 연구 팀이 필요하다.
프로토콜에 전문가에 대한 설명과 자격에 대해 서술하여야 한다. 이러한 전문성을 통해 다음을 설명하여야 한다.
Exposure의 개발과 outcome과 covariate 정의는 인과 경로를 잘 이해하고 있으며 현업에 있는 임상의학 전문가가 관여하여야 한다.
데이터 수집 방법과 목적에 근거하여 고유한 electronic healthcare data의 특징을 기술하여야 한다.
질병이 기록되는 환경 (coverage 정책 (ICD 등))
데이터 수집과 관련한 특징
데이터 프라이버시와 보안 문제
5.1 Study Design#
약물역학적 안전 연구는 부작용 outcome의 발생을 추정하는 데 관심이 있다.
관심 population에서 살펴보고, exposure와 outcome 사이의 관계를 평가한다.
Study design은 코호트, case-control, self-controlled study 등이 있다.
Comparator의 설정은 다른 약물을 복용하는 사람이나 복용하지 않는 사람, historical control, 과거의 자신이 control이 되는 self-control이 있다.
가장 중요한 고려사항은 exposed 군과 comparator 군의 comparability가 성립해야 한다는 것이다.
연구자들은 특정한 스터디 설계를 한 근거(rationale)를 프로토콜과 final report에 기술하여야 한다.
Graphical representation도 개발하여야 한다(소통을 용이하게 하기 위해).
5.2 Data Sources (데이터 원천)#
Research question에 대하여 데이터가 관련이 있고 믿을만한지 평가하여야 한다. 다음 내용을 프로토콜에 기술하여야 한다.
Patient characteristics, exposures, outcomes
대표할 수 있는 충분한 수의 N수가 있는지
데이터가 정확한지, 완결성이 있는지, 출처를 밝힐 수 있는지, 추적 가능한지
약물역학적 연구를 위해 다양한 데이터 원천의 특징이 고려되어야 한다.
코딩 시스템의 차이, 데이터 요소의 표준화, primary / hospital / speicalty / rehabilitation 등의 care setting 등
Patients, providers, healthcare stystems이 가지고 있는 다양한 동기들(motivations)
최근 RWD 원천의 연합 네트워크가 다양한 지역에서 발달하고 있다.
다양한 데이터 원천을 활용하여 다양한 기관과 데이터 원천이 조화를 이루도록 한다.
이러한 네트워크가 과학적 평가와 규제 의사 결정하는 데 도움을 주도록 설계되었다.
5.2.1 Appropriateness of Data Sources in Addressing Safety Questions of Interest#
위에 나온 내용 반복 (데이터가 study questions를 밝히는 데 적절한지 여러 항목 관점에서 밝혀야 함)
5.2.2 Characteristics of Major Data Sources#
데이터 원천에 관계없이 지리적 위치, 데이터가 생성된 환경, 데이터가 수집된 기간, 나이와 성별과 같은 인구학적인 정보를 밝혀야 한다.
Electornic Health Record (EHR) Data
헬스케어 기관에서 수집하는 데이터이고, 진료 발생 현황을 알려준다. 그러나 환자의 완전한 medical history를 알려주지는 않는다 (다른 헬스케어 시스템을 활용할 수도 있기 때문).
비정형 데이터 (unstructured data)에 중요한 임상 정보가 있을 수도 있다. 예를 들어, 텍스트, 컴퓨터 문서 등
이러한 데이터를 다루기 위해 natural language processing, 이미지 인식을 위한 computer vision 등이 사용될 수 있다.
다양한 기관에서 추출한 EHR 데이터를 사용하는 경우 데이터 형식의 차이, 데이터 코드 등이 조화를 이루어야 하며 접근이 프로토콜에 기술되어야 한다.
EHR은 헬스케어 제공자의 정보가 기록될 수는 있으나 실제 케어가 전달된 것을 기록하지는 않는다.
연계된 약국 정보가 필요할 수 있다.
성 감염병이나 약물 남용 질병, 정신 건강 등에 대한 연구와 같이 특정한 경우에는 분석이 어려울 수 있다.
Claims Data
헬스케어 청구 데이터는 특정한 헬스케어 보험 프로그램에서 보장하는 모든 사람들의 정보를 포함한다.
데이터베이스에 기록하고 서비스를 반영한다.
하지만 다른 데이터 원천과 연결하지 않으면 헬스케어 방문력이나 연구실 검사, 임신 후 출산결과, 백신, 사고로부터의 상해 등을 알 수가 없다.
또한 보험이 보장하지 않는 영역은 알 수 없다.
Registries
Registry는 특정한 질병 또는 조건이나 exposure에 노출된 균일한 population이다.
Patient registry는 특정한 질병 또는 특정한 population에서 정보를 수집한다.
Product registry는 특정한 헬스케어 제품이나 헬스케어 제품군에 노출된 사람들의 정보를 수집한다.
Target population에 대해 registry의 환자가 대표성을 띄는지 고려해야 한다.
지리적인 요인, registry에 포함된 환자 수, 선정가능한 수, 매년 registry에 포함/삭제되는 수 고려
Research question에 답하기 위해 기존 registry의 정보가 불충분하면 다른 데이터 원천과 연계하거나 추가적인 데이터 수집을 할 수 있다.
새로운 registry를 만들어야 할 수도 있다.
Data Collected by Digital Health Technologies (DHT)#
Digital health technologies (DHTs)
컴퓨터 플랫폼, 연결, 소프트웨어, 센서 등을 사용하는 헬스케어 및 헬스케어와 관련된 시스템이다.
의료기기의 일반적인 wellness의 응용에도 쓰인다.
다른 의학 제품 (기기, 약물, 생물학적 제제)의 부속물 등
기술적 발전에 따라 다양한 데이터 원천이 생겨나고 있다.
전통적인 데이터 원천을 보충하거나 안전성 및 효과에 대한 정보를 제공해줄 수 있다.
이러한 기술들은 다른 데이터 원천처럼 목적에 알맞은지(fit-for-purpose) 평가하여야 한다.
Version, software, hardware, manufacturer를 적시하여야 한다.
Federated Data Networks (FDN)
다양한 데이터베이스로부터 나온 데이터와 결과를 결합한다. 이를 분산형 분석이라고 한다.
FDN을 사용할 때에는 다양한 데이터 원천의 특징 차이를 고려하여야 한다. Common data models (CDMs)을 예로 들 수 있다.
FDN의 governance에 대해 고려(중앙형 또는 분산형)하여야 한다.
CDM의 데이터 선정은 intended use에 맞게 선택되어야 한다.
CDM이 주도하는 네트워크는 각 데이터베이스의 원천 정보가 잘 포함되어 있지 않다.
데이터 요소가 모든 연구 목적과 질문을 다루기에는 불충분할 수도 있다.
FDN은 약물 안전성에 대한 질문을 다룰 떄 다음과 같은 장점을 제공할 수 있다.
연구를 하는 데 드는 시간을 줄일 수 있다. 연구의 population의 규모를 키우기 때문에 목표한 sample size를 쉽게 얻을 수 있다.
다양한 기관에서 약물 안전성 문제가 존재하는지 파악할 수 있다. 또한 기관마다의 약물 효과 차이 혹은 공통점을 찾을 수 있다.
처치의 이질성과 활용 패턴을 기관 / 커뮤니티 / 나라마다 파악하여 개개인의 약물 효과를 더 잘 이해할 수 있다.
다양한 나라의 전문가들이 참여하여 약물역학적 연구 결과의 일치성을 높인다.
Data Linkage (데이터 연결)
데이터 연결은 다른 데이터 원천에 접근을 허용하여 개인의 정보에 대한 너비와 깊이를 늘리는 방법이다. 이를 통해 타당도를 높인다.
암이나 사망 registry를 claim이나 EHR과 연결하여 더 좋은 연구를 할 수 있다.
개념적으로 데이터 연결은 데이터 베이스 내에서 행하거나 (엄마 - 유아 연결) 데이터베이스 간에 가능하다 (생명 정보, biobank).
데이터 연결을 할 경우에는 프로토콜에 각 데이터 원천의 정보에 대해 기술하고 연결 방법을 밝혀야 한다.
또한 데이터 연결의 정확성과 완결성에 대하여 기술하여야 한다.
데이터 연결 이후에 추가적인 데이터를 생성한다면 프로토콜에 해당 데이터 수집방법과 연결 방법을 밝혀야 한다.
데이터가 불완전하게 연결되거나 상충되는 데이터가 발견되면 무엇을 할 것인지 적어야 한다.
5.2.3 Data Standardization#
데이터 표준화는 다양한 데이터베이스 연구와 관련되어있다. FDN을 예로 들 수 있다.
원천이 포함하고 있는 정보의 형태 (진단, 시행, 약물 등)
다양한 RWD 원천과 형식의 일치성, 코딩 언어, 원천 데이터의 용어와 관습에 대한 차이 등
헬스케어 시스템의 차이 등
예: 사업적 절차, 지역적 헬스케어 패턴, 데이터베이스 구조, 용어, 코딩 체계, 환자 정보를 지키기 위한 가명화 방법론 등
따라서 코딩 체계를 연계하는 계획에 대해 프로토콜에 기술하여야 한다.
자유형식 텍스트나 비정형 데이터가 존재할 수 있으며 데이터로 활용될 수 있다.
이 데이터로부터 정형 데이터를 만드는 절차는 연구 문건에 설명하여야 한다.
5.2.4 Missing Data (결측 데이터)#
결측 데이터는 데이터 원천에 데이터가 포착되지 않는 경우를 말한다. 두 가지 시나리오가 있다.
첫번째는 데이터 수집을 하려고 했으나 수집하지 못한 경우이다.
두번째는 데이터 수집을 하려고 하지 않아서 수집되지 않은 경우이다.
EHR이나 행정적인 claim은 환자와 헬스케어 체계와 상호작용이 있을 때에만 데이터가 생긴다.
연구실 결과나 처방 기록이 없는 경우는 다음과 같은 이유 때문일 수 있다.
헬스케어 제공자가 처방하지 않은 경우
처방하였으나 실시되지 않은 경우
실시되었으나 결과가 기록되지 않은 경우
헬스케어 상호작용이 있고 결과가 데이터 원천에 기록되었다는 증거가 있으나 데이터가 접근 가능한 형식이 아니거나 데이터 변환 또는 정제 과정에서 소실된 경우
5.2.5 Data Quality (데이터 품질)#
증거 생성 과정에서 각 단계마다 데이터 품질을 결정하는 근본적인 결정(governance와 문서)은 프로토콜이 완성되기 전에 다루어져야 한다.
약물역학적 데이터는 종류에 따라 품질 관리(quality control) 측면에서 기록, 수집, 저장하는 과정이 엄격하지 못할 수 있다.
5.2.6 Data Collection and Data Source Sections in the Study Protocol#
프로토콜은 expousre와 outcome 구분을 위해 사용된 코딩 시스템에 대해 기술하여야 한다.
anatomical therapeutic chemical (ATC), International Classification of Disease (ICD), 데이터 연결을 위해 사용된 방법 등
다양한 데이터 원천과 위치에서 얻은 연구의 경우 연구자들은 다양한 원천 데이터를 어떻게 수집하고 통합할 것인지 언급하여야 한다.
5.3 Target/Study Population#
Target population은 추론을 하고자 하는 인구집단이다.
Study population은 target population을 대표하고자 만든 인구집단이다. 연구 질문에 답하기 위해 데이터로부터 구한다.
Study population은 선정 제외 기준과 다음의 요소들을 통해 정의한다.
선정 시점, lookback period(새로운 환자를 파악하기 위해 washout period를 두는 등)
중요한 변수들 (study population을 결정하는 데 필요한 변수)과 어떻게 타당성을 확보할 것인지
데이터의 선정 제외 기준을 만족하는 데에 있어 완결성과 정확성