Database Search 전에 반드시 해야 할 작업
“이제 Mascot에 넣으면 되겠지.” 그러나 현실은 그렇게 단순하지 않습니다.
하나의 90분 LC-MS/MS 런에서 생성되는 MGF 파일은 수천에서 많게는 수만 개의 MS/MS 스캔을 포함합니다. 파일 크기만 200~300MB에 달하는 경우도 흔합니다.
하지만 여기서 중요한 질문이 있습니다.
이 중 실제로 ‘서열 분석 가능한 precursor’는 몇 개일까요?
모든 MS/MS 스펙트럼이 동일한 품질을 가지는 것은 아닙니다.
-
monoisotopic peak 선택 오류
- 잘못 지정된 precursor charge
- 혼합(co-isolation) fragment
- 낮은 signal-to-noise
- 동위원소 중복 선택
- PTM 과다 설정으로 인한 검색 공간 폭증
Database search는 출발점이 아니라 QC 이후에 수행되어야 할 마지막 단계입니다.
특히 고해상도 MS1/MS2 데이터와 ppm 단위의 정밀 질량을 다루는 현대 LC-MS/MS 환경에서는,
검색 전에 수행하는 precursor QC가 결과의 신뢰도를 결정합니다.
따라서 먼저 확인이 필요합니다.
-
이 precursor는 정확한가?
- charge는 일관성 있는가?
- fragment는 해석 가능한가?
- 이 스펙트럼은 실제 펩타이드 서열 정보를 담고 있는가?
이 글에서는 MGF 파일에서 유효 precursor를 선별하기 위한 체계적인 4단계 QC 프로세스를 소개합니다.
이 과정은 검색 시간을 줄이고,
검색 공간을 합리적으로 축소하며,
궁극적으로는 분석 결과의 정확도를 향상시키는 핵심 단계입니다.
다음 단계부터 하나씩 살펴보겠습니다.
MGF Precursor QC — 데이터 품질 평가를 위한 4단계 접근
MGF 파일에는 수천에서 수만 개의 MS/MS 스펙트럼이 포함됩니다.
그러나 이러한 데이터를 사람이 하나씩 검토하거나 수정하는 것은 현실적으로 불가능합니다.
따라서 QC 과정의 목적은 개별 스펙트럼을 제거하거나 수정하는 것이 아니라,
-
실험 데이터의 전반적인 품질을 평가하고
- precursor 선택이 적절했는지 확인하며
- MS/MS fragmentation이 서열 분석에 충분한 정보를 제공하는지 판단하는 것입니다.
즉 QC는 데이터 처리 과정이 아니라 데이터 해석을 위한 품질 평가 단계입니다.
LC-MS/MS 데이터에서는 일반적으로 다음과 같은 네 가지 관점에서 QC를 수행할 수 있습니다.
Step 1. Precursor Mass Accuracy 평가
첫 번째 단계는 precursor 질량 정확도를 평가하는 것입니다.
고해상도 질량분석기에서는 일반적으로 ppm 수준의 질량 정확도를 기대할 수 있습니다. 그러나 실제 데이터에서는 다음과 같은 원인으로 질량 오차가 발생할 수 있습니다.
-
monoisotopic peak 선택 오류
- 동위원소 피크가 precursor로 선택된 경우
-
calibration drift
- isotope cluster overlap
QC 단계에서는 precursor mass error의 분포를 확인하여 데이터의 질량 정확도가 장비 성능에 부합하는지 평가합니다.
예를 들어 다음과 같은 범위가 일반적으로 기대됩니다.
| 장비 유형 | 일반적인 질량 정확도 |
|---|---|
| QTOF | 약 ±5 ppm |
| Orbitrap | 약 ±3 ppm |
| FT-ICR | 약 ±1 ppm |
이러한 분포가 크게 벗어난다면 실험 조건이나 장비 calibration 상태를 의심할 수 있습니다.
Step 2. Precursor Charge State 평가
두 번째 단계는 precursor charge 상태의 분포를 확인하는 것입니다.
ESI 기반 LC-MS/MS 분석에서 펩타이드는 일반적으로 다음과 같은 전하 상태로 검출됩니다.
-
+2, +3, +4 ......
그러나 실제 MGF 파일에서는 다음과 같은 상황이 발생할 수 있습니다.
-
charge 정보가 기록되지 않은 경우
- 잘못된 charge state가 지정된 경우
- 동일 precursor가 서로 다른 charge 상태로 반복 선택된 경우
또한 중요한 점은 MS/MS fragment는 대부분 +1 charge 상태로 취급된다는 것입니다.
CID 또는 HCD fragmentation에서는 b-ion과 y-ion이 주로 +1 전하 상태로 생성되며, fragment charge 정보는 MGF 파일에 명시되지 않는 경우가 많습니다.
따라서 precursor charge 분포를 확인하는 것은 실험 데이터의 정상적인 ionization 특성을 평가하는 중요한 지표가 됩니다.
Step 3. Fragment Spectrum 품질 평가
세 번째 단계는 MS/MS 스펙트럼 자체의 품질을 평가하는 것입니다.
모든 MS/MS 스펙트럼이 충분한 구조 정보를 제공하는 것은 아닙니다. 다음과 같은 스펙트럼은 서열 해석에 제한적인 정보를 제공합니다.
-
fragment peak 수가 매우 적은 스펙트럼
- 낮은 intensity 신호
- 높은 노이즈 수준
- co-isolation에 의해 생성된 혼합 fragment
QC 단계에서는 fragment peak 분포와 intensity 패턴을 통해 전체 데이터의 fragmentation 품질을 평가할 수 있습니다.
특히 다음과 같은 요소가 중요한 평가 기준이 됩니다.
-
fragment peak 수
- intensity 분포
- signal-to-noise 수준
- fragment 패턴의 일관성
이러한 분석을 통해 실험 조건이 충분한 fragmentation 정보를 제공했는지 판단할 수 있습니다.
Step 4. Sequence 정보 가능성 평가
-
b-ion series
- y-ion series
이러한 fragment 관계를 통해 sequence tag가 형성될 수 있습니다.
예를 들어 fragment 사이에서 연속적인 아미노산 질량 차이가 확인된다면 해당 스펙트럼은 실제 펩타이드 서열 정보를 포함할 가능성이 높습니다.
반대로 이러한 패턴이 거의 관찰되지 않는 경우에는 다음과 같은 가능성이 있습니다.
-
노이즈 중심 스펙트럼
- 비펩타이드 precursor
- fragmentation 부족
따라서 sequence tag 형성 여부는 MS/MS 데이터의 해석 가능성을 평가하는 중요한 지표가 됩니다.
QC의 역할
이러한 4단계 QC 과정의 목적은 개별 스펙트럼을 제거하거나 수정하는 것이 아니라, 실험 데이터의 품질을 이해하는 것입니다.
QC 결과를 통해 분석자는 다음과 같은 질문에 답할 수 있습니다.
-
이 데이터는 database search에 적합한 품질을 가지고 있는가?
- precursor 선택은 적절하게 이루어졌는가?
- fragmentation 조건은 충분한 정보를 제공하는가?
QC는 데이터 처리가 아니라 데이터 해석의 출발점입니다.
다음 단계
품질을 이해한 이후에 실제 MGF 데이터를 마스콧 서치등 펩타이드 서열 해석을 수행할 수 있습니다.
MGF Precursor QC 예시
그림은 실제 proteomics 실험 데이터인
CPTAC_SEER_W_TMT7_20_21July16_Pippin_16-05-06.pride.mgf 파일을 QC 분석한 첫 번째 화면입니다.
해당 MGF 파일에는 총 23,710개의 precursor MS/MS 스펙트럼이 포함되어 있으며,
그중 MGF index 5001 ~ 5300 구간(300개 precursor)에 대해 QC 분석을 수행한 결과입니다.
Tag QC Summary
분석 결과 생성된 sequence tag 수는 총 1331개입니다.
또한 Tag 길이 분포는 다음과 같습니다.
| Tag length | Count | Ratio |
|---|---|---|
| 1-mer | 0 | 0.0% |
| 2-mer | 0 | 0.0% |
| 3-mer 이상 | 1331 | 100.0% |
이는 해당 MS/MS 스펙트럼에서 최소 3개의 연속된 아미노산 질량 차이를 가지는 fragment 관계가 안정적으로 검출되었음을 의미합니다.
즉 fragmentation 품질이 비교적 양호한 스펙트럼이 다수 포함되어 있음을 시사합니다.
Charge Consistency
precursor charge 상태 분석 결과
-
Unique charge : 1161Mixed
- charge : 일부 스펙트럼에서 charge ambiguity 존재
이는 MS/MS fragmentation 과정에서 생성된 fragment 패턴을 기반으로 charge 상태의 일관성을 평가한 결과입니다.
Sequence Tag 기반 단백질 매칭
오른쪽 패널에는 QC 과정에서 생성된 sequence tag 후보가 표시됩니다.
각 tag는 다음 과정을 통해 단백질 데이터베이스와 비교됩니다.
-
MS/MS fragment 간 질량 차이로부터 sequence tag 생성
-
선택된 protein database (예: Mouse proteome)에서 해당 tag 서열 검색
-
tag 서열의 ±20 amino acid 범위 내에서 가능한 peptide 후보 생성
-
해당 peptide의 precursor molecular weight가 관측된 precursor 질량과 ±0.01 Da 이내로 일치하는지 확인
이 과정을 통해 tag 기반 peptide 후보와 해당 gene 이름을 함께 표시합니다.
이러한 QC 분석을 통해 다음과 같은 정보를 빠르게 확인할 수 있습니다.
-
MS/MS 스펙트럼이 실제 peptide fragmentation 패턴을 포함하는지
- sequence tag가 데이터베이스 단백질 서열에 존재하는지
- precursor 질량이 해당 peptide와 물리적으로 일치하는지



