MGF 파일에서 유효 Precursor 선별하는 4단계 QC 프로세스

Database Search 전에 반드시 해야 할 작업

LC-MS/MS 분석이 끝나면 우리는 종종 이렇게 생각합니다.
“이제 Mascot에 넣으면 되겠지.” 그러나 현실은 그렇게 단순하지 않습니다.

하나의 90분 LC-MS/MS 런에서 생성되는 MGF 파일은 수천에서 많게는 수만 개의 MS/MS 스캔을 포함합니다. 파일 크기만 200~300MB에 달하는 경우도 흔합니다.

하지만 여기서 중요한 질문이 있습니다.

이 중 실제로 ‘서열 분석 가능한 precursor’는 몇 개일까요?

모든 MS/MS 스펙트럼이 동일한 품질을 가지는 것은 아닙니다.

monoisotopic peak 선택 오류
잘못 지정된 precursor charge
혼합(co-isolation) fragment
낮은 signal-to-noise
동위원소 중복 선택
PTM 과다 설정으로 인한 검색 공간 폭증

이러한 요소들은 데이터베이스 검색 시간을 증가시키고, 더 심각하게는 false positive(오동정)를 유발합니다.

MGF 파일은 완성된 데이터가 아닙니다. 그것은 아직 가공되지 않은 원석(raw data)에 가깝습니다.

Database search는 출발점이 아니라 QC 이후에 수행되어야 할 마지막 단계입니다.

특히 고해상도 MS1/MS2 데이터와 ppm 단위의 정밀 질량을 다루는 현대 LC-MS/MS 환경에서는,
검색 전에 수행하는 precursor QC가 결과의 신뢰도를 결정합니다.

따라서 먼저 확인이 필요합니다.

이 precursor는 정확한가?
charge는 일관성 있는가?
fragment는 해석 가능한가?
이 스펙트럼은 실제 펩타이드 서열 정보를 담고 있는가?

이 글에서는 MGF 파일에서 유효 precursor를 선별하기 위한 체계적인 4단계 QC 프로세스를 소개합니다.

이 과정은 검색 시간을 줄이고,
검색 공간을 합리적으로 축소하며,
궁극적으로는 분석 결과의 정확도를 향상시키는 핵심 단계입니다.

다음 단계부터 하나씩 살펴보겠습니다.

MGF Precursor QC — 데이터 품질 평가를 위한 4단계 접근

MGF 파일에는 수천에서 수만 개의 MS/MS 스펙트럼이 포함됩니다.
그러나 이러한 데이터를 사람이 하나씩 검토하거나 수정하는 것은 현실적으로 불가능합니다.

따라서 QC 과정의 목적은 개별 스펙트럼을 제거하거나 수정하는 것이 아니라,

실험 데이터의 전반적인 품질을 평가하고
precursor 선택이 적절했는지 확인하며
MS/MS fragmentation이 서열 분석에 충분한 정보를 제공하는지 판단하는 것입니다.

즉 QC는 데이터 처리 과정이 아니라 데이터 해석을 위한 품질 평가 단계입니다.

LC-MS/MS 데이터에서는 일반적으로 다음과 같은 네 가지 관점에서 QC를 수행할 수 있습니다.

Step 1. Precursor Mass Accuracy 평가

첫 번째 단계는 precursor 질량 정확도를 평가하는 것입니다.

고해상도 질량분석기에서는 일반적으로 ppm 수준의 질량 정확도를 기대할 수 있습니다. 그러나 실제 데이터에서는 다음과 같은 원인으로 질량 오차가 발생할 수 있습니다.

monoisotopic peak 선택 오류
동위원소 피크가 precursor로 선택된 경우
calibration drift
isotope cluster overlap

QC 단계에서는 precursor mass error의 분포를 확인하여 데이터의 질량 정확도가 장비 성능에 부합하는지 평가합니다.

예를 들어 다음과 같은 범위가 일반적으로 기대됩니다.

장비 유형	일반적인 질량 정확도
QTOF	약 ±5 ppm
Orbitrap	약 ±3 ppm
FT-ICR	약 ±1 ppm

이러한 분포가 크게 벗어난다면 실험 조건이나 장비 calibration 상태를 의심할 수 있습니다.

Step 2. Precursor Charge State 평가

두 번째 단계는 precursor charge 상태의 분포를 확인하는 것입니다.

ESI 기반 LC-MS/MS 분석에서 펩타이드는 일반적으로 다음과 같은 전하 상태로 검출됩니다.

+2, +3, +4 ......

그러나 실제 MGF 파일에서는 다음과 같은 상황이 발생할 수 있습니다.

charge 정보가 기록되지 않은 경우
잘못된 charge state가 지정된 경우
동일 precursor가 서로 다른 charge 상태로 반복 선택된 경우

또한 중요한 점은 MS/MS fragment는 대부분 +1 charge 상태로 취급된다는 것입니다.

CID 또는 HCD fragmentation에서는 b-ion과 y-ion이 주로 +1 전하 상태로 생성되며, fragment charge 정보는 MGF 파일에 명시되지 않는 경우가 많습니다.

따라서 precursor charge 분포를 확인하는 것은 실험 데이터의 정상적인 ionization 특성을 평가하는 중요한 지표가 됩니다.

Step 3. Fragment Spectrum 품질 평가

세 번째 단계는 MS/MS 스펙트럼 자체의 품질을 평가하는 것입니다.

모든 MS/MS 스펙트럼이 충분한 구조 정보를 제공하는 것은 아닙니다. 다음과 같은 스펙트럼은 서열 해석에 제한적인 정보를 제공합니다.

fragment peak 수가 매우 적은 스펙트럼
낮은 intensity 신호
높은 노이즈 수준
co-isolation에 의해 생성된 혼합 fragment

QC 단계에서는 fragment peak 분포와 intensity 패턴을 통해 전체 데이터의 fragmentation 품질을 평가할 수 있습니다.

특히 다음과 같은 요소가 중요한 평가 기준이 됩니다.

fragment peak 수
intensity 분포
signal-to-noise 수준
fragment 패턴의 일관성

이러한 분석을 통해 실험 조건이 충분한 fragmentation 정보를 제공했는지 판단할 수 있습니다.

Step 4. Sequence 정보 가능성 평가

마지막 단계는 MS/MS 스펙트럼이 실제 펩타이드 서열 정보를 포함하고 있는지 평가하는 것입니다.

펩타이드 fragmentation에서는 일반적으로 다음과 같은 fragment ion series가 생성됩니다.

b-ion series
y-ion series

이때 fragment 사이의 질량 차이는 특정 아미노산 residue 질량과 일치합니다.
이러한 fragment 관계를 통해 sequence tag가 형성될 수 있습니다.
예를 들어 fragment 사이에서 연속적인 아미노산 질량 차이가 확인된다면 해당 스펙트럼은 실제 펩타이드 서열 정보를 포함할 가능성이 높습니다.
반대로 이러한 패턴이 거의 관찰되지 않는 경우에는 다음과 같은 가능성이 있습니다.

노이즈 중심 스펙트럼
비펩타이드 precursor
fragmentation 부족

따라서 sequence tag 형성 여부는 MS/MS 데이터의 해석 가능성을 평가하는 중요한 지표가 됩니다.

QC의 역할

이러한 4단계 QC 과정의 목적은 개별 스펙트럼을 제거하거나 수정하는 것이 아니라, 실험 데이터의 품질을 이해하는 것입니다.

QC 결과를 통해 분석자는 다음과 같은 질문에 답할 수 있습니다.

이 데이터는 database search에 적합한 품질을 가지고 있는가?
precursor 선택은 적절하게 이루어졌는가?
fragmentation 조건은 충분한 정보를 제공하는가?

QC는 데이터 처리가 아니라 데이터 해석의 출발점입니다.

다음 단계

품질을 이해한 이후에 실제 MGF 데이터를 마스콧 서치등 펩타이드 서열 해석을 수행할 수 있습니다.

MGF Precursor QC 예시

그림은 실제 proteomics 실험 데이터인
CPTAC_SEER_W_TMT7_20_21July16_Pippin_16-05-06.pride.mgf 파일을 QC 분석한 첫 번째 화면입니다.

해당 MGF 파일에는 총 23,710개의 precursor MS/MS 스펙트럼이 포함되어 있으며,
그중 MGF index 5001 ~ 5300 구간(300개 precursor)에 대해 QC 분석을 수행한 결과입니다.

Tag QC Summary

분석 결과 생성된 sequence tag 수는 총 1331개입니다.

또한 Tag 길이 분포는 다음과 같습니다.

Tag length	Count	Ratio
1-mer	0	0.0%
2-mer	0	0.0%
3-mer 이상	1331	100.0%

이는 해당 MS/MS 스펙트럼에서 최소 3개의 연속된 아미노산 질량 차이를 가지는 fragment 관계가 안정적으로 검출되었음을 의미합니다.
즉 fragmentation 품질이 비교적 양호한 스펙트럼이 다수 포함되어 있음을 시사합니다.

Charge Consistency

precursor charge 상태 분석 결과

Unique charge : 1161Mixed
charge : 일부 스펙트럼에서 charge ambiguity 존재

이는 MS/MS fragmentation 과정에서 생성된 fragment 패턴을 기반으로 charge 상태의 일관성을 평가한 결과입니다.

Sequence Tag 기반 단백질 매칭

오른쪽 패널에는 QC 과정에서 생성된 sequence tag 후보가 표시됩니다.

각 tag는 다음 과정을 통해 단백질 데이터베이스와 비교됩니다.

MS/MS fragment 간 질량 차이로부터 sequence tag 생성
선택된 protein database (예: Mouse proteome)에서 해당 tag 서열 검색
tag 서열의 ±20 amino acid 범위 내에서 가능한 peptide 후보 생성
해당 peptide의 precursor molecular weight가 관측된 precursor 질량과 ±0.01 Da 이내로 일치하는지 확인

이 과정을 통해 tag 기반 peptide 후보와 해당 gene 이름을 함께 표시합니다.

이러한 QC 분석을 통해 다음과 같은 정보를 빠르게 확인할 수 있습니다.

MS/MS 스펙트럼이 실제 peptide fragmentation 패턴을 포함하는지
sequence tag가 데이터베이스 단백질 서열에 존재하는지
precursor 질량이 해당 peptide와 물리적으로 일치하는지

Precursor Isotope Pattern

선택된 precursor ion의 isotope cluster를 확대한 결과입니다.

이 스펙트럼은 LC-MS 분석에서 측정된 precursor ion의 동위원소 분포를 보여줍니다.

펩타이드 이온은 일반적으로 **다중 전하 상태(multiple charge state)**로 존재하며, 이 경우 isotope peak 간 간격은 다음과 같이 결정됩니다.

isotope spacing = 1 / z

본 예에서는 precursor charge가 z = 6이므로 isotope peak 간 간격은 약 0.1667 Da로 나타납니다.

이와 같은 isotope pattern은 다음과 같은 정보를 제공합니다.

precursor charge state 확인

monoisotopic peak 검증

precursor mass 계산 정확도 확인

특히 proteomics 분석에서는 정확한 monoisotopic precursor 선택이 MS/MS 데이터 해석의 중요한 출발점이 됩니다.

(분석 화면 및 스펙트럼 차트는 Willy's LCMS 프로그램으로 생성하였습니다. )

Peptide Fragment Report

(Peptide Fragment Report — MS/MS 스펙트럼과 펩타이드 서열 비교)

Check sequence details from the MGF File

그림은 데이터베이스 검색을 통해 매칭된 펩타이드 서열을 기반으로 이론 fragment ion과 실제 MS/MS 스펙트럼을 비교한 결과 리포트 화면입니다.

분석 대상 펩타이드 서열은 다음과 같습니다.

INQTLAVDGTALLKCKATGEPLPVISWL

이 펩타이드는 데이터베이스 검색 결과 Robo2 단백질에서 유래한 서열로 제안되었으며, 계산된 중성 질량은 다음과 같습니다.

Calculated Neutral Mass: 2950.62 Da

Observed precursor m/z: 492.788

Observed charge state: z = 6

이를 기반으로 계산된 theoretical precursor m/z 값은

[M+6H]6+ = 492.777

으로 실측값과 매우 작은 오차 범위 내에서 일치합니다.

스펙트럼 영역에는 LC-MS/MS 분석에서 측정된 fragment ion 신호가 표시되며, intensity는 로그(Log) 스케일로 표현되어 있습니다.

로그 스케일로 강한 피크뿐 아니라 상대적으로 약한 fragment ion까지 함께 시각적으로 확인할 수 있도록 해 줍니다.

(그래프 하단 해당 펩타이드 서열로부터 계산된 이론 fragment ion 위치)

주요 fragment ion series는 다음과 같습니다.

b-ion series : N-terminal 방향 fragment (빨강)

y-ion series : C-terminal 방향 fragment (파랑)

일부 fragment ion에는 PTM(Post-Translational Modification) 이 반영된 이론 질량이 프라그먼트 피크와 일치 합니다. (주황색 마커)

이러한 정보는 MS/MS fragmentation 패턴이 실제 펩타이드 서열과 일치하는지 검증하는 데 중요한 근거가 됩니다.

(분석 화면 및 스펙트럼 차트는 Willy's LCMS 프로그램으로 생성하였습니다. )

Peptide 조건 설정 화면
Peptide Validation Setup — Fragment 분석 조건 설정

Peptide 조건 설정

Peptide Validation Setup — Fragment 분석 조건 설정

Fragment Ion 종류 선택 : b-ions / y-ions

PTM (Post-Translational Modification) 설정 : Carbamidomethylation / Deamidation / Hydroxylation / Acetylation / Amidation

(각 PTM은 해당 residue 질량 변화 값을 기반으로 계산됩니다.)

데이터베이스 검색에서 제안된 펩타이드 서열이 실제 MS/MS 스펙트럼과 물리적으로 일치하는지 검증 합니다.

(분석 화면 및 스펙트럼 차트는 Willy's LCMS 프로그램으로 생성하였습니다. )

이 글은 LC-MS/MS 기반 질량분석 및 proteomics 분석 전체 흐름 가이드의 일부입니다.
전체 분석 구조를 단계별로 정리한 통합 페이지는 아래에서 확인할 수 있습니다.
→ LC-MS/MS 질량분석 전체 흐름 가이드 보기

MGF 파일에서 유효 Precursor 선별하는 4단계 QC 프로세스

Database Search 전에 반드시 해야 할 작업

MGF Precursor QC — 데이터 품질 평가를 위한 4단계 접근

Step 1. Precursor Mass Accuracy 평가

Step 2. Precursor Charge State 평가

Step 3. Fragment Spectrum 품질 평가

Step 4. Sequence 정보 가능성 평가

QC의 역할

다음 단계

MGF Precursor QC 예시

Tag QC Summary

Charge Consistency

Sequence Tag 기반 단백질 매칭

Precursor Isotope Pattern

Peptide Fragment Report

(Peptide Fragment Report — MS/MS 스펙트럼과 펩타이드 서열 비교)

Peptide 조건 설정 화면Peptide Validation Setup — Fragment 분석 조건 설정

Peptide 조건 설정

Peptide 조건 설정 화면
Peptide Validation Setup — Fragment 분석 조건 설정