Mascot 검색 전에 반드시 해야 하는 MGF 데이터 QC
왜 필요한가 + 실전에서 확인해야 할 5가지 핵심 포인트 (상세 가이드)
1. 왜 MGF QC가 중요한가 (실무 관점)
![]() |
| 실전 MGF 데이터 QC 구동 화면. Mascot 검색 전, 펩타이드 태그(Tag) 분석과 전하 상태(Charge) 일관성, 아미노산 조성 등을 미리 파악하여 데이터의 품질을 판단하고 불량 스펙트럼을 사전에 필터링합니다(Willy's LCMS 프로그램 일부) |
LC-MS/MS 분석에서 많은 문제는 검색 이후가 아니라 검색 이전 단계(MGF 데이터)에서 이미 결정됩니다.
대부분의 workflow는 다음과 같습니다:
RAW → MGF → Mascot → 결과 해석
여기서 Mascot은 입력된 데이터가 올바르다는 가정을 합니다.
하지만 실제로는 다음과 같은 문제가 존재합니다:
precursor 자체가 틀린 경우
charge가 잘못 지정된 경우
noise spectrum이 포함된 경우
contamination이 섞인 경우
이 상태로 검색을 하면 Mascot은 틀린 데이터를 그럴듯하게 설명하는 결과를 만들어냅니다.
2. 핵심 개념: Mascot은 데이터를 검증하지 않는다
Mascot은 다음을 수행하지 않습니다:
precursor correctness 검증
charge 정확성 확인
spectrum quality 평가
Mascot의 역할은 주어진 데이터로 가장 잘 맞는 peptide를 찾는 것입니다.
따라서 입력 데이터가 틀리면 결과도 틀릴 수밖에 없습니다.
3. MGF QC를 하지 않았을 때 발생하는 문제
False Positive 증가
score는 높지만 실제 peptide는 틀림
False Negative 증가
실제 peptide가 존재하지만 precursor 오류로 검색 실패
분석 시간 낭비
의미 없는 hit 증가
downstream 오류
protein identification 오류
quantification 오류
pathway 분석 오류
4. MGF 데이터 QC 핵심 5가지 (실전 기준)
Precursor m/z 정확성 (가장 중요한 단계)
왜 중요한가
Mascot 검색은 precursor mass를 기준으로 후보를 생성합니다.
precursor가 틀리면 올바른 peptide는 후보에 포함되지 않습니다.
흔한 오류
Isotope peak 선택 오류
예:
실제 monoisotopic: m/z 500
선택된 값: m/z 501결과:
mass shift 발생
완전히 다른 peptide 탐색많은 peak picking 소프트웨어는 SNR이 낮을 때 첫 번째 isotope를 monoisotopic으로 오인하는 경우가 있습니다.
1 Da 오차는 Mascot에서 정답을 찾지 못하게 만드는 주요 원인입니다.Overlapping peak
복잡한 sample에서 peak가 겹치면서 잘못된 precursor 선택 발생
확인 방법
isotope spacing 확인
가장 낮은 m/z peak가 monoisotopic인지 확인
intensity 패턴 확인
Charge state 정확성
왜 중요한가
peptide mass 계산:
Mass = (m/z \times z) - (z \times 1.00727)
charge가 틀리면 mass 자체가 완전히 틀어집니다.
흔한 오류
z=2를 z=3으로 오판
isotope spacing 해석 오류
확인 방법
isotope spacing 분석
z=1 → 1.0 Da
z=2 → 0.5 Da
z=3 → 0.33 Da
Peak Quality (Signal vs Noise)
왜 중요한가
Mascot은 noise peak도 fragment로 인식할 수 있습니다.
나쁜 spectrum 특징
peak가 지나치게 많음
intensity가 균일하게 분포
랜덤한 분포
좋은 spectrum 특징
강한 peak 몇 개가 명확하게 존재
intensity 분포가 불균형
주요 fragment가 뚜렷
확인 방법
top N peak 분석 (예: top 10)
signal-to-noise ratio 확인
Fragmentation 패턴 존재 여부
핵심
좋은 MS/MS spectrum은 일정한 fragmentation 패턴을 가집니다.
확인 포인트
y-ion ladder 존재
b-ion ladder 존재
연속적인 fragmentation
문제 spectrum 특징
random peak 분포
Δmass 연결성 없음
실전 판단
패턴이 없는 spectrum은 신뢰하기 어렵습니다.
5. Contamination 확인 (PEG + CRAP)
PEG contamination
특징: 44 Da 반복
polymer 형태의 패턴
CRAP contamination (중요)
CRAP (Common Repository of Adventitious Proteins)는
실험 중 흔히 섞이는 단백질입니다.
대표적인 예:
Keratin
Trypsin
BSA
왜 위험한가
CRAP peptide는 다음과 같은 특징을 가집니다:
실제 peptide 구조
fragmentation이 매우 잘 됨
b/y ion이 매우 깔끔
그 결과:
완벽한 MS/MS처럼 보이지만 잘못된 매칭이 발생할 수 있습니다.
Mascot에서의 문제
높은 score
좋은 fragment match
DB에도 존재
하지만 실제 샘플과는 무관한 peptide입니다.
실전 QC Workflow (추천)
Step 1. 전체 precursor 확인
total precursor 수 파악
Step 2. 구간 선택
예: m/z 500–1500
Step 3. 샘플링
100~500 precursor 선택
Step 4. QC 평가
precursor 정확성
charge
fragmentation
contamination
Step 5. 전체 데이터 판단
일부만 확인해도 전체 품질 판단 가능
수만 개의 스펙트럼을 모두 확인할 필요는 없습니다.
Retention time 기준으로 초반, 중반, 후반 구간에서 일부를 선택하여 확인하면 전체 데이터 품질을 효율적으로 판단할 수 있습니다.
6. QC와 Mascot의 역할 분리
| 단계 | 역할 |
|---|---|
| QC | 데이터 검증 |
| Mascot | peptide 탐색 |
입력 데이터 품질에 의해 결정됩니다.
관련글 :
