Mascot 검색 전에 반드시 해야 하는 MGF 데이터 QC

Mascot 검색 전에 반드시 해야 하는 MGF 데이터 QC
왜 필요한가 + 실전에서 확인해야 할 5가지 핵심 포인트 (상세 가이드)


1. 왜 MGF QC가 중요한가 (실무 관점)

Practical MGF QC software dashboard showing tag analysis, charge consistency, and amino acid composition for LC-MS/MS data validation.
실전 MGF 데이터 QC 구동 화면. Mascot 검색 전, 펩타이드 태그(Tag) 분석과 전하 상태(Charge) 일관성, 아미노산 조성 등을 미리 파악하여 데이터의 품질을 판단하고 불량 스펙트럼을 사전에 필터링합니다(Willy's LCMS 프로그램 일부)



LC-MS/MS 분석에서 많은 문제는 검색 이후가 아니라 검색 이전 단계(MGF 데이터)에서 이미 결정됩니다.

대부분의 workflow는 다음과 같습니다:

RAW → MGF → Mascot → 결과 해석

여기서 Mascot은 입력된 데이터가 올바르다는 가정을 합니다.

하지만 실제로는 다음과 같은 문제가 존재합니다:

  • precursor 자체가 틀린 경우

  • charge가 잘못 지정된 경우

  • noise spectrum이 포함된 경우

  • contamination이 섞인 경우

이 상태로 검색을 하면 Mascot은 틀린 데이터를 그럴듯하게 설명하는 결과를 만들어냅니다.


2. 핵심 개념: Mascot은 데이터를 검증하지 않는다

Mascot은 다음을 수행하지 않습니다:

  • precursor correctness 검증

  • charge 정확성 확인

  • spectrum quality 평가

Mascot의 역할은 주어진 데이터로 가장 잘 맞는 peptide를 찾는 것입니다.

따라서 입력 데이터가 틀리면 결과도 틀릴 수밖에 없습니다.


3. MGF QC를 하지 않았을 때 발생하는 문제

  1. False Positive 증가

    • score는 높지만 실제 peptide는 틀림

  2. False Negative 증가

    • 실제 peptide가 존재하지만 precursor 오류로 검색 실패

  3. 분석 시간 낭비

    • 의미 없는 hit 증가

  4. downstream 오류

    • protein identification 오류

    • quantification 오류

    • pathway 분석 오류


4. MGF 데이터 QC 핵심 5가지 (실전 기준)

Precursor m/z 정확성 (가장 중요한 단계)

왜 중요한가

Mascot 검색은 precursor mass를 기준으로 후보를 생성합니다.
precursor가 틀리면 올바른 peptide는 후보에 포함되지 않습니다.

흔한 오류

  • Isotope peak 선택 오류
    예:
    실제 monoisotopic: m/z 500
    선택된 값: m/z 501

    결과:
    mass shift 발생
    완전히 다른 peptide 탐색

    많은 peak picking 소프트웨어는 SNR이 낮을 때 첫 번째 isotope를 monoisotopic으로 오인하는 경우가 있습니다.
    1 Da 오차는 Mascot에서 정답을 찾지 못하게 만드는 주요 원인입니다.

  • Overlapping peak
    복잡한 sample에서 peak가 겹치면서 잘못된 precursor 선택 발생

확인 방법

  • isotope spacing 확인

  • 가장 낮은 m/z peak가 monoisotopic인지 확인

  • intensity 패턴 확인

Charge state 정확성

왜 중요한가

peptide mass 계산:

Mass = (m/z \times z) - (z \times 1.00727)

charge가 틀리면 mass 자체가 완전히 틀어집니다.

흔한 오류

  • z=2를 z=3으로 오판

  • isotope spacing 해석 오류

확인 방법

  • isotope spacing 분석

    • z=1 → 1.0 Da

    • z=2 → 0.5 Da

    • z=3 → 0.33 Da


Peak Quality (Signal vs Noise)

왜 중요한가

Mascot은 noise peak도 fragment로 인식할 수 있습니다.

나쁜 spectrum 특징

  • peak가 지나치게 많음

  • intensity가 균일하게 분포

  • 랜덤한 분포

좋은 spectrum 특징

  • 강한 peak 몇 개가 명확하게 존재

  • intensity 분포가 불균형

  • 주요 fragment가 뚜렷

확인 방법

  • top N peak 분석 (예: top 10)

  • signal-to-noise ratio 확인


Fragmentation 패턴 존재 여부

핵심

좋은 MS/MS spectrum은 일정한 fragmentation 패턴을 가집니다.

확인 포인트

  • y-ion ladder 존재

  • b-ion ladder 존재

  • 연속적인 fragmentation

문제 spectrum 특징

  • random peak 분포

  • Δmass 연결성 없음

실전 판단

패턴이 없는 spectrum은 신뢰하기 어렵습니다.


5. Contamination 확인 (PEG + CRAP)

PEG contamination

  • 특징: 44 Da 반복

  • polymer 형태의 패턴


CRAP contamination (중요)

CRAP (Common Repository of Adventitious Proteins)는
실험 중 흔히 섞이는 단백질입니다.

대표적인 예:

  • Keratin

  • Trypsin

  • BSA

왜 위험한가

CRAP peptide는 다음과 같은 특징을 가집니다:

  • 실제 peptide 구조

  • fragmentation이 매우 잘 됨

  • b/y ion이 매우 깔끔

그 결과:

완벽한 MS/MS처럼 보이지만 잘못된 매칭이 발생할 수 있습니다.

Mascot에서의 문제

  • 높은 score

  • 좋은 fragment match

  • DB에도 존재

하지만 실제 샘플과는 무관한 peptide입니다.


실전 QC Workflow (추천)

Step 1. 전체 precursor 확인

  • total precursor 수 파악

Step 2. 구간 선택

  • 예: m/z 500–1500

Step 3. 샘플링

  • 100~500 precursor 선택

Step 4. QC 평가

  • precursor 정확성

  • charge

  • fragmentation

  • contamination

Step 5. 전체 데이터 판단

  • 일부만 확인해도 전체 품질 판단 가능

수만 개의 스펙트럼을 모두 확인할 필요는 없습니다.
Retention time 기준으로 초반, 중반, 후반 구간에서 일부를 선택하여 확인하면 전체 데이터 품질을 효율적으로 판단할 수 있습니다.


6. QC와 Mascot의 역할 분리

단계역할
QC데이터 검증
Mascotpeptide 탐색

핵심은 QC가 입력 품질을 보장하는 단계라는 점입니다.

Mascot 결과의 품질은 알고리즘이 아니라
입력 데이터 품질에 의해 결정됩니다.
좋은 스펙트럼이 아니라 올바른 입력이 좋은 결과를 만듭니다.

관련글 :

다음 이전