Mascot 높은 점수의 함정: 왜 완벽해 보이는 MS/MS 스펙트럼이 틀린 매칭일까? (ft. CRAP Contamination)

Mascot에서 높은 점수인데도 틀린 경우 (MS/MS 해석 실전)
MS/MS 스펙트럼은 좋아 보이는데 왜 잘못된 매칭이 나올까? + CRAP(cRAP: Common Repository of Adventitious Proteins) contamination까지 포함한 분석


1. 문제 상황

LC-MS/MS 분석에서 Mascot 검색 결과를 보면 높은 score를 가진 peptide가 나오는 경우가 많습니다.

하지만 실제로는 다음과 같은 문제가 발생합니다:

  • score는 높은데 생물학적으로 말이 안 됨

  • 스펙트럼은 매우 깔끔함

  • b/y 이온도 잘 보임 그럼에도 불구하고 결과가 틀린 경우가 존재합니다.

Comparison of Ideal MS/MS Spectrum Match and False Positive Match in Mascot Search showing b/y ion ladder continuity.
이상적인 매칭(True Positive)과 잘못된 매칭(False Positive)의 비교. 높은 Mascot Score보다 중요한 것은 b/y 이온의 연속적인 사다리(Ladder) 패턴과 핵심 피크의 일관성입니다.


이 경우는 단순한 noise나 PEG 문제가 아니라,   “정상처럼 보이지만 실제로는 틀린 매칭” 입니다.


2. 핵심 개념: Mascot score는 정답이 아니다

많은 사용자들이 다음과 같이 생각합니다:

  • score가 높다 → 정답이다 ❌

하지만 실제 의미는:

score가 높다 = 이 스펙트럼을 설명할 수 있는 가능성이 높다

👉 즉,

설명이 가능하다고 해서 정답이라는 의미는 아닙니다

 

3. 이유 1 — 일부 fragment만 잘 맞는 경우

Mascot은 전체 서열이 아니라
일부 fragment match만으로도 높은 score를 줄 수 있습니다.

특징

  • 몇 개 b/y ion이 정확히 일치

  • 나머지는 약하게 반영

👉 결과:

  • “맞는 것처럼 보이는 peptide” 생성


4. 이유 2 — Ion series의 연속성이 없음

좋은 peptide는:

  • 연속적인 y-ion 또는 b-ion ladder 존재

하지만 틀린 매칭은:

  • ion이 점프 형태로 존재

  • y3, y5, y8만 존재

  • y4, y6 없음

👉 특징:

  • 일부 fragment는 정확

  • 하지만 전체 구조는 불완전

y-ion ladder가 중간에 툭 끊겨 있다면, 아무리 높은 peak가 일치해도 의심해야 합니다.

5. 이유 3 — 강한 피크가 설명되지 않음

겉으로 보면 match가 많지만:

  • intensity가 높은 peak는 매칭되지 않음

👉 특징:

  • low intensity peak 위주로 match

  • 핵심 peak는 unexplained

👉 해석:

“중요한 피크를 설명하지 못하면 틀린 매칭일 가능성이 높음”

 

 6. 이유 4 — precursor mass만 맞는 경우

Mascot은 precursor mass가 맞으면
후보로 포함시킵니다.

하지만:

  • fragment consistency가 부족한 경우

  • 억지 매칭 발생

👉 특징:

  • mass error는 작음

  • fragment coverage는 낮음


7. 이유 5 — PTM 문제

✔ PTM 미반영

  • 실제 peptide: oxidation, phosphorylation

  • 검색 조건: PTM 없음

👉 일부 fragment만 match


✔ PTM 과적용

  • 필요 이상 PTM 적용

  • mass 억지로 맞춤

👉 비현실적인 peptide 생성


8. 이유 6 — CRAP contamination (가장 중요)

CRAP은 '데이터의 오류'가 아니라 '실험 과정의 오염'입니다. 즉, 기계는 정답을 말하고 있지만, 샘플이 오답인 경우입니다.

많은 사람들이 PEG 같은 background contamination은 잘 인식하지만,
👉 단백질 기반 contamination은 놓치는 경우가 많습니다.


Infographic showing the pathway of CRAP contamination such as Keratin and Trypsin entering the LC-MS/MS process and causing false positive Mascot search results.
CRAP Contamination의 유입 경로와 분석 결과에 미치는 영향. 연구원의 각질(Keratin)이나 과도한 Trypsin은 실제 단백질이기 때문에 스펙트럼 자체는 완벽하지만, 실험 목적과는 무관한 "가장 위험한 가짜 정답"을 만들어냅니다.


✔ CRAP이란?

CRAP (Common Repository of Adventitious Proteins)는
실험 중 흔히 섞이는 단백질을 의미합니다.

대표적인 예:

  • Keratin (피부, 머리카락)

  • Trypsin (소화 효소)

  • BSA (실험용 단백질)


✔ 왜 문제가 되는가

이 단백질들은:

  • 실제 protein → 실제 peptide 생성

  • fragmentation이 매우 잘 됨

  • b/y ion이 깔끔하게 형성됨

👉 즉,

완벽한 MS/MS 스펙트럼을 만든다


✔ Mascot에서 발생하는 문제

  • 높은 score 생성

  • fragment도 잘 맞음

  • DB에도 존재

👉 결과:

“완벽하게 맞는 것처럼 보이는 틀린 매칭”


✔ 핵심 포인트

CRAP peptide는 “틀린 데이터”가 아니라
“잘 만들어진 잘못된 정답”이다


9. 이유 7 — 다른 species 매칭

예:

  • mouse sample

  • human DB 검색

👉 결과:

  • 거의 맞는 peptide 존재

  • 완전 일치는 아님

👉 Mascot은 가장 유사한 결과를 선택

10. 이유 8 — 유사 peptide가 여러 개 존재

proteome에는:

  • 비슷한 서열이 많음

👉 결과:

  • 여러 peptide가 비슷한 score

  • 잘못된 선택 가능


11. 실전 체크리스트

다음 중 2개 이상 해당되면 의심해야 합니다:

  • ☐ ion ladder가 끊겨 있음

  • ☐ high intensity peak가 설명되지 않음

  • ☐ fragment coverage가 낮음

  • ☐ PTM이 비현실적임

  • ☐ contamination 가능성 있음 (CRAP 포함)

  • ☐ species mismatch 가능성 있음

Mascot 결과의 Delta Score(1위와 2위 후보 간의 점수 차이)가 너무 적은지 확인이 필요합니다.

12. 가장 중요한 판단 기준

좋은 매칭은:

  • 높은 score ❌

  • 많은 match 수 ❌

👉 아니라:

연속성 + 핵심 피크 + 일관성


요약 :

MS/MS 해석에서 가장 중요한 사실은 다음입니다:

“깔끔한 스펙트럼”이 아니라 “일관되게 설명되는 스펙트럼”이 정답이다
Mascot score가 높아도 틀릴 수 있으며, 특히 CRAP contamination은
“가장 위험한 가짜 정답”을 만든다

관련글 :
다음 이전