Mascot에서 높은 점수인데도 틀린 경우 (MS/MS 해석 실전)
MS/MS 스펙트럼은 좋아 보이는데 왜 잘못된 매칭이 나올까? + CRAP(cRAP: Common Repository of Adventitious Proteins) contamination까지 포함한 분석
1. 문제 상황
LC-MS/MS 분석에서 Mascot 검색 결과를 보면 높은 score를 가진 peptide가 나오는 경우가 많습니다.
하지만 실제로는 다음과 같은 문제가 발생합니다:
score는 높은데 생물학적으로 말이 안 됨
스펙트럼은 매우 깔끔함
b/y 이온도 잘 보임 그럼에도 불구하고 결과가 틀린 경우가 존재합니다.
![]() |
| 이상적인 매칭(True Positive)과 잘못된 매칭(False Positive)의 비교. 높은 Mascot Score보다 중요한 것은 b/y 이온의 연속적인 사다리(Ladder) 패턴과 핵심 피크의 일관성입니다. |
이 경우는 단순한 noise나 PEG 문제가 아니라, “정상처럼 보이지만 실제로는 틀린 매칭” 입니다.
2. 핵심 개념: Mascot score는 정답이 아니다
많은 사용자들이 다음과 같이 생각합니다:
score가 높다 → 정답이다 ❌
하지만 실제 의미는:
score가 높다 = 이 스펙트럼을 설명할 수 있는 가능성이 높다
👉 즉,
설명이 가능하다고 해서 정답이라는 의미는 아닙니다
3. 이유 1 — 일부 fragment만 잘 맞는 경우
Mascot은 전체 서열이 아니라
일부 fragment match만으로도 높은 score를 줄 수 있습니다.
특징
몇 개 b/y ion이 정확히 일치
나머지는 약하게 반영
👉 결과:
“맞는 것처럼 보이는 peptide” 생성
4. 이유 2 — Ion series의 연속성이 없음
좋은 peptide는:
연속적인 y-ion 또는 b-ion ladder 존재
하지만 틀린 매칭은:
ion이 점프 형태로 존재
예
y3, y5, y8만 존재
y4, y6 없음
👉 특징:
일부 fragment는 정확
하지만 전체 구조는 불완전
5. 이유 3 — 강한 피크가 설명되지 않음
겉으로 보면 match가 많지만:
intensity가 높은 peak는 매칭되지 않음
👉 특징:
low intensity peak 위주로 match
핵심 peak는 unexplained
👉 해석:
“중요한 피크를 설명하지 못하면 틀린 매칭일 가능성이 높음”
6. 이유 4 — precursor mass만 맞는 경우
Mascot은 precursor mass가 맞으면
후보로 포함시킵니다.
하지만:
fragment consistency가 부족한 경우
억지 매칭 발생
👉 특징:
mass error는 작음
fragment coverage는 낮음
7. 이유 5 — PTM 문제
✔ PTM 미반영
실제 peptide: oxidation, phosphorylation
검색 조건: PTM 없음
👉 일부 fragment만 match
✔ PTM 과적용
필요 이상 PTM 적용
mass 억지로 맞춤
👉 비현실적인 peptide 생성
8. 이유 6 — CRAP contamination (가장 중요)
많은 사람들이 PEG 같은 background contamination은 잘 인식하지만,
👉 단백질 기반 contamination은 놓치는 경우가 많습니다.
![]() |
| CRAP Contamination의 유입 경로와 분석 결과에 미치는 영향. 연구원의 각질(Keratin)이나 과도한 Trypsin은 실제 단백질이기 때문에 스펙트럼 자체는 완벽하지만, 실험 목적과는 무관한 "가장 위험한 가짜 정답"을 만들어냅니다. |
✔ CRAP이란?
CRAP (Common Repository of Adventitious Proteins)는
실험 중 흔히 섞이는 단백질을 의미합니다.
대표적인 예:
Keratin (피부, 머리카락)
Trypsin (소화 효소)
BSA (실험용 단백질)
✔ 왜 문제가 되는가
이 단백질들은:
실제 protein → 실제 peptide 생성
fragmentation이 매우 잘 됨
b/y ion이 깔끔하게 형성됨
👉 즉,
완벽한 MS/MS 스펙트럼을 만든다
✔ Mascot에서 발생하는 문제
높은 score 생성
fragment도 잘 맞음
DB에도 존재
👉 결과:
“완벽하게 맞는 것처럼 보이는 틀린 매칭”
✔ 핵심 포인트
CRAP peptide는 “틀린 데이터”가 아니라
“잘 만들어진 잘못된 정답”이다
9. 이유 7 — 다른 species 매칭
예:
mouse sample
human DB 검색
👉 결과:
거의 맞는 peptide 존재
완전 일치는 아님
10. 이유 8 — 유사 peptide가 여러 개 존재
proteome에는:
비슷한 서열이 많음
👉 결과:
여러 peptide가 비슷한 score
잘못된 선택 가능
11. 실전 체크리스트
다음 중 2개 이상 해당되면 의심해야 합니다:
☐ ion ladder가 끊겨 있음
☐ high intensity peak가 설명되지 않음
☐ fragment coverage가 낮음
☐ PTM이 비현실적임
☐ contamination 가능성 있음 (CRAP 포함)
☐ species mismatch 가능성 있음
12. 가장 중요한 판단 기준
좋은 매칭은:
높은 score ❌
많은 match 수 ❌
👉 아니라:
연속성 + 핵심 피크 + 일관성
요약 :
MS/MS 해석에서 가장 중요한 사실은 다음입니다:
“깔끔한 스펙트럼”이 아니라 “일관되게 설명되는 스펙트럼”이 정답이다
Mascot score가 높아도 틀릴 수 있으며, 특히 CRAP contamination은“가장 위험한 가짜 정답”을 만든다
관련글 :

