How Database Search Identifies Peptides from MS/MS Spectrum
Proteomics에서 LC-MS/MS 분석의 궁극적인 목적은 펩타이드 서열을 식별(peptide identification)하는 것입니다.
질량분석기는 단순히 m/z와 intensity 정보를 제공할 뿐이지만, 이 데이터를 이용하면 단백질을 구성하는 펩타이드 서열을 추론할 수 있습니다.
이 과정은 보통 database search라고 불리며, proteomics 데이터 분석의 핵심 단계입니다.
대표적인 검색 알고리즘에는 다음과 같은 프로그램이 있습니다.
-
Mascot
- Sequest
- Andromeda (MaxQuant)
- MS-Fragger
이 글에서는 LC-MS/MS 데이터에서 어떻게 펩타이드 서열이 식별되는지 기본 원리를 설명합니다.
1. 단백질을 펩타이드로 분해
Proteomics 분석은 보통 단백질을 효소로 분해(digestion)하는 것에서 시작합니다.
가장 널리 사용되는 효소는 trypsin입니다.
Trypsin은 다음 위치에서 단백질을 절단합니다.
K | R
단, 다음 residue가 Proline일 경우 절단되지 않는 경우가 많습니다.
Missed Cleavage: 절단 부위 바로 뒤에 P(Proline)가 올 경우 효소 접근이 어려워 절단되지 않는 경우가 많습니다. 이를 'Missed Cleavage'라고 부르며, 단백질이 완전히 digestion 되면 수많은 펩타이드 단편(Peptide Fragments)이 생성됩니다.
2. LC Separation
생성된 peptide mixture는 **LC (Liquid Chromatography)**를 이용해 분리됩니다.
LC separation의 목적은 다음과 같습니다.
-
complex mixture 분리
-
ion suppression 감소
-
MS detection sensitivity 증가
각 peptide는 서로 다른 retention time에서 검출됩니다.
3. MS1: Precursor Ion Detection
MS1 단계에서는 각 peptide의 precursor ion이 검출됩니다.
MS1 스펙트럼에서는 다음 정보를 얻을 수 있습니다.
-
precursor m/z
-
intensity
-
Isotopic Pattern: 이를 통해 펩타이드의 전하 상태(Charge state)를 결정합니다. 현대 분석에서는 주로 DDA(Data-Dependent Acquisition) 방식을 사용하여, 검출된 Precursor 중 강도가 높은 특정 이온을 자동으로 선택해 다음 단계인 MS/MS fragmentation으로 전달합니다.
4. MS/MS Fragmentation
선택된 precursor ion은 collision cell에서 fragmentation 됩니다.
Peptide fragmentation에서는 주로 다음 ion이 생성됩니다.
-
b-ion
-
y-ion
예를 들어 다음 peptide를 생각해 보겠습니다.
PEPTIDE
MS/MS spectrum에서는 다음과 같은 fragment ion series가 나타납니다.
b1 b2 b3 b4 b5
y1 y2 y3 y4 y5
이 fragment ion pattern은 peptide sequence에 대한 중요한 정보를 제공합니다.
5. Theoretical Spectrum 생성
Database search 알고리즘은 먼저 database에 존재하는 모든 peptide sequence에 대해 theoretical spectrum을 생성합니다.
이 과정은 다음과 같이 진행됩니다.
protein database
↓
in silico digestion
↓
candidate peptides
↓
theoretical MS/MS spectrum
각 peptide sequence에 대해 가능한 b-ion / y-ion m/z 값이 계산됩니다.
6. Experimental Spectrum과 비교
다음 단계에서는 실험에서 얻은 MS/MS spectrum과 theoretical spectrum을 비교합니다.
예를 들어 다음과 같은 상황을 생각할 수 있습니다.
Experimental spectrum
m/z 175
m/z 246
m/z 317
m/z 430
Theoretical spectrum (candidate peptide)
b2
b3
y3
y4
두 spectrum이 얼마나 잘 일치하는지 평가합니다.
7. Scoring Algorithm
Database search에서는 scoring function을 사용하여 peptide match의 신뢰도를 계산합니다.
각 알고리즘은 서로 다른 scoring 방식을 사용합니다.
예를 들어
Mascot
-
probability based scoring
Sequest
-
cross-correlation score (XCorr)
Andromeda
-
probabilistic scoring model
score가 높을수록 해당 peptide sequence가 실제 MS/MS spectrum과 잘 일치함을 의미합니다.
8. Peptide Identification
가장 높은 score를 가진 peptide가 candidate identification으로 선택됩니다.
그러나 database search 결과에는 항상 false match가 존재할 수 있습니다.
따라서 다음 단계에서 통계적 검증이 필요합니다.
![]() |
9. False Discovery Rate (FDR)
Proteomics 분석에서는 보통 target-decoy strategy를 사용하여 False Discovery Rate를 계산합니다.
이 방법에서는 다음 두 가지 database를 사용합니다.
target database
decoy database
decoy database는 보통 단백질 서열을 reverse하거나 shuffle하여 생성합니다.
이 방법을 통해 peptide identification의 신뢰도를 평가할 수 있습니다.
보통 proteomics 분석에서는 다음 기준을 사용합니다.
FDR < 1%
전체 Workflow
Proteomics에서 peptide identification workflow는 다음과 같이 정리할 수 있습니다.
Protein digestion
↓
LC separation
↓
MS1 precursor detection
↓
MS/MS fragmentation
↓
Database search
↓
Scoring
↓
FDR filtering
↓
Peptide identification
이 과정을 통해 LC-MS/MS 데이터에서 단백질 정보를 추론할 수 있습니다.
LC-MS/MS 기반 proteomics에서 peptide identification은 단순한 질량 측정이 아니라 database search와 통계적 분석이 결합된 과정입니다.
MS/MS fragmentation pattern을 theoretical spectrum과 비교하고, scoring과 FDR filtering을 통해 신뢰성 있는 peptide identification이 이루어집니다.
이러한 분석 과정 덕분에 LC-MS/MS는 현대 proteomics 연구에서 가장 강력한 분석 도구로 자리 잡았습니다.
관련글
LC-MS/MS 데이터 해석 가이드 (Fragmentation, Isotope, Contamination 총정리)
