How Database Search Identifies Peptides from MS/MS Spectrum

How Database Search Identifies Peptides from MS/MS Spectrum

Proteomics에서 LC-MS/MS 분석의 궁극적인 목적은 펩타이드 서열을 식별(peptide identification)하는 것입니다.

질량분석기는 단순히 m/z와 intensity 정보를 제공할 뿐이지만, 이 데이터를 이용하면 단백질을 구성하는 펩타이드 서열을 추론할 수 있습니다.

이 과정은 보통 database search라고 불리며, proteomics 데이터 분석의 핵심 단계입니다.

대표적인 검색 알고리즘에는 다음과 같은 프로그램이 있습니다.

  • Mascot
  • Sequest
  • Andromeda (MaxQuant)
  • MS-Fragger

이 글에서는 LC-MS/MS 데이터에서 어떻게 펩타이드 서열이 식별되는지 기본 원리를 설명합니다.


1. 단백질을 펩타이드로 분해

Proteomics 분석은 보통 단백질을 효소로 분해(digestion)하는 것에서 시작합니다.

가장 널리 사용되는 효소는 trypsin입니다.

Trypsin은 다음 위치에서 단백질을 절단합니다.

K | R

단, 다음 residue가 Proline일 경우 절단되지 않는 경우가 많습니다.

Missed Cleavage: 절단 부위 바로 뒤에 P(Proline)가 올 경우 효소 접근이 어려워 절단되지 않는 경우가 많습니다. 이를 'Missed Cleavage'라고 부르며, 단백질이 완전히 digestion 되면 수많은 펩타이드 단편(Peptide Fragments)이 생성됩니다.


2. LC Separation

생성된 peptide mixture는 **LC (Liquid Chromatography)**를 이용해 분리됩니다.

LC separation의 목적은 다음과 같습니다.

  • complex mixture 분리

  • ion suppression 감소

  • MS detection sensitivity 증가

각 peptide는 서로 다른 retention time에서 검출됩니다.


3. MS1: Precursor Ion Detection

MS1 단계에서는 각 peptide의 precursor ion이 검출됩니다.

MS1 스펙트럼에서는 다음 정보를 얻을 수 있습니다.

  • precursor m/z

  • intensity

  • Isotopic Pattern: 이를 통해 펩타이드의 전하 상태(Charge state)를 결정합니다. 현대 분석에서는 주로 DDA(Data-Dependent Acquisition) 방식을 사용하여, 검출된 Precursor 중 강도가 높은 특정 이온을 자동으로 선택해 다음 단계인 MS/MS fragmentation으로 전달합니다.


4. MS/MS Fragmentation

선택된 precursor ion은 collision cell에서 fragmentation 됩니다.

Peptide fragmentation에서는 주로 다음 ion이 생성됩니다.

  • b-ion

  • y-ion

예를 들어 다음 peptide를 생각해 보겠습니다.

PEPTIDE

MS/MS spectrum에서는 다음과 같은 fragment ion series가 나타납니다.

b1 b2 b3 b4 b5
y1 y2 y3 y4 y5

이 fragment ion pattern은 peptide sequence에 대한 중요한 정보를 제공합니다.


5. Theoretical Spectrum 생성

Database search 알고리즘은 먼저 database에 존재하는 모든 peptide sequence에 대해 theoretical spectrum을 생성합니다.

이 과정은 다음과 같이 진행됩니다.

protein database

in silico digestion

candidate peptides

theoretical MS/MS spectrum

각 peptide sequence에 대해 가능한 b-ion / y-ion m/z 값이 계산됩니다.


6. Experimental Spectrum과 비교

다음 단계에서는 실험에서 얻은 MS/MS spectrumtheoretical spectrum을 비교합니다.

예를 들어 다음과 같은 상황을 생각할 수 있습니다.

Experimental spectrum

m/z 175
m/z 246
m/z 317
m/z 430

Theoretical spectrum (candidate peptide)

b2
b3
y3
y4

두 spectrum이 얼마나 잘 일치하는지 평가합니다.


7. Scoring Algorithm

Database search에서는 scoring function을 사용하여 peptide match의 신뢰도를 계산합니다.

각 알고리즘은 서로 다른 scoring 방식을 사용합니다.

예를 들어

Mascot

  • probability based scoring

Sequest

  • cross-correlation score (XCorr)

Andromeda

  • probabilistic scoring model

score가 높을수록 해당 peptide sequence가 실제 MS/MS spectrum과 잘 일치함을 의미합니다.


8. Peptide Identification

가장 높은 score를 가진 peptide가 candidate identification으로 선택됩니다.

그러나 database search 결과에는 항상 false match가 존재할 수 있습니다.

따라서 다음 단계에서 통계적 검증이 필요합니다.


LC-MS/MS 펩타이드 조각 리포트: 실험값과 이론적 MS/MS 스펙트럼의 b-이온 및 y-이온 시리즈 매칭 분석 화면
Peptide Fragment Report 예시. 실험에서 얻은 MS/MS 스펙트럼(Experimental)을 이론적 수치와 대조하여 b-ion과 y-ion 시리즈를 정확하게 식별하고 PTM 매칭 까지 표시함 (WIllys MCMS 를 사용하여 분석했습니다)



9. False Discovery Rate (FDR)

Proteomics 분석에서는 보통 target-decoy strategy를 사용하여 False Discovery Rate를 계산합니다.

이 방법에서는 다음 두 가지 database를 사용합니다.

target database
decoy database

decoy database는 보통 단백질 서열을 reverse하거나 shuffle하여 생성합니다.

이 방법을 통해 peptide identification의 신뢰도를 평가할 수 있습니다.

보통 proteomics 분석에서는 다음 기준을 사용합니다.

FDR < 1%

전체 Workflow

Proteomics에서 peptide identification workflow는 다음과 같이 정리할 수 있습니다.

Protein digestion

LC separation

MS1 precursor detection

MS/MS fragmentation

Database search

Scoring

FDR filtering

Peptide identification

이 과정을 통해 LC-MS/MS 데이터에서 단백질 정보를 추론할 수 있습니다.


LC-MS/MS 기반 proteomics에서 peptide identification은 단순한 질량 측정이 아니라 database search와 통계적 분석이 결합된 과정입니다.

MS/MS fragmentation pattern을 theoretical spectrum과 비교하고, scoring과 FDR filtering을 통해 신뢰성 있는 peptide identification이 이루어집니다.

이러한 분석 과정 덕분에 LC-MS/MS는 현대 proteomics 연구에서 가장 강력한 분석 도구로 자리 잡았습니다.


관련글

LC-MS/MS 데이터 해석 가이드 (Fragmentation, Isotope, Contamination 총정리)

The Complete LC-MS/MS Peptide Identification Workflow

다음 이전