The Complete LC-MS/MS Peptide Identification Workflow

Proteomics 데이터 해석의 전체 과정

LC-MS/MS 기반 proteomics 분석의 목적은 단백질을 구성하는 펩타이드 서열을 식별하는 것입니다.
이를 위해 질량분석기는 단순히 질량을 측정하는 것이 아니라 여러 단계의 데이터 처리 과정을 통해 peptide identification을 수행합니다.

이 글에서는 실제 proteomics 분석에서 사용되는 전체 peptide identification workflow를 단계별로 설명합니다.

1. LC Separation — 펩타이드 분리

Proteomics 분석에서는 단백질을 먼저 효소로 분해하여 peptide mixture를 생성합니다.

가장 널리 사용되는 효소는 다음과 같습니다.


Trypsin

Trypsin은 다음 위치에서 단백질을 절단합니다.


Lys (K)
Arg (R)

이렇게 생성된 peptide mixture는 매우 복잡하기 때문에 Liquid Chromatography (LC)를 이용하여 시간적으로 분리됩니다.

LC separation의 목적


complex peptide mixture separation
co-eluting peptide 감소
precursor selection 정확도 증가

2. MS1 Scan — Precursor Detection

LC에서 분리된 peptide는 ion source (ESI)를 통해 이온화됩니다.

일반적인 peptide ion 형태


[M+2H]2+
[M+3H]3+
[M+4H]4+

MS1 scan에서는 다음 정보가 측정됩니다.

정보	의미
m/z	질량 대 전하 비
intensity	이온 abundance
isotope pattern	charge determination

이 단계에서 instrument는 precursor ion을 선택합니다.

3. Precursor Selection

MS1 spectrum에서 특정 precursor ion이 선택됩니다.

이 과정은 data dependent acquisition (DDA) 방식으로 수행되는 경우가 많습니다.

예


Top 10 most intense ions

선택된 precursor는 다음 단계로 전달됩니다.


MS1 → precursor selection → MS/MS

4. Fragmentation — Peptide 분해

선택된 precursor ion은 collision cell에서 fragmentation 됩니다.

가장 일반적인 fragmentation 방식


CID
HCD
ETD

CID/HCD fragmentation에서는 peptide backbone이 절단되어 다음 fragment ion이 생성됩니다.


b-ion
y-ion

예


PEPTIDE

b1 b2 b3 b4
y1 y2 y3 y4

이러한 fragment ion pattern은 peptide sequence reconstruction의 핵심입니다.

(Fragmentation 자세한 설명은 아래 글 참고)

LC-MS/MS Fragmentation 비교

5. MS/MS Spectrum 생성

Fragmentation 이후 생성된 fragment ion은 mass analyzer에서 측정됩니다.

MS/MS spectrum에는 다음 정보가 포함됩니다.

정보	설명
fragment m/z	fragment ion mass
intensity	fragment ion abundance
fragmentation pattern	b/y ion ladder

이러한 fragment ion 패턴을 이용하여 peptide sequence를 결정합니다.

(좋은 MS/MS spectrum 특징은 아래 글 참고)

좋은 MS/MS 스펙트럼이란? Peptide Identification 성공의 핵심 조건

6. MGF File 생성

Proteomics 데이터 분석에서는 MS/MS spectrum이 보통 MGF (Mascot Generic Format) 파일로 저장됩니다.

MGF 파일의 기본 구조


BEGIN IONS
PEPMASS=445.23
CHARGE=2+
RTINSECONDS=1543
m/z intensity
m/z intensity
END IONS

하나의 MGF 파일에는 수천에서 수만 개의 MS/MS spectrum이 포함될 수 있습니다.

(MS/MS 스캔 데이터 구조 이해하기 (MGF 파일 기초)는 아래 글 참고)

MS/MS 스캔 데이터 구조 (MGF 파일 기초)

7. Database Search

MGF 파일은 database search algorithm을 통해 분석됩니다.

대표적인 search engine


Mascot
Sequest
Andromeda
MS-Fragger

Database search 과정

1️⃣ theoretical peptide 생성
2️⃣ theoretical fragment 계산
3️⃣ experimental spectrum 비교

이 과정을 통해 peptide sequence가 결정됩니다.

8. Peptide Scoring

Search algorithm은 spectrum과 theoretical peptide의 일치도를 계산합니다.

평가 기준


fragment ion match
mass accuracy
fragment intensity
ion series coverage

Score가 충분히 높으면 peptide identification이 승인됩니다.

9. False Discovery Rate (FDR)

Proteomics 분석에서는 false identification을 줄이기 위해 FDR control이 사용됩니다.

일반적인 기준


FDR < 1 %

이 과정은 decoy database를 이용하여 계산됩니다.

10. Protein Identification

마지막 단계에서는 peptide identification을 기반으로 protein이 결정됩니다.

과정


peptide identification
→ peptide grouping
→ protein inference

이 과정을 통해 최종적으로 protein list가 생성됩니다.

LC-MS/MS 펩타이드 분석 워크플로우

LC-MS/MS proteomics workflow showing peptide digestion, LC separation, MS1 scan, fragmentation (CID/HCD/ETD), MS/MS spectrum acquisition, database search, and protein identification

Overview of the LC-MS/MS peptide identification workflow from sample preparation to protein identification

a) 단편화의 상보성 (Complementarity): CID/HCD는 주로 b, y 이온을 생성하지만, ETD/ECD는 c, z 이온을 생성합니다. 이 두 데이터를 결합하면 de novo sequencing 알고리즘이 빈틈없이 서열을 메울 수 있습니다.

b) MGF 파일의 역할: Raw 데이터는 용량이 크고 기기 종속적이지만, 이를 MGF라는 표준 텍스트 형식으로 변환함으로써 우리는 비로소 Mascot이나 우리가 만든 VBA 알고리즘에서 데이터를 자유롭게 요리할 수 있게 됩니다.

c) 스코어링의 통계적 의미: Mascot의 스코어는 단순히 '얼마나 닮았나'가 아니라, '이 매칭이 우연히 일어났을 확률이 얼마나 낮은가'를 통계적으로 계산한 결과입니다. 이 과정이 있어야 분석의 신뢰도가 확보됩니다.

실제 Proteomics Workflow 요약

전체 workflow를 간단히 정리하면 다음과 같습니다.


Protein digestion
↓
LC separation
↓
MS1 precursor detection
↓
Precursor selection
↓
Fragmentation (CID/HCD/ETD)
↓
MS/MS spectrum acquisition
↓
MGF file generation
↓
Database search
↓
Peptide identification
↓
Protein identification

중요한 포인트

Proteomics 분석에서 중요한 것은 단순히 많은 MS/MS spectrum을 생성하는 것이 아니라 해석 가능한 spectrum을 확보하는 것입니다.

좋은 peptide spectrum의 특징


clear y-ion ladder
sufficient fragment peaks
low noise
accurate mass measurement

따라서 실제 분석에서는 **MS/MS spectrum quality 평가(QC)**가 매우 중요한 단계입니다.

LC-MS/MS proteomics 분석은 단순한 질량 측정이 아니라 여러 단계의 데이터 처리 과정을 통해 peptide sequence를 식별하는 복합적인 workflow입니다.

이 workflow는 다음 핵심 단계로 구성됩니다.


precursor detection
fragmentation
MS/MS spectrum acquisition
database search
peptide identification
protein inference


관련글 :

LC-MS/MS De novo Sequencing이란? (Database Search와의 차이)
MS/MS 드노보 시퀀싱(De novo Sequencing) 원리: b/y Ion 기반 펩타이드 서열 복원
[분석 전략] De novo Sequencing vs Database Search vs Hybrid: 최적의 펩타이드 식별 방법 선택 가이드

이 글은 LC-MS/MS 기반 질량분석 및 proteomics 분석 전체 흐름 가이드의 일부입니다.  
전체 분석 구조를 단계별로 정리한 통합 페이지는 아래에서 확인할 수 있습니다.
→ LC-MS/MS 질량분석 전체 흐름 가이드 보기