The Complete LC-MS/MS Peptide Identification Workflow
Proteomics 데이터 해석의 전체 과정
LC-MS/MS 기반 proteomics 분석의 목적은 단백질을 구성하는 펩타이드 서열을 식별하는 것입니다.
이를 위해 질량분석기는 단순히 질량을 측정하는 것이 아니라 여러 단계의 데이터 처리 과정을 통해 peptide identification을 수행합니다.
1. LC Separation — 펩타이드 분리
Proteomics 분석에서는 단백질을 먼저 효소로 분해하여 peptide mixture를 생성합니다.
가장 널리 사용되는 효소는 다음과 같습니다.
Trypsin
Trypsin은 다음 위치에서 단백질을 절단합니다.
Lys (K)
Arg (R)
이렇게 생성된 peptide mixture는 매우 복잡하기 때문에 Liquid Chromatography (LC)를 이용하여 시간적으로 분리됩니다.
LC separation의 목적
complex peptide mixture separation
co-eluting peptide 감소
precursor selection 정확도 증가
2. MS1 Scan — Precursor Detection
LC에서 분리된 peptide는 ion source (ESI)를 통해 이온화됩니다.
일반적인 peptide ion 형태
[M+2H]2+
[M+3H]3+
[M+4H]4+
MS1 scan에서는 다음 정보가 측정됩니다.
| 정보 | 의미 |
|---|---|
| m/z | 질량 대 전하 비 |
| intensity | 이온 abundance |
| isotope pattern | charge determination |
이 단계에서 instrument는 precursor ion을 선택합니다.
3. Precursor Selection
MS1 spectrum에서 특정 precursor ion이 선택됩니다.
이 과정은 data dependent acquisition (DDA) 방식으로 수행되는 경우가 많습니다.
예
Top 10 most intense ions
선택된 precursor는 다음 단계로 전달됩니다.
MS1 → precursor selection → MS/MS
4. Fragmentation — Peptide 분해
선택된 precursor ion은 collision cell에서 fragmentation 됩니다.
가장 일반적인 fragmentation 방식
CID
HCD
ETD
CID/HCD fragmentation에서는 peptide backbone이 절단되어 다음 fragment ion이 생성됩니다.
b-ion
y-ion
예
PEPTIDE
b1 b2 b3 b4
y1 y2 y3 y4
이러한 fragment ion pattern은 peptide sequence reconstruction의 핵심입니다.
5. MS/MS Spectrum 생성
Fragmentation 이후 생성된 fragment ion은 mass analyzer에서 측정됩니다.
MS/MS spectrum에는 다음 정보가 포함됩니다.
| 정보 | 설명 |
|---|---|
| fragment m/z | fragment ion mass |
| intensity | fragment ion abundance |
| fragmentation pattern | b/y ion ladder |
이러한 fragment ion 패턴을 이용하여 peptide sequence를 결정합니다.
6. MGF File 생성
Proteomics 데이터 분석에서는 MS/MS spectrum이 보통 MGF (Mascot Generic Format) 파일로 저장됩니다.
MGF 파일의 기본 구조
BEGIN IONS
PEPMASS=445.23
CHARGE=2+
RTINSECONDS=1543
m/z intensity
m/z intensity
END IONS
하나의 MGF 파일에는 수천에서 수만 개의 MS/MS spectrum이 포함될 수 있습니다.
7. Database Search
MGF 파일은 database search algorithm을 통해 분석됩니다.
대표적인 search engine
Mascot
Sequest
Andromeda
MS-Fragger
Database search 과정
1️⃣ theoretical peptide 생성
2️⃣ theoretical fragment 계산
3️⃣ experimental spectrum 비교
이 과정을 통해 peptide sequence가 결정됩니다.
8. Peptide Scoring
Search algorithm은 spectrum과 theoretical peptide의 일치도를 계산합니다.
평가 기준
fragment ion match
mass accuracy
fragment intensity
ion series coverage
Score가 충분히 높으면 peptide identification이 승인됩니다.
9. False Discovery Rate (FDR)
Proteomics 분석에서는 false identification을 줄이기 위해 FDR control이 사용됩니다.
일반적인 기준
FDR < 1 %
이 과정은 decoy database를 이용하여 계산됩니다.
10. Protein Identification
마지막 단계에서는 peptide identification을 기반으로 protein이 결정됩니다.
과정
peptide identification
→ peptide grouping
→ protein inference
이 과정을 통해 최종적으로 protein list가 생성됩니다.
LC-MS/MS 펩타이드 분석 워크플로우
![]() |
| Overview of the LC-MS/MS peptide identification workflow from sample preparation to protein identification |
a) 단편화의 상보성 (Complementarity): CID/HCD는 주로 b, y 이온을 생성하지만, ETD/ECD는 c, z 이온을 생성합니다. 이 두 데이터를 결합하면 de novo sequencing 알고리즘이 빈틈없이 서열을 메울 수 있습니다.
b) MGF 파일의 역할: Raw 데이터는 용량이 크고 기기 종속적이지만, 이를 MGF라는 표준 텍스트 형식으로 변환함으로써 우리는 비로소 Mascot이나 우리가 만든 VBA 알고리즘에서 데이터를 자유롭게 요리할 수 있게 됩니다.
c) 스코어링의 통계적 의미: Mascot의 스코어는 단순히 '얼마나 닮았나'가 아니라, '이 매칭이 우연히 일어났을 확률이 얼마나 낮은가'를 통계적으로 계산한 결과입니다. 이 과정이 있어야 분석의 신뢰도가 확보됩니다.
실제 Proteomics Workflow 요약
전체 workflow를 간단히 정리하면 다음과 같습니다.
Protein digestion
↓
LC separation
↓
MS1 precursor detection
↓
Precursor selection
↓
Fragmentation (CID/HCD/ETD)
↓
MS/MS spectrum acquisition
↓
MGF file generation
↓
Database search
↓
Peptide identification
↓
Protein identification
중요한 포인트
Proteomics 분석에서 중요한 것은 단순히 많은 MS/MS spectrum을 생성하는 것이 아니라 해석 가능한 spectrum을 확보하는 것입니다.
좋은 peptide spectrum의 특징
clear y-ion ladder
sufficient fragment peaks
low noise
accurate mass measurement
따라서 실제 분석에서는 **MS/MS spectrum quality 평가(QC)**가 매우 중요한 단계입니다.
LC-MS/MS proteomics 분석은 단순한 질량 측정이 아니라 여러 단계의 데이터 처리 과정을 통해 peptide sequence를 식별하는 복합적인 workflow입니다.
이 workflow는 다음 핵심 단계로 구성됩니다.
precursor detection
fragmentation
MS/MS spectrum acquisition
database search
peptide identification
protein inference
