Sequence Coverage, Proteoform, ETD/ECD 그리고 Deconvolution의 진짜 의미
Proteomics(단백체학)에서 가장 널리 사용되는 분석 전략은 크게 두 가지입니다.
- Bottom-up Proteomics
- Top-down Proteomics
둘 다 LC-MS/MS 기반 기술이지만, 실제로는 “무엇을 관측하는가” 자체가 완전히 다릅니다.
특히 최근에는:
- Proteoform 분석
- PTM connectivity
- 바이오의약품 characterization
- intact protein QC
수요가 증가하면서 Top-down Proteomics의 중요성이 빠르게 커지고 있습니다.
하지만 실제 실무에서는 여전히 Bottom-up이 압도적으로 많이 사용됩니다.
왜 그럴까요?
그 이유는:
“Top-down은 단백질 전체를 직접 보는 대신, 스펙트럼 복잡도가 폭발적으로 증가하기 때문”
입니다.
이번 글에서는 다음 내용을 실제 LC-MS/MS 관점에서 자세히 설명합니다.
- Bottom-up vs Top-down의 구조적 차이
- Sequence Coverage가 왜 달라지는가
- Proteoform 개념
- Intact protein isotope spacing 문제
- MaxEnt/Xtract 같은 deconvolution의 중요성
- ETD/ECD가 왜 Top-down의 핵심 무기인가
- CID/HCD가 큰 단백질에서 어려운 이유
Proteomics에서 가장 중요한 질문
Proteomics의 핵심 질문 중 하나는 다음입니다.
“우리는 단백질 전체를 얼마나 완전하게 보고 있는가?”
즉:
Sequence Coverage
문제입니다.
Sequence Coverage란?
Sequence Coverage는:
단백질 전체 서열 중 실제로 관측된 영역의 비율
을 의미합니다.
예를 들어:
Protein:
MKWVTFISLLFLFSSAYSRGVFRRDAHKSEVAHRFKDLGE
Observed:
MKWVTFISLLFLFSSAYSR
GVFRRDAHK
라면 단백질 일부만 검출된 상태입니다.
Coverage가 높을수록:
- 단백질 동정 신뢰도 증가
- isoform 구분 가능성 증가
- PTM localization 정확도 증가
- proteoform 분석 가능성 증가
합니다.
Bottom-up Proteomics란?
Bottom-up은 현재 proteomics의 표준 방식입니다.
핵심 구조:
Protein
↓ digestion
Peptide
↓ LC-MS/MS
Identification
즉:
단백질을 직접 보는 것이 아니라 peptide 조각을 통해 간접적으로 추론하는 방식
입니다.
Bottom-up Workflow
1. Digestion
보통 Trypsin 사용:
K/R 뒤 절단
예:
Protein:
MKWVTFISLLFLFSSAYSRGVFRRDAHKSEVAHR
↓
Peptides:
MKWVTFISLLFLFSSAYSR
GVFR
RDAHK
SEVAHR
2. LC Separation
Peptide는:
- 크기가 작고
- ionization 효율이 좋고
- LC separation이 쉽습니다.
따라서 분석 효율이 매우 높습니다.
3. MS/MS Fragmentation
Peptide precursor를 fragmentation하여:
- b ions
- y ions
패턴으로 sequence를 동정합니다.
Bottom-up의 가장 큰 장점
1. 높은 Sensitivity
Peptide는 intact protein보다:
- ESI ionization이 훨씬 잘 되고
- fragmentation도 쉬우며
- signal intensity도 강합니다.
따라서:
- plasma
- serum
- tissue digest
- low abundance protein
분석에 매우 강력합니다.
2. 높은 Throughput
현재 대부분의 대규모 proteomics:
- DIA
- TMT
- LFQ
는 Bottom-up 기반입니다.
수천~수만 단백질 동정 가능.
3. DB Search 생태계가 매우 성숙
대표적인 소프트웨어:
- Mascot
- Sequest
- MaxQuant
- Proteome Discoverer
등이 매우 잘 구축되어 있습니다.
그런데 왜 Coverage가 낮아질까?
여기서 Bottom-up의 구조적 한계가 등장합니다.
실제로 Bottom-up은:
“단백질 전체”를 보는 기술이 아닙니다.
대부분은:
검출 가능한 peptide subset
만 보고 있습니다.
Bottom-up에서 Coverage가 끊기는 이유
1. Digestion 편향
Trypsin cleavage가 완벽하지 않습니다.
예:
- missed cleavage
- 너무 짧은 peptide
- 너무 긴 peptide
문제 발생.
2. Hydrophobic peptide 문제
Membrane protein peptide는:
- LC retention 과도
- 용출 불량
- ion suppression
문제로 검출이 어려워집니다.
3. Ionization efficiency 차이
모든 peptide가 동일하게 ionize되지 않습니다.
특히:
- phosphopeptide
- glycopeptide
- acidic peptide
는 신호가 약한 경우가 많습니다.
4. DDA stochastic sampling
DDA에서는 매 scan마다 일부 precursor만 선택됩니다.
즉:
Run A → peptide 선택
Run B → 동일 peptide 미선택
가능.
이것이 Missing Value의 핵심 원인입니다.
결과적으로 생기는 문제
실제 데이터에서는:
1000 aa protein
↓
20~40% coverage
정도만 얻는 경우가 흔합니다.
즉:
- 단백질 전체를 못 봄
- PTM 연결성 손실
- isoform ambiguity 발생
합니다.
PTM Connectivity 문제
이것이 Bottom-up의 가장 중요한 한계 중 하나입니다.
예:
Protein:
S10 phosphorylation
K150 acetylation
M220 oxidation
Bottom-up에서는 digestion 후:
Peptide A → phospho
Peptide B → acetyl
Peptide C → oxidation
처럼 분리되어 관찰됩니다.
하지만 실제 질문은:
“이 modification들이 동일한 단백질 분자에 동시에 존재하는가?”
입니다.
Bottom-up은 이것을 직접 증명하기 어렵습니다.
Proteoform이란?
Proteoform은:
- splice variant
- mutation
- truncation
- PTM combination
등을 포함한:
실제 단백질 분자 형태
를 의미합니다.
즉:
같은 단백질 이름
≠
같은 실제 분자
일 수 있습니다.
이것이 Top-down이 등장한 이유
Top-down은:
Protein intact 상태 그대로 분석
합니다.
즉:
Protein
↓
Direct LC-MS/MS
방식입니다.
Digestion이 없습니다.
Top-down Workflow
1. Intact Protein Ionization
단백질 전체가 ESI로 ionization됩니다.
예:
[M+20H]20+
[M+35H]35+
[M+48H]48+
처럼 매우 많은 charge state 형성.
2. Intact Proteoform Isolation
특정 charge envelope를 isolation합니다.
3. Fragmentation
이후:
- ETD
- ECD
- HCD
등으로 fragmentation 수행.
왜 Top-down은 Coverage가 높은가?
Top-down은 intact protein 전체를 fragmentation합니다.
즉:
N-term ~ C-term
전체 backbone fragmentation 가능.
따라서:
- 높은 sequence coverage
- PTM connectivity 유지
- proteoform 직접 관찰
가능해집니다.
그러나 여기서부터 진짜 어려움이 시작된다
Top-down의 핵심 문제는:
“단백질이 너무 크다”
는 점입니다.
1. Multiple Charge Explosion
Peptide는 보통:
z=2~3
정도입니다.
하지만 intact protein은:
z=10~60
이상도 흔합니다.
즉:
+20
+21
+22
+23
...
모든 charge state가 동시에 존재합니다.
스펙트럼 복잡도가 급격히 증가합니다.
2. Isotope Spacing이 극도로 좁아진다
이 부분이 Top-down의 핵심 난제입니다.
동위원소 spacing은:
1.003355 / z
입니다.
즉 charge가 증가할수록 isotope spacing이 좁아집니다.
예:
| Charge | Isotope spacing |
|---|---|
| z=1 | 1.003 Da |
| z=5 | 0.2007 Da |
| z=20 | 0.0502 Da |
| z=40 | 0.0251 Da |
즉 high-charge intact protein에서는 isotope peak가 거의 붙어 보입니다.
왜 이것이 심각한가?
Large protein에서는:
- isotope cluster overlap
- charge envelope overlap
- proteoform overlap
이 동시에 발생합니다.
즉 스펙트럼이 사실상:
겹친 isotope forest
처럼 보이게 됩니다.
따라서 Deconvolution이 핵심이 된다
Top-down에서는 단순 peak picking만으로는 해석이 거의 불가능합니다.
핵심은:
Charge Deconvolution
입니다.
즉:
복잡한 multiply charged spectrum을 실제 neutral mass로 복원하는 과정
입니다.
MaxEnt와 Xtract가 중요한 이유
Top-down MS에서는:
단백질 질량이 커질수록 isotope spacing이 극도로 좁아집니다.
따라서:
- charge assignment
- isotope grouping
- monoisotopic peak determination
- neutral mass reconstruction
이 매우 어려워집니다.
이때 사용하는 대표 알고리즘이:
- MaxEnt (Maximum Entropy)
- Xtract
- ReSpect
- THRASH
등입니다.
특히:
- Orbitrap
- FT-ICR
환경에서는 deconvolution 품질 자체가:
동정 성공 여부
를 결정하는 경우가 많습니다.
즉:
Top-down에서는 instrument resolution만 중요한 것이 아니라,
deconvolution 알고리즘 품질이 사실상 분석의 핵심 엔진입니다.
왜 HCD/CID만으로는 부족할까?
Peptide에서는 HCD/CID가 매우 잘 작동합니다.
하지만 intact protein은 다릅니다.
큰 단백질을 HCD/CID로 때리면:
- 에너지가 전체 구조로 분산되고
- backbone cleavage 효율이 낮아지며
- labile PTM만 먼저 떨어지는 경우가 많습니다.
즉:
Backbone fragmentation 실패
+
PTM loss 증가
문제 발생.
Labile PTM Loss 문제
대표 예:
- phosphorylation
- sulfation
- glycosylation
같은 labile PTM.
CID/HCD에서는:
−H3PO4
−SO3
같은 neutral loss만 강하게 나타나고:
정작 backbone 정보는 부족해질 수 있습니다.
즉:
PTM은 떨어졌는데
어디에 있었는지는 모른다
상황 발생.
그래서 ETD/ECD가 등장한다
후반부 Top-down의 핵심 기술이 바로:
- ECD (Electron Capture Dissociation)
- ETD (Electron Transfer Dissociation)
입니다.
ETD/ECD의 핵심 아이디어
ETD/ECD는:
단백질의 side-chain/PTM은 최대한 유지하면서 backbone만 선택적으로 절단
하려는 방식입니다.
즉:
Protein structure 유지
+
PTM 유지
+
Backbone cleavage
동시 달성 시도.
ETD/ECD에서는 무엇이 생성될까?
주로:
- c ions
- z ions
생성됩니다.
이는 CID/HCD의:
- b ions
- y ions
와 다른 fragmentation 메커니즘입니다.
왜 ETD/ECD가 Top-down에 유리한가?
Large intact protein에서는:
CID/HCD
→ 겉만 타는 경우 많음
즉:
- surface activation
- PTM stripping
- incomplete fragmentation
문제 발생.
반면 ETD/ECD는:
전자 기반 fragmentation
이므로:
- highly charged protein
- large protein
- PTM-rich protein
에서 backbone cleavage 유지에 매우 강합니다.
특히 PTM 분석에서 결정적이다
예:
Phosphorylated intact protein
CID/HCD:
−98 Da loss dominant
ETD/ECD:
phosphorylation 유지
+
site localization 가능
즉:
PTM connectivity와 localization을 동시에 유지 가능
합니다.
실제로 Top-down은 어떤 장비가 필요한가?
보통:
- Orbitrap
- FT-ICR
급의 초고해상도 장비가 사용됩니다.
왜냐하면:
- isotope spacing이 극도로 좁고
- charge overlap이 심하며
- fragment complexity가 매우 높기 때문입니다.
mass accuracy와 resolving power가 부족하면:
- monoisotopic peak assignment
- charge assignment
- deconvolution
자체가 실패할 수 있습니다.
실제 실무에서는 무엇이 더 많이 사용될까?
현재까지는 여전히:
Bottom-up >>> Top-down
입니다.
이유:
- sensitivity 우수
- throughput 우수
- workflow 성숙
- software ecosystem 강력
하기 때문입니다.
그렇다면 Top-down은 어디에서 강력한가?
Top-down은 특히:
- proteoform biology
- PTM connectivity
- antibody characterization
- biopharmaceutical QC
- intact protein variant analysis
에서 매우 강력합니다.
특히 최근 바이오의약품 분야에서는 중요성이 빠르게 증가하고 있습니다.
Bottom-up vs Top-down 최종 비교
| 항목 | Bottom-up | Top-down |
|---|---|---|
| 분석 대상 | Peptide | Intact protein |
| Digestion | 필요 | 불필요 |
| Throughput | 높음 | 낮음 |
| Sensitivity | 매우 높음 | 상대적으로 낮음 |
| Sequence Coverage | 부분적 | 높음 가능 |
| PTM Connectivity | 손실 | 유지 |
| Proteoform 분석 | 제한적 | 강력 |
| 스펙트럼 복잡도 | 상대적으로 낮음 | 매우 높음 |
| 핵심 난제 | peptide sampling | deconvolution |
| 주요 fragmentation | CID/HCD | ETD/ECD |
| 핵심 알고리즘 | DB search | charge deconvolution |
| 주요 장비 | 일반 HRMS | Orbitrap/FT-ICR |
핵심 정리
Bottom-up은:
“많은 단백질을 빠르게 보는 기술”
입니다.
반면 Top-down은:
“단백질 하나를 intact 상태로 깊게 보는 기술”
에 가깝습니다.
그리고 Top-down의 진짜 핵심은 단순히 “큰 단백질을 본다”가 아닙니다.
실제로는:
- 초복잡 isotope envelope
- extremely narrow isotope spacing
- charge deconvolution
- ETD/ECD 기반 backbone fragmentation
- PTM-preserving dissociation
을 얼마나 안정적으로 처리하느냐가 성패를 결정합니다.
즉 현대 Top-down Proteomics는:
질량분석기 성능 + fragmentation chemistry + deconvolution algorithm
이 모두 동시에 맞물려야 가능한 매우 고난도 분석 영역입니다.
