Top-down vs Bottom-up Proteomics

Sequence Coverage, Proteoform, ETD/ECD 그리고 Deconvolution의 진짜 의미

Proteomics(단백체학)에서 가장 널리 사용되는 분석 전략은 크게 두 가지입니다.

  • Bottom-up Proteomics
  • Top-down Proteomics

둘 다 LC-MS/MS 기반 기술이지만, 실제로는 “무엇을 관측하는가” 자체가 완전히 다릅니다.

특히 최근에는:

  • Proteoform 분석
  • PTM connectivity
  • 바이오의약품 characterization
  • intact protein QC

수요가 증가하면서 Top-down Proteomics의 중요성이 빠르게 커지고 있습니다.

하지만 실제 실무에서는 여전히 Bottom-up이 압도적으로 많이 사용됩니다.

왜 그럴까요?

그 이유는:

“Top-down은 단백질 전체를 직접 보는 대신, 스펙트럼 복잡도가 폭발적으로 증가하기 때문”

입니다.

이번 글에서는 다음 내용을 실제 LC-MS/MS 관점에서 자세히 설명합니다.

  • Bottom-up vs Top-down의 구조적 차이
  • Sequence Coverage가 왜 달라지는가
  • Proteoform 개념
  • Intact protein isotope spacing 문제
  • MaxEnt/Xtract 같은 deconvolution의 중요성
  • ETD/ECD가 왜 Top-down의 핵심 무기인가
  • CID/HCD가 큰 단백질에서 어려운 이유

Proteomics에서 가장 중요한 질문

Proteomics의 핵심 질문 중 하나는 다음입니다.

“우리는 단백질 전체를 얼마나 완전하게 보고 있는가?”

즉:

Sequence Coverage

문제입니다.


Sequence Coverage란?

Sequence Coverage는:

단백질 전체 서열 중 실제로 관측된 영역의 비율

을 의미합니다.

예를 들어:

Protein:
MKWVTFISLLFLFSSAYSRGVFRRDAHKSEVAHRFKDLGE

Observed:
MKWVTFISLLFLFSSAYSR
GVFRRDAHK

라면 단백질 일부만 검출된 상태입니다.

Coverage가 높을수록:

  • 단백질 동정 신뢰도 증가
  • isoform 구분 가능성 증가
  • PTM localization 정확도 증가
  • proteoform 분석 가능성 증가

합니다.


Bottom-up Proteomics란?

Bottom-up은 현재 proteomics의 표준 방식입니다.

핵심 구조:

Protein
↓ digestion
Peptide
↓ LC-MS/MS
Identification

즉:

단백질을 직접 보는 것이 아니라 peptide 조각을 통해 간접적으로 추론하는 방식

입니다.

Comparison of bottom-up and top-down proteomics workflows showing sequence coverage, PTM preservation, ETD/ECD fragmentation, and deconvolution challenges.
Bottom-up proteomics는 단백질을 peptide 단위로 분해하여 높은 감도와 throughput을 제공하지만 PTM 연결성과 전체 서열 정보가 제한된다. 반면 Top-down proteomics는 intact protein 자체를 분석하여 proteoform, PTM connectivity, 전체 sequence coverage를 유지할 수 있으나, 초고해상도 질량분석기와 deconvolution 및 ETD/ECD 기반 fragmentation 기술이 요구된다.



Bottom-up Workflow

1. Digestion

보통 Trypsin 사용:

K/R 뒤 절단

예:

Protein:
MKWVTFISLLFLFSSAYSRGVFRRDAHKSEVAHR



Peptides:
MKWVTFISLLFLFSSAYSR
GVFR
RDAHK
SEVAHR

2. LC Separation

Peptide는:

  • 크기가 작고
  • ionization 효율이 좋고
  • LC separation이 쉽습니다.

따라서 분석 효율이 매우 높습니다.


3. MS/MS Fragmentation

Peptide precursor를 fragmentation하여:

  • b ions
  • y ions

패턴으로 sequence를 동정합니다.


Bottom-up의 가장 큰 장점

1. 높은 Sensitivity

Peptide는 intact protein보다:

  • ESI ionization이 훨씬 잘 되고
  • fragmentation도 쉬우며
  • signal intensity도 강합니다.

따라서:

  • plasma
  • serum
  • tissue digest
  • low abundance protein

분석에 매우 강력합니다.


2. 높은 Throughput

현재 대부분의 대규모 proteomics:

  • DIA
  • TMT
  • LFQ

는 Bottom-up 기반입니다.

수천~수만 단백질 동정 가능.


3. DB Search 생태계가 매우 성숙

대표적인 소프트웨어:

  • Mascot
  • Sequest
  • MaxQuant
  • Proteome Discoverer

등이 매우 잘 구축되어 있습니다.


그런데 왜 Coverage가 낮아질까?

여기서 Bottom-up의 구조적 한계가 등장합니다.

실제로 Bottom-up은:

“단백질 전체”를 보는 기술이 아닙니다.

대부분은:

검출 가능한 peptide subset

만 보고 있습니다.


Bottom-up에서 Coverage가 끊기는 이유

1. Digestion 편향

Trypsin cleavage가 완벽하지 않습니다.

예:

  • missed cleavage
  • 너무 짧은 peptide
  • 너무 긴 peptide

문제 발생.


2. Hydrophobic peptide 문제

Membrane protein peptide는:

  • LC retention 과도
  • 용출 불량
  • ion suppression

문제로 검출이 어려워집니다.


3. Ionization efficiency 차이

모든 peptide가 동일하게 ionize되지 않습니다.

특히:

  • phosphopeptide
  • glycopeptide
  • acidic peptide

는 신호가 약한 경우가 많습니다.


4. DDA stochastic sampling

DDA에서는 매 scan마다 일부 precursor만 선택됩니다.

즉:

Run A → peptide 선택
Run B → 동일 peptide 미선택

가능.

이것이 Missing Value의 핵심 원인입니다.


결과적으로 생기는 문제

실제 데이터에서는:

1000 aa protein

20~40% coverage

정도만 얻는 경우가 흔합니다.

즉:

  • 단백질 전체를 못 봄
  • PTM 연결성 손실
  • isoform ambiguity 발생

합니다.


PTM Connectivity 문제

이것이 Bottom-up의 가장 중요한 한계 중 하나입니다.

예:

Protein:
S10 phosphorylation
K150 acetylation
M220 oxidation

Bottom-up에서는 digestion 후:

Peptide A → phospho
Peptide B → acetyl
Peptide C → oxidation

처럼 분리되어 관찰됩니다.

하지만 실제 질문은:

“이 modification들이 동일한 단백질 분자에 동시에 존재하는가?”

입니다.

Bottom-up은 이것을 직접 증명하기 어렵습니다.


Proteoform이란?

Proteoform은:

  • splice variant
  • mutation
  • truncation
  • PTM combination

등을 포함한:

실제 단백질 분자 형태

를 의미합니다.

즉:

같은 단백질 이름

같은 실제 분자

일 수 있습니다.


이것이 Top-down이 등장한 이유

Top-down은:

Protein intact 상태 그대로 분석

합니다.

즉:

Protein

Direct LC-MS/MS

방식입니다.

Digestion이 없습니다.


Top-down Workflow

1. Intact Protein Ionization

단백질 전체가 ESI로 ionization됩니다.

예:

[M+20H]20+
[M+35H]35+
[M+48H]48+

처럼 매우 많은 charge state 형성.


2. Intact Proteoform Isolation

특정 charge envelope를 isolation합니다.


3. Fragmentation

이후:

  • ETD
  • ECD
  • HCD

등으로 fragmentation 수행.


왜 Top-down은 Coverage가 높은가?

Top-down은 intact protein 전체를 fragmentation합니다.

즉:

N-term ~ C-term

전체 backbone fragmentation 가능.

따라서:

  • 높은 sequence coverage
  • PTM connectivity 유지
  • proteoform 직접 관찰

가능해집니다.


그러나 여기서부터 진짜 어려움이 시작된다

Top-down의 핵심 문제는:

“단백질이 너무 크다”

는 점입니다.


1. Multiple Charge Explosion

Peptide는 보통:

z=2~3

정도입니다.

하지만 intact protein은:

z=10~60

이상도 흔합니다.

즉:

+20
+21
+22
+23
...

모든 charge state가 동시에 존재합니다.

스펙트럼 복잡도가 급격히 증가합니다.


2. Isotope Spacing이 극도로 좁아진다

이 부분이 Top-down의 핵심 난제입니다.

동위원소 spacing은:

1.003355 / z

입니다.

즉 charge가 증가할수록 isotope spacing이 좁아집니다.

예:

ChargeIsotope spacing
z=11.003 Da
z=50.2007 Da
z=200.0502 Da
z=400.0251 Da

즉 high-charge intact protein에서는 isotope peak가 거의 붙어 보입니다.


왜 이것이 심각한가?

Large protein에서는:

  • isotope cluster overlap
  • charge envelope overlap
  • proteoform overlap

이 동시에 발생합니다.

즉 스펙트럼이 사실상:

겹친 isotope forest

처럼 보이게 됩니다.


따라서 Deconvolution이 핵심이 된다

Top-down에서는 단순 peak picking만으로는 해석이 거의 불가능합니다.

핵심은:

Charge Deconvolution

입니다.

즉:

복잡한 multiply charged spectrum을 실제 neutral mass로 복원하는 과정

입니다.


MaxEnt와 Xtract가 중요한 이유

Top-down MS에서는:

단백질 질량이 커질수록 isotope spacing이 극도로 좁아집니다.

따라서:

  • charge assignment
  • isotope grouping
  • monoisotopic peak determination
  • neutral mass reconstruction

이 매우 어려워집니다.

이때 사용하는 대표 알고리즘이:

  • MaxEnt (Maximum Entropy)
  • Xtract
  • ReSpect
  • THRASH

등입니다.

특히:

  • Orbitrap
  • FT-ICR

환경에서는 deconvolution 품질 자체가:

동정 성공 여부

를 결정하는 경우가 많습니다.

즉:

Top-down에서는 instrument resolution만 중요한 것이 아니라,
deconvolution 알고리즘 품질이 사실상 분석의 핵심 엔진입니다.


왜 HCD/CID만으로는 부족할까?

Peptide에서는 HCD/CID가 매우 잘 작동합니다.

하지만 intact protein은 다릅니다.

큰 단백질을 HCD/CID로 때리면:

  • 에너지가 전체 구조로 분산되고
  • backbone cleavage 효율이 낮아지며
  • labile PTM만 먼저 떨어지는 경우가 많습니다.

즉:

Backbone fragmentation 실패
+
PTM loss 증가

문제 발생.


Labile PTM Loss 문제

대표 예:

  • phosphorylation
  • sulfation
  • glycosylation

같은 labile PTM.

CID/HCD에서는:

−H3PO4
−SO3

같은 neutral loss만 강하게 나타나고:

정작 backbone 정보는 부족해질 수 있습니다.

즉:

PTM은 떨어졌는데
어디에 있었는지는 모른다

상황 발생.


그래서 ETD/ECD가 등장한다

후반부 Top-down의 핵심 기술이 바로:

  • ECD (Electron Capture Dissociation)
  • ETD (Electron Transfer Dissociation)

입니다.


ETD/ECD의 핵심 아이디어

ETD/ECD는:

단백질의 side-chain/PTM은 최대한 유지하면서 backbone만 선택적으로 절단

하려는 방식입니다.

즉:

Protein structure 유지
+
PTM 유지
+
Backbone cleavage

동시 달성 시도.


ETD/ECD에서는 무엇이 생성될까?

주로:

  • c ions
  • z ions

생성됩니다.

이는 CID/HCD의:

  • b ions
  • y ions

와 다른 fragmentation 메커니즘입니다.


왜 ETD/ECD가 Top-down에 유리한가?

Large intact protein에서는:

CID/HCD
→ 겉만 타는 경우 많음

즉:

  • surface activation
  • PTM stripping
  • incomplete fragmentation

문제 발생.

반면 ETD/ECD는:

전자 기반 fragmentation

이므로:

  • highly charged protein
  • large protein
  • PTM-rich protein

에서 backbone cleavage 유지에 매우 강합니다.


특히 PTM 분석에서 결정적이다

예:

Phosphorylated intact protein

CID/HCD:

−98 Da loss dominant

ETD/ECD:

phosphorylation 유지
+
site localization 가능

즉:

PTM connectivity와 localization을 동시에 유지 가능

합니다.


실제로 Top-down은 어떤 장비가 필요한가?

보통:

  • Orbitrap
  • FT-ICR

급의 초고해상도 장비가 사용됩니다.

왜냐하면:

  • isotope spacing이 극도로 좁고
  • charge overlap이 심하며
  • fragment complexity가 매우 높기 때문입니다.

mass accuracy와 resolving power가 부족하면:

  • monoisotopic peak assignment
  • charge assignment
  • deconvolution

자체가 실패할 수 있습니다.


실제 실무에서는 무엇이 더 많이 사용될까?

현재까지는 여전히:

Bottom-up >>> Top-down

입니다.

이유:

  • sensitivity 우수
  • throughput 우수
  • workflow 성숙
  • software ecosystem 강력

하기 때문입니다.


그렇다면 Top-down은 어디에서 강력한가?

Top-down은 특히:

  • proteoform biology
  • PTM connectivity
  • antibody characterization
  • biopharmaceutical QC
  • intact protein variant analysis

에서 매우 강력합니다.

특히 최근 바이오의약품 분야에서는 중요성이 빠르게 증가하고 있습니다.


Bottom-up vs Top-down 최종 비교

항목Bottom-upTop-down
분석 대상PeptideIntact protein
Digestion필요불필요
Throughput높음낮음
Sensitivity매우 높음상대적으로 낮음
Sequence Coverage부분적높음 가능
PTM Connectivity손실유지
Proteoform 분석제한적강력
스펙트럼 복잡도상대적으로 낮음매우 높음
핵심 난제peptide samplingdeconvolution
주요 fragmentationCID/HCDETD/ECD
핵심 알고리즘DB searchcharge deconvolution
주요 장비일반 HRMSOrbitrap/FT-ICR

핵심 정리

Bottom-up은:

“많은 단백질을 빠르게 보는 기술”

입니다.

반면 Top-down은:

“단백질 하나를 intact 상태로 깊게 보는 기술”

에 가깝습니다.

그리고 Top-down의 진짜 핵심은 단순히 “큰 단백질을 본다”가 아닙니다.

실제로는:

  • 초복잡 isotope envelope
  • extremely narrow isotope spacing
  • charge deconvolution
  • ETD/ECD 기반 backbone fragmentation
  • PTM-preserving dissociation

을 얼마나 안정적으로 처리하느냐가 성패를 결정합니다.

즉 현대 Top-down Proteomics는:

질량분석기 성능 + fragmentation chemistry + deconvolution algorithm

이 모두 동시에 맞물려야 가능한 매우 고난도 분석 영역입니다.


관련글 :



다음 이전