Top-down vs Bottom-up Proteomics

Sequence Coverage, Proteoform, ETD/ECD 그리고 Deconvolution의 진짜 의미

Proteomics(단백체학)에서 가장 널리 사용되는 분석 전략은 크게 두 가지입니다.

Bottom-up Proteomics
Top-down Proteomics

둘 다 LC-MS/MS 기반 기술이지만, 실제로는 “무엇을 관측하는가” 자체가 완전히 다릅니다.

특히 최근에는:

Proteoform 분석
PTM connectivity
바이오의약품 characterization
intact protein QC

수요가 증가하면서 Top-down Proteomics의 중요성이 빠르게 커지고 있습니다.

하지만 실제 실무에서는 여전히 Bottom-up이 압도적으로 많이 사용됩니다.

왜 그럴까요?

그 이유는:

“Top-down은 단백질 전체를 직접 보는 대신, 스펙트럼 복잡도가 폭발적으로 증가하기 때문”

입니다.

이번 글에서는 다음 내용을 실제 LC-MS/MS 관점에서 자세히 설명합니다.

Bottom-up vs Top-down의 구조적 차이
Sequence Coverage가 왜 달라지는가
Proteoform 개념
Intact protein isotope spacing 문제
MaxEnt/Xtract 같은 deconvolution의 중요성
ETD/ECD가 왜 Top-down의 핵심 무기인가
CID/HCD가 큰 단백질에서 어려운 이유

Proteomics에서 가장 중요한 질문

Proteomics의 핵심 질문 중 하나는 다음입니다.

“우리는 단백질 전체를 얼마나 완전하게 보고 있는가?”

즉:


Sequence Coverage

문제입니다.

Sequence Coverage란?

Sequence Coverage는:

단백질 전체 서열 중 실제로 관측된 영역의 비율

을 의미합니다.

예를 들어:


Protein:
MKWVTFISLLFLFSSAYSRGVFRRDAHKSEVAHRFKDLGE

Observed:
MKWVTFISLLFLFSSAYSR
                 GVFRRDAHK

라면 단백질 일부만 검출된 상태입니다.

Coverage가 높을수록:

단백질 동정 신뢰도 증가
isoform 구분 가능성 증가
PTM localization 정확도 증가
proteoform 분석 가능성 증가

합니다.

Bottom-up Proteomics란?

Bottom-up은 현재 proteomics의 표준 방식입니다.

핵심 구조:


Protein
↓ digestion
Peptide
↓ LC-MS/MS
Identification

즉:

단백질을 직접 보는 것이 아니라 peptide 조각을 통해 간접적으로 추론하는 방식

입니다.

Comparison of bottom-up and top-down proteomics workflows showing sequence coverage, PTM preservation, ETD/ECD fragmentation, and deconvolution challenges.

Bottom-up proteomics는 단백질을 peptide 단위로 분해하여 높은 감도와 throughput을 제공하지만 PTM 연결성과 전체 서열 정보가 제한된다. 반면 Top-down proteomics는 intact protein 자체를 분석하여 proteoform, PTM connectivity, 전체 sequence coverage를 유지할 수 있으나, 초고해상도 질량분석기와 deconvolution 및 ETD/ECD 기반 fragmentation 기술이 요구된다.

Bottom-up Workflow

1. Digestion

보통 Trypsin 사용:


K/R 뒤 절단

예:


Protein:
MKWVTFISLLFLFSSAYSRGVFRRDAHKSEVAHR

↓

Peptides:
MKWVTFISLLFLFSSAYSR
GVFR
RDAHK
SEVAHR

2. LC Separation

Peptide는:

크기가 작고
ionization 효율이 좋고
LC separation이 쉽습니다.

따라서 분석 효율이 매우 높습니다.

3. MS/MS Fragmentation

Peptide precursor를 fragmentation하여:

b ions
y ions

패턴으로 sequence를 동정합니다.

Bottom-up의 가장 큰 장점

1. 높은 Sensitivity

Peptide는 intact protein보다:

ESI ionization이 훨씬 잘 되고
fragmentation도 쉬우며
signal intensity도 강합니다.

따라서:

plasma
serum
tissue digest
low abundance protein

분석에 매우 강력합니다.

2. 높은 Throughput

현재 대부분의 대규모 proteomics:

는 Bottom-up 기반입니다.

수천~수만 단백질 동정 가능.

3. DB Search 생태계가 매우 성숙

대표적인 소프트웨어:

Mascot
Sequest
MaxQuant
Proteome Discoverer

등이 매우 잘 구축되어 있습니다.

그런데 왜 Coverage가 낮아질까?

여기서 Bottom-up의 구조적 한계가 등장합니다.

실제로 Bottom-up은:

“단백질 전체”를 보는 기술이 아닙니다.

대부분은:


검출 가능한 peptide subset

만 보고 있습니다.

Bottom-up에서 Coverage가 끊기는 이유

1. Digestion 편향

Trypsin cleavage가 완벽하지 않습니다.

예:

missed cleavage
너무 짧은 peptide
너무 긴 peptide

문제 발생.

2. Hydrophobic peptide 문제

Membrane protein peptide는:

LC retention 과도
용출 불량
ion suppression

문제로 검출이 어려워집니다.

3. Ionization efficiency 차이

모든 peptide가 동일하게 ionize되지 않습니다.

특히:

phosphopeptide
glycopeptide
acidic peptide

는 신호가 약한 경우가 많습니다.

4. DDA stochastic sampling

DDA에서는 매 scan마다 일부 precursor만 선택됩니다.

즉:


Run A → peptide 선택
Run B → 동일 peptide 미선택

가능.

이것이 Missing Value의 핵심 원인입니다.

결과적으로 생기는 문제

실제 데이터에서는:


1000 aa protein
↓
20~40% coverage

정도만 얻는 경우가 흔합니다.

즉:

단백질 전체를 못 봄
PTM 연결성 손실
isoform ambiguity 발생

합니다.

PTM Connectivity 문제

이것이 Bottom-up의 가장 중요한 한계 중 하나입니다.

예:


Protein:
S10 phosphorylation
K150 acetylation
M220 oxidation

Bottom-up에서는 digestion 후:


Peptide A → phospho
Peptide B → acetyl
Peptide C → oxidation

처럼 분리되어 관찰됩니다.

하지만 실제 질문은:

“이 modification들이 동일한 단백질 분자에 동시에 존재하는가?”

입니다.

Bottom-up은 이것을 직접 증명하기 어렵습니다.

Proteoform이란?

Proteoform은:

splice variant
mutation
truncation
PTM combination

등을 포함한:

실제 단백질 분자 형태

를 의미합니다.

즉:


같은 단백질 이름
≠
같은 실제 분자

일 수 있습니다.

이것이 Top-down이 등장한 이유

Top-down은:


Protein intact 상태 그대로 분석

합니다.

즉:


Protein
↓
Direct LC-MS/MS

방식입니다.

Digestion이 없습니다.

Top-down Workflow

1. Intact Protein Ionization

단백질 전체가 ESI로 ionization됩니다.

예:


[M+20H]20+
[M+35H]35+
[M+48H]48+

처럼 매우 많은 charge state 형성.

2. Intact Proteoform Isolation

특정 charge envelope를 isolation합니다.

3. Fragmentation

이후:

등으로 fragmentation 수행.

왜 Top-down은 Coverage가 높은가?

Top-down은 intact protein 전체를 fragmentation합니다.

즉:


N-term ~ C-term

전체 backbone fragmentation 가능.

따라서:

높은 sequence coverage
PTM connectivity 유지
proteoform 직접 관찰

가능해집니다.

그러나 여기서부터 진짜 어려움이 시작된다

Top-down의 핵심 문제는:

“단백질이 너무 크다”

는 점입니다.

1. Multiple Charge Explosion

Peptide는 보통:


z=2~3

정도입니다.

하지만 intact protein은:


z=10~60

이상도 흔합니다.

즉:


+20
+21
+22
+23
...

모든 charge state가 동시에 존재합니다.

스펙트럼 복잡도가 급격히 증가합니다.

2. Isotope Spacing이 극도로 좁아진다

이 부분이 Top-down의 핵심 난제입니다.

동위원소 spacing은:


1.003355 / z

입니다.

즉 charge가 증가할수록 isotope spacing이 좁아집니다.

예:

Charge	Isotope spacing
z=1	1.003 Da
z=5	0.2007 Da
z=20	0.0502 Da
z=40	0.0251 Da

즉 high-charge intact protein에서는 isotope peak가 거의 붙어 보입니다.

왜 이것이 심각한가?

Large protein에서는:

isotope cluster overlap
charge envelope overlap
proteoform overlap

이 동시에 발생합니다.

즉 스펙트럼이 사실상:


겹친 isotope forest

처럼 보이게 됩니다.

따라서 Deconvolution이 핵심이 된다

Top-down에서는 단순 peak picking만으로는 해석이 거의 불가능합니다.

핵심은:


Charge Deconvolution

입니다.

즉:

복잡한 multiply charged spectrum을 실제 neutral mass로 복원하는 과정

입니다.

MaxEnt와 Xtract가 중요한 이유

Top-down MS에서는:

단백질 질량이 커질수록 isotope spacing이 극도로 좁아집니다.

따라서:

charge assignment
isotope grouping
monoisotopic peak determination
neutral mass reconstruction

이 매우 어려워집니다.

이때 사용하는 대표 알고리즘이:

MaxEnt (Maximum Entropy)
Xtract
ReSpect
THRASH

등입니다.

특히:

Orbitrap
FT-ICR

환경에서는 deconvolution 품질 자체가:


동정 성공 여부

를 결정하는 경우가 많습니다.

즉:

Top-down에서는 instrument resolution만 중요한 것이 아니라,
deconvolution 알고리즘 품질이 사실상 분석의 핵심 엔진입니다.

왜 HCD/CID만으로는 부족할까?

Peptide에서는 HCD/CID가 매우 잘 작동합니다.

하지만 intact protein은 다릅니다.

큰 단백질을 HCD/CID로 때리면:

에너지가 전체 구조로 분산되고
backbone cleavage 효율이 낮아지며
labile PTM만 먼저 떨어지는 경우가 많습니다.

즉:


Backbone fragmentation 실패
+
PTM loss 증가

문제 발생.

Labile PTM Loss 문제

대표 예:

phosphorylation
sulfation
glycosylation

같은 labile PTM.

CID/HCD에서는:


−H3PO4
−SO3

같은 neutral loss만 강하게 나타나고:

정작 backbone 정보는 부족해질 수 있습니다.

즉:


PTM은 떨어졌는데
어디에 있었는지는 모른다

상황 발생.

그래서 ETD/ECD가 등장한다

후반부 Top-down의 핵심 기술이 바로:

ECD (Electron Capture Dissociation)
ETD (Electron Transfer Dissociation)

입니다.

ETD/ECD의 핵심 아이디어

ETD/ECD는:

단백질의 side-chain/PTM은 최대한 유지하면서 backbone만 선택적으로 절단

하려는 방식입니다.

즉:


Protein structure 유지
+
PTM 유지
+
Backbone cleavage

동시 달성 시도.

ETD/ECD에서는 무엇이 생성될까?

주로:

c ions
z ions

생성됩니다.

이는 CID/HCD의:

b ions
y ions

와 다른 fragmentation 메커니즘입니다.

왜 ETD/ECD가 Top-down에 유리한가?

Large intact protein에서는:


CID/HCD
→ 겉만 타는 경우 많음

즉:

surface activation
PTM stripping
incomplete fragmentation

문제 발생.

반면 ETD/ECD는:


전자 기반 fragmentation

이므로:

highly charged protein
large protein
PTM-rich protein

에서 backbone cleavage 유지에 매우 강합니다.

특히 PTM 분석에서 결정적이다

예:


Phosphorylated intact protein

CID/HCD:


−98 Da loss dominant

ETD/ECD:


phosphorylation 유지
+
site localization 가능

즉:

PTM connectivity와 localization을 동시에 유지 가능

합니다.

실제로 Top-down은 어떤 장비가 필요한가?

보통:

Orbitrap
FT-ICR

급의 초고해상도 장비가 사용됩니다.

왜냐하면:

isotope spacing이 극도로 좁고
charge overlap이 심하며
fragment complexity가 매우 높기 때문입니다.

mass accuracy와 resolving power가 부족하면:

monoisotopic peak assignment
charge assignment
deconvolution

자체가 실패할 수 있습니다.

실제 실무에서는 무엇이 더 많이 사용될까?

현재까지는 여전히:


Bottom-up >>> Top-down

입니다.

이유:

sensitivity 우수
throughput 우수
workflow 성숙
software ecosystem 강력

하기 때문입니다.

그렇다면 Top-down은 어디에서 강력한가?

Top-down은 특히:

proteoform biology
PTM connectivity
antibody characterization
biopharmaceutical QC
intact protein variant analysis

에서 매우 강력합니다.

특히 최근 바이오의약품 분야에서는 중요성이 빠르게 증가하고 있습니다.

Bottom-up vs Top-down 최종 비교

항목	Bottom-up	Top-down
분석 대상	Peptide	Intact protein
Digestion	필요	불필요
Throughput	높음	낮음
Sensitivity	매우 높음	상대적으로 낮음
Sequence Coverage	부분적	높음 가능
PTM Connectivity	손실	유지
Proteoform 분석	제한적	강력
스펙트럼 복잡도	상대적으로 낮음	매우 높음
핵심 난제	peptide sampling	deconvolution
주요 fragmentation	CID/HCD	ETD/ECD
핵심 알고리즘	DB search	charge deconvolution
주요 장비	일반 HRMS	Orbitrap/FT-ICR

핵심 정리

Bottom-up은:

“많은 단백질을 빠르게 보는 기술”

입니다.

반면 Top-down은:

“단백질 하나를 intact 상태로 깊게 보는 기술”

에 가깝습니다.

그리고 Top-down의 진짜 핵심은 단순히 “큰 단백질을 본다”가 아닙니다.

실제로는:

초복잡 isotope envelope
extremely narrow isotope spacing
charge deconvolution
ETD/ECD 기반 backbone fragmentation
PTM-preserving dissociation

을 얼마나 안정적으로 처리하느냐가 성패를 결정합니다.

즉 현대 Top-down Proteomics는:

질량분석기 성능 + fragmentation chemistry + deconvolution algorithm

이 모두 동시에 맞물려야 가능한 매우 고난도 분석 영역입니다.

→ LC-MS/MS 질량분석 전체 흐름 가이드 보기

Top-down vs Bottom-up Proteomics

Sequence Coverage, Proteoform, ETD/ECD 그리고 Deconvolution의 진짜 의미

Proteomics에서 가장 중요한 질문

Sequence Coverage란?

Bottom-up Proteomics란?

Bottom-up Workflow

1. Digestion

2. LC Separation

3. MS/MS Fragmentation

Bottom-up의 가장 큰 장점

1. 높은 Sensitivity

2. 높은 Throughput

3. DB Search 생태계가 매우 성숙

그런데 왜 Coverage가 낮아질까?

Bottom-up에서 Coverage가 끊기는 이유

1. Digestion 편향

2. Hydrophobic peptide 문제

3. Ionization efficiency 차이

4. DDA stochastic sampling

결과적으로 생기는 문제

PTM Connectivity 문제

Proteoform이란?

이것이 Top-down이 등장한 이유

Top-down Workflow

1. Intact Protein Ionization

2. Intact Proteoform Isolation

3. Fragmentation

왜 Top-down은 Coverage가 높은가?

그러나 여기서부터 진짜 어려움이 시작된다

1. Multiple Charge Explosion

2. Isotope Spacing이 극도로 좁아진다

왜 이것이 심각한가?

따라서 Deconvolution이 핵심이 된다

MaxEnt와 Xtract가 중요한 이유

왜 HCD/CID만으로는 부족할까?

Labile PTM Loss 문제

그래서 ETD/ECD가 등장한다

ETD/ECD의 핵심 아이디어

ETD/ECD에서는 무엇이 생성될까?

왜 ETD/ECD가 Top-down에 유리한가?

특히 PTM 분석에서 결정적이다

실제로 Top-down은 어떤 장비가 필요한가?

실제 실무에서는 무엇이 더 많이 사용될까?

그렇다면 Top-down은 어디에서 강력한가?

Bottom-up vs Top-down 최종 비교

핵심 정리

관련글 :