MS/MS 드노보 시퀀싱(De novo Sequencing) 원리: b/y Ion 기반 펩타이드 서열 복원

MS/MS 드노보 시퀀싱(De novo Sequencing) 원리: b/y Ion 기반 펩타이드 서열 복원

드노보 시퀀싱(De novo Sequencing)의 핵심은 데이터베이스(Database)에 의존하지 않고,
MS/MS 스펙트럼의 파편화 패턴(Fragmentation pattern)만을 이용하여 펩타이드 서열을 직접 재구성하는 것입니다.

이 과정의 중심에는 펩타이드 backbone이 절단되며 생성되는 b-ion과 y-ion series가 있으며,
스펙트럼 상에서 관측되는 fragment ion 간의 질량 차이(Δmass)를 각 아미노산의 residue mass와 매칭하여 서열을 확장합니다.

이러한 과정은 마치 사다리를 올라가듯 아미노산을 하나씩 연결하는 mass ladder 방식으로 이루어지며, 이를 통해 전체 peptide sequence를 복원할 수 있습니다.

본 글에서는 LC-MS/MS 기반 De novo sequencing의 원리를 b/y ion과 Δmass를 중심으로 단계적으로 설명합니다.

※ 본 글에서 다루는 De novo sequencing은 DNA sequencing이 아닌, LC-MS/MS 기반 proteomics 분석을 의미합니다.

DNA de novo sequencing이 염기서열 조립을 목표로 하는 것과 달리,
LC-MS/MS de novo sequencing은 fragment ion의 질량 차이를 이용해 펩타이드 서열을 복원하는 접근 방식입니다.


1. MS/MS fragmentation과 ion series

LC-MS/MS에서 펩타이드는 collision-induced dissociation(CID) 또는 HCD와 같은 방식으로 분해됩니다.
이때 펩타이드 backbone이 끊어지면서 다양한 fragment ion이 생성되는데, 그 중 가장 중요한 것이 다음 두 가지입니다.

  • b-ion: N-terminal에서 시작되는 fragment

  • y-ion: C-terminal에서 시작되는 fragment

예를 들어, 펩타이드 서열이 다음과 같다고 가정합니다.

A–B–C–D–E

이 경우 fragmentation이 일어나면 다음과 같은 ion series가 생성됩니다.

  • b1, b2, b3, b4

  • y1, y2, y3, y4

각각은 다음과 같은 의미를 가집니다.

b1 = A
b2 = A–B
b3 = A–B–C
b4 = A–B–C–D
y1 = E
y2 = D–E
y3 = C–D–E
y4 = B–C–D–E

이처럼 b-ion과 y-ion은 서로 반대 방향에서 동일한 서열 정보를 포함하고 있습니다.


2. Δmass 기반 아미노산 추론

De novo sequencing의 핵심은 다음 한 줄로 요약할 수 있습니다.

두 fragment ion 사이의 질량 차이(Δmass)는 특정 아미노산에 해당한다

예를 들어 MS/MS 스펙트럼에서 다음과 같은 두 peak가 있다고 가정합니다.

m/z 147 → m/z 276

두 peak 간의 차이는 다음과 같습니다.

276 - 147 = 129 Da

129 Da는 Glutamic acid(E)의 질량과 일치합니다.
따라서 이 두 peak 사이에는 E가 존재한다고 추론할 수 있습니다.

이 과정을 반복하면 다음과 같은 구조가 만들어집니다.

peak → Δmass → amino acid → sequence extension

이것이 바로 mass ladder 기반 서열 복원입니다.


3. b/y ion ladder 구성

질량분석 기반 드노보 시퀀싱의 원리를 설명하는 인포그래픽. 상단에는 펩타이드 골격의 b-ion, y-ion 절단 모식도가 있고, 하단에는 실제 MS/MS 스펙트럼에서 아미노산 서열(PEPTIDE)이 질량 차이(Δmass)를 통해 분석되는 mass ladder 과정을 보여줌.
드노보 시퀀싱(De novo Sequencing)의 핵심 원리: 상단 모식도의 펩타이드 결합 절단(Amide bond cleavage)을 통해 생성된 b/y ion series가 하단 MS/MS 스펙트럼에서 연속적인 질량 차이(Δmass)를 형성하며 서열이 복원되는 과정



실제 De novo sequencing에서는 단순히 두 peak만 보는 것이 아니라,
연속적인 fragment ion series를 찾는 것이 중요합니다.

이를 ion ladder라고 합니다.

예를 들어 다음과 같은 m/z 값들이 존재한다고 가정합니다.

147 → 276 → 389 → 502

각각의 Δmass를 계산하면:

  • 276 - 147 = 129 (E)

  • 389 - 276 = 113 (L/I)

  • 502 - 389 = 113 (L/I)

이 경우 서열은 다음과 같이 확장됩니다.

E–L–L

이처럼 연속적인 Δmass가 연결될 때, 신뢰도 높은 서열이 만들어집니다.


4. b-ion과 y-ion의 상호 보완

b-ion만으로도 서열을 구성할 수 있지만, 실제 데이터에서는 noise나 missing peak 때문에 ladder가 끊어지는 경우가 많습니다.
이때 y-ion이 매우 중요한 역할을 합니다.

b-ion과 y-ion은 다음과 같은 관계를 가집니다.

b_n + y_{N-n} = M + 2H+

즉, 하나의 ion series가 불완전할 경우, 반대쪽 ion series를 이용해 보완할 수 있습니다.

예를 들어:

  • b2가 존재하지 않는 경우

  • y-series를 통해 해당 위치를 보완 가능

이 방식은 실제 De novo sequencing에서 정확도를 크게 높여줍니다.


5. spectrum에서 ladder 찾는 방법

실제 MS/MS 스펙트럼에서는 수십에서 수백 개의 peak가 존재하며,
모든 peak가 의미 있는 fragment는 아닙니다.

따라서 다음과 같은 단계가 필요합니다.

1) 주요 peak 선택

  • intensity 높은 peak 우선

  • noise 제거

2) Δmass 계산

  • 모든 peak 간 차이 계산

  • 아미노산 질량과 비교

3) ladder 후보 생성

  • 연속적인 Δmass 연결

4) 검증

  • b/y ion consistency 확인

  • precursor mass와 일치 여부 확인

이 과정을 통해 최종적으로 가능한 서열 후보를 도출합니다.


6. 실무에서의 주의점

1) Isobaric amino acid

  • Leucine (L)과 Isoleucine (I)는 동일 질량

  • MS/MS만으로 구분 불가

2) Noise와 false ladder

  • 우연히 맞는 Δmass 존재 가능

  • 연속성 확인 필수

3) Missing ions

  • fragmentation이 완벽하지 않음

  • ladder가 끊기는 경우 흔함

4) Charge state 고려

  • fragment ion의 charge에 따라 m/z 해석 필요


특히 고분해능(High-resolution) MS 장비(Orbitrap 등)를 사용할수록 Δ mass의 오차 범위가 줄어들어 Ladder 구성의 신뢰도가 비약적으로 상승합니다.

7. 정리

De novo sequencing에서 b/y ion 기반 서열 복원은 다음과 같은 흐름으로 이루어집니다.

MS/MS spectrum
→ peak 선택
→ Δmass 계산
→ amino acid 매칭
→ ladder 구성
→ 서열 완성

이 과정은 단순해 보이지만, 실제 데이터에서는 noise, missing ion, 복잡한 fragmentation 등으로 인해 높은 경험과 해석 능력이 요구됩니다.


관련글 : 
다음 이전