MS/MS 및 LC-MS/MS De novo Sequencing 원리 (Database Search 차이)

MS/MS 및 LC-MS/MS De novo Sequencing 원리 (Database Search 차이)

MS/MS(또는 LC-MS/MS) 기반의 드노보 시퀀싱 (De novo Sequencing)은 LC-MS/MS 기반 proteomics 분석에서 가장 핵심적인 목표는 펩타이드 서열(peptide sequence)을 정확하게 규명하는 것입니다.
일반적으로 Mascot, Sequest와 같은 database search 기반 방법이 널리 사용되지만, 모든 상황에서 database search가 정답은 아닙니다.

특히 database에 존재하지 않는 서열이나 예상되지 않은 변형이 포함된 경우, 기존 방식만으로는 정확한 해석이 어려워집니다.
이때 사용되는 방법이 바로 De novo sequencing입니다.

De novo sequencing은 단순히 다른 알고리즘이 아니라,
MS/MS 데이터를 해석하는 접근 방식 자체를 바꾸는 방법입니다.

이 블로그의 다른 글, b/y ion fragmentation 원리와 비교하여, De novo는 그 원리를 거꾸로 거슬 올라가는 과정입니다.


1. De novo sequencing이란?

De novo sequencing은 사전에 존재하는 단백질 데이터베이스에 의존하지 않고,
MS/MS 스펙트럼만을 이용해 펩타이드 서열을 직접 복원하는 방법입니다.

즉,

Database search → 이미 존재하는 서열 중에서 찾는 방식  
De novo sequencing → 스펙트럼으로부터 서열을 직접 생성하는 방식

으로 이해할 수 있습니다.

이 방식은 특히 다음과 같은 상황에서 필수적입니다.

  • database에 없는 단백질
  • mutation 또는 variant peptide
  • synthetic peptide 또는 antibody
  • unknown organism

2. 왜 De novo sequencing이 필요한가?

Database search는 매우 강력하지만, 근본적인 한계를 가지고 있습니다.

1) Database 의존성

  • 존재하지 않는 서열은 탐지 불가
  • variant peptide 검출 제한

2) PTM 제한

  • 예상된 modification 중심 검색
  • 복잡한 PTM 패턴 해석 어려움

3) 특수 샘플

  • synthetic peptide
  • antibody sequence
  • non-model organism

이러한 경우에는 MS/MS 데이터만으로 서열을 유추하는 De novo 접근이 필요합니다.


3. De novo sequencing의 기본 원리

LC-MS/MS MS/MS spectrum showing de novo sequencing using b and y ion series, illustrating amino acid ladder reconstruction based on mass differences (Δmass)
LC-MS/MS MS/MS spectrum example. Consecutive peaks form an amino acid ladder (b/y ion series), allowing peptide sequence reconstruction based on Δmass differences. In real data, noise, neutral loss, and internal fragmentation can interfere with ladder interpretation.


De novo sequencing의 핵심은 다음과 같습니다.

fragment ion 간의 질량 차이(Δmass)를 이용하여 아미노산을 추정

LC-MS/MS fragmentation 과정에서 생성되는 주요 fragment는 다음과 같습니다.

  • b-ion (N-terminal 기준)
  • y-ion (C-terminal 기준)

이때,

Δmass = 특정 아미노산 질량

예를 들어:

  • 147 Da → Phenylalanine (F)
  • 129 Da → Glutamic acid (E)

이러한 Δmass를 이용하여 연속적인 peak를 연결하면 서열을 구성할 수 있습니다.

peak → peak → peak → amino acid ladder → sequence

반드시 고려해야 할 문제

이론적으로는 위 방식으로 서열을 복원할 수 있지만,
실제 MS/MS 데이터에서는 다양한 노이즈와 비정상 fragmentation이 존재합니다.

1) Internal fragmentation

펩타이드 내부에서 발생하는 fragmentation으로 인해 부분 서열 fragment가 생성됩니다.

특징:

  • 실제 서열과 무관한 Δmass 생성
  • 연속성 없는 peak 등장

결과:

false ladder 형성

2) Side-chain fragmentation (W-ion 등)

특정 아미노산에서 side-chain loss가 발생하여 일반적인 b/y ion과 다른 peak가 나타납니다.

특징:

  • 예상되지 않은 Δmass
  • 특정 residue에 편향

결과:

Δmass 기반 해석 오류

3) Neutral loss

다음과 같은 neutral loss가 흔하게 발생합니다.

  • −18 Da (H₂O loss)
  • −17 Da (NH₃ loss)

이로 인해 하나의 fragment에서 여러 peak가 생성됩니다.

결과:

ladder 분기 및 해석 복잡도 증가

4) Noise 및 random peak

실제 spectrum에는 다음이 포함됩니다.

  • chemical noise
  • background signal

이들 중 일부는 우연히 아미노산 질량과 일치할 수 있습니다.

결과:

false Δmass 매칭

핵심 정리
모든 Δmass를 신뢰하면 안 된다

신뢰 가능한 서열은 다음 조건을 동시에 만족해야 합니다.

  • 연속적인 ladder 존재
  • b/y ion 일관성
  • precursor mass 일치

실무 관점 한 줄 요약

De novo sequencing은 “Δmass 계산”이 아니라
“노이즈 속에서 올바른 ladder를 찾는 과정”이다

4. Database Search vs De novo Sequencing

항목Database SearchDe novo Sequencing
방식DB와 비교직접 서열 생성
속도빠름상대적으로 느림
정확도높음 (DB 존재 시)데이터 품질 의존
신규 서열불가능가능
PTM 대응제한적유연

핵심적으로:

빠르고 정확한 식별 → Database search  
새로운 서열 탐색 → De novo sequencing

5. De novo sequencing의 장점

  • Database 없이 분석 가능
  • mutation / variant 탐지 가능
  • 예상되지 않은 PTM 탐지 가능

특히 clinical proteomics 및 특수 샘플 분석에서 중요합니다.


6. De novo sequencing의 한계

다음과 같은 이유로 완전한 자동화가 어렵습니다.

  • noise 영향
  • missing ion
  • internal fragmentation
  • isobaric amino acid (L/I 구분 불가)

따라서 De novo 결과는 항상 검증이 필요합니다.


7. 실제 분석에서의 활용 전략

다음과 같은 접근이 일반적입니다.

1. Database search 수행  
2. 매칭되지 않은 spectrum 선별  
3. De novo sequencing 적용  
4. 후보 서열 검증

이 방식은 정확도와 커버리지를 동시에 확보할 수 있습니다.


8. 정리

De novo sequencing은 database search를 대체하는 기술이 아니라,
그 한계를 보완하는 핵심 분석 방법입니다.

특히 다음과 같은 경우 필수적입니다.

  • Unknown peptide
  • Mutation 분석
  • PTM 연구
  • Synthetic peptide / antibody 분석

다음 글

이 글에서는 개념과 원리를 중심으로 설명했지만,
실제 분석에서 가장 중요한 것은 스펙트럼 해석 과정입니다.

다른 글에서는 다음 내용을 다룹니다.


※ 본 글은 LC-MS/MS 기반 proteomics 분석을 위한 실무 중심 가이드입니다.
※ 실제 데이터 해석 예시는 이 블로그의 다른 글에서 자세히 다룹니다.

다음 이전