[분석 전략] De novo Sequencing vs Database Search vs Hybrid: 최적의 펩타이드 식별 방법 선택 가이드

LC-MS/MS 기반 proteomics에서 펩타이드 서열을 규명하는 방법은 크게 세 가지로 나눌 수 있습니다.
이 글은 De novo sequencing의 원리가 아닌, LC-MS/MS에서 어떤 분석 방법(Database search, De novo, Hybrid)을 선택해야 하는지에 대한 전략 가이드입니다. De novo sequencing의 원리와 펩타이드 서열 복원 방법은 아래 관련 글에서 자세히 확인할 수 있습니다.

Database search
De novo sequencing
Hybrid 접근 (두 방법의 결합)

각 방법은 서로 대체 관계가 아니라 상호 보완적인 역할을 가지며, 분석 목적과 데이터 특성에 따라 적절히 선택하거나 조합해야 합니다.
이 글에서는 세 가지 접근법의 원리, 장단점, 그리고 실무에서의 최적 전략을 체계적으로 정리합니다.

LC-MS/MS 기반 펩타이드 식별 방법 비교: Database Search, De novo Sequencing, Hybrid 접근의 workflow 및 선택 전략

Comparison of peptide identification strategies in LC-MS/MS proteomics. Database search, de novo sequencing, and hybrid approaches are compared in terms of workflow, accuracy, and practical usage.

1. Database Search: 가장 표준적인 접근

Database search는 MS/MS 스펙트럼을 기존 단백질 데이터베이스와 비교하여 가장 잘 일치하는 서열을 찾는 방법입니다.

대표적인 알고리즘:

Mascot
Sequest
Andromeda (MaxQuant)

기본 원리

MS/MS spectrum → theoretical spectrum 생성 → 점수 계산 → best match 선택

장점

높은 정확도 (DB에 존재하는 경우)
자동화 용이
빠른 처리 속도
대규모 데이터 분석에 적합

한계

DB에 없는 서열은 탐지 불가
mutation / variant peptide 탐지 제한
예상되지 않은 PTM 처리 어려움

2. De novo Sequencing: 데이터 기반 서열 복원

De novo sequencing은 데이터베이스 없이 MS/MS 스펙트럼만으로 서열을 직접 생성하는 방법입니다.

기본 원리

MS/MS spectrum → Δmass 계산 → amino acid 매칭 → sequence 생성

장점

새로운 peptide 탐지 가능
mutation 분석 가능
PTM 유연하게 처리 가능
database-independent

한계

데이터 품질 의존성 높음
noise 및 missing ion 영향 큼
계산 복잡도 증가
완전 서열 복원 어려운 경우 많음

3. Hybrid 접근: 가장 현실적인 전략

실제 proteomics 분석에서는 단일 방법보다 Hybrid 접근이 가장 널리 사용됩니다.

기본 구조

1. Database search 수행
2. 매칭되지 않은 spectrum 선별
3. De novo sequencing 적용
4. 결과 통합 및 검증

이 접근은 다음과 같은 장점을 가집니다.

높은 정확도 유지
새로운 서열 탐지 가능
분석 커버리지 증가

4. 세 방법의 비교

항목	Database Search	De novo Sequencing	Hybrid (Best Practice)
데이터베이스	필수 (Required)	불필요 (Independent)	부분 필요 (Partial)
정확도	높음 (High)	중간 (Moderate)	최상 (Optimal)
신규 서열	탐지 불가	가능 (New Peptide)	가능 (Enhanced)
처리 속도	빠름	느림	중간

5. 언제 어떤 방법을 선택해야 하는가

Database Search가 적합한 경우

well-characterized organism
standard proteomics 실험
high-throughput 분석

De novo Sequencing이 필요한 경우

database에 없는 peptide
mutation 분석
antibody / synthetic peptide
unknown sample

Hybrid 접근이 필요한 경우

복잡한 proteome
PTM 포함 분석
identification coverage 최대화 목적

LC-MS/MS 펩타이드 식별 결정 트리는 데이터 특성 및 분석 목표에 따라 데이터베이스 검색, de novo 시퀀싱 또는 하이브리드 접근 방식을 언제 사용할지 보여줍니다.

LC-MS/MS 프로테오믹스에서 펩타이드 식별 전략 선택을 위한 의사결정 트리. 데이터베이스 검색, de novo 시퀀싱 및 하이브리드 접근법 중 최적의 선택은 시료 유형, 데이터 품질 및 분석 목표에 따라 달라집니다.

6. 실제 분석에서의 전략

현업에서는 다음과 같은 흐름이 가장 일반적입니다.

1. Database search 수행
2. high-confidence peptide 확보
3. unmatched spectrum 선별
4. De novo sequencing 적용
5. 후보 서열 검증

이 방식은 다음을 동시에 만족합니다.

정확도 확보
신규 서열 탐지
분석 효율 유지

7. De novo 결과의 활용

De novo sequencing 결과는 단독으로 사용되기보다는 다음과 같이 활용됩니다.

1) Database 확장

De novo 결과 → custom database 생성 → 재검색

2) 후보 서열 필터링

partial sequence 기반 검색
tag-based search

3) PTM 탐지

예상되지 않은 modification 발견

8. 알고리즘 관점에서의 차이

Database Search

scoring 기반
theoretical spectrum 비교
확률 기반 평가 (FDR)

De novo

graph-based 접근
Δmass mapping
path finding 문제

이 차이는 계산 방식뿐 아니라 결과 해석에도 영향을 미칩니다.

9. 실무에서의 핵심 포인트

하나의 방법에 의존하지 않는다

단일 접근 → 오류 가능성 증가

데이터 품질이 가장 중요

high-resolution spectrum
정확한 charge state

결과는 항상 검증

precursor mass 일치
ion coverage 확인

정리

세 가지 접근 방법은 다음과 같이 정리할 수 있습니다.

Database Search → 빠르고 정확하지만 제한적
De novo Sequencing → 유연하지만 불안정
Hybrid → 가장 현실적이고 강력한 전략

따라서 실제 proteomics 분석에서는 다음이 가장 중요합니다.

“문제에 맞는 방법을 선택하고, 필요하면 두 가지 이상을 결합한다”

다른 글에서는 다음 내용을 다룹니다.

이 글은 LC-MS/MS 기반 질량분석 및 proteomics 분석 전체 흐름 가이드의 일부입니다.
전체 분석 구조를 단계별로 정리한 통합 페이지는 아래에서 확인할 수 있습니다.
→ LC-MS/MS 질량분석 전체 흐름 가이드 보기

※ 본 글은 LC-MS/MS 기반 proteomics 분석을 위한 실무 중심 가이드입니다.
※ 실제 데이터 해석 예시는 이 블로그의 다른 글에서 자세히 다룹니다.