[분석 전략] De novo Sequencing vs Database Search vs Hybrid: 최적의 펩타이드 식별 방법 선택 가이드
LC-MS/MS 기반 proteomics에서 펩타이드 서열을 규명하는 방법은 크게 세 가지로 나눌 수 있습니다.
이 글은 De novo sequencing의 원리가 아닌, LC-MS/MS에서 어떤 분석 방법(Database search, De novo, Hybrid)을 선택해야 하는지에 대한 전략 가이드입니다. De novo sequencing의 원리와 펩타이드 서열 복원 방법은 아래 관련 글에서 자세히 확인할 수 있습니다.
이 글은 De novo sequencing의 원리가 아닌, LC-MS/MS에서 어떤 분석 방법(Database search, De novo, Hybrid)을 선택해야 하는지에 대한 전략 가이드입니다. De novo sequencing의 원리와 펩타이드 서열 복원 방법은 아래 관련 글에서 자세히 확인할 수 있습니다.
- Database search
- De novo sequencing
- Hybrid 접근 (두 방법의 결합)
각 방법은 서로 대체 관계가 아니라 상호 보완적인 역할을 가지며, 분석 목적과 데이터 특성에 따라 적절히 선택하거나 조합해야 합니다.
이 글에서는 세 가지 접근법의 원리, 장단점, 그리고 실무에서의 최적 전략을 체계적으로 정리합니다.
![]() |
| Comparison of peptide identification strategies in LC-MS/MS proteomics. Database search, de novo sequencing, and hybrid approaches are compared in terms of workflow, accuracy, and practical usage. |
1. Database Search: 가장 표준적인 접근
Database search는 MS/MS 스펙트럼을 기존 단백질 데이터베이스와 비교하여 가장 잘 일치하는 서열을 찾는 방법입니다.
대표적인 알고리즘:
- Mascot
- Sequest
- Andromeda (MaxQuant)
기본 원리
MS/MS spectrum → theoretical spectrum 생성 → 점수 계산 → best match 선택
장점
- 높은 정확도 (DB에 존재하는 경우)
- 자동화 용이
- 빠른 처리 속도
- 대규모 데이터 분석에 적합
한계
- DB에 없는 서열은 탐지 불가
- mutation / variant peptide 탐지 제한
- 예상되지 않은 PTM 처리 어려움
2. De novo Sequencing: 데이터 기반 서열 복원
De novo sequencing은 데이터베이스 없이 MS/MS 스펙트럼만으로 서열을 직접 생성하는 방법입니다.
기본 원리
MS/MS spectrum → Δmass 계산 → amino acid 매칭 → sequence 생성
장점
- 새로운 peptide 탐지 가능
- mutation 분석 가능
- PTM 유연하게 처리 가능
- database-independent
한계
- 데이터 품질 의존성 높음
- noise 및 missing ion 영향 큼
- 계산 복잡도 증가
- 완전 서열 복원 어려운 경우 많음
3. Hybrid 접근: 가장 현실적인 전략
실제 proteomics 분석에서는 단일 방법보다 Hybrid 접근이 가장 널리 사용됩니다.
기본 구조
1. Database search 수행
2. 매칭되지 않은 spectrum 선별
3. De novo sequencing 적용
4. 결과 통합 및 검증
이 접근은 다음과 같은 장점을 가집니다.
- 높은 정확도 유지
- 새로운 서열 탐지 가능
- 분석 커버리지 증가
4. 세 방법의 비교
| 항목 | Database Search | De novo Sequencing | Hybrid (Best Practice) |
| 데이터베이스 | 필수 (Required) | 불필요 (Independent) | 부분 필요 (Partial) |
| 정확도 | 높음 (High) | 중간 (Moderate) | 최상 (Optimal) |
| 신규 서열 | 탐지 불가 | 가능 (New Peptide) | 가능 (Enhanced) |
| 처리 속도 | 빠름 | 느림 | 중간 |
5. 언제 어떤 방법을 선택해야 하는가
Database Search가 적합한 경우
- well-characterized organism
- standard proteomics 실험
- high-throughput 분석
De novo Sequencing이 필요한 경우
- database에 없는 peptide
- mutation 분석
- antibody / synthetic peptide
- unknown sample
Hybrid 접근이 필요한 경우
- 복잡한 proteome
- PTM 포함 분석
- identification coverage 최대화 목적
![]() |
| LC-MS/MS 프로테오믹스에서 펩타이드 식별 전략 선택을 위한 의사결정 트리. 데이터베이스 검색, de novo 시퀀싱 및 하이브리드 접근법 중 최적의 선택은 시료 유형, 데이터 품질 및 분석 목표에 따라 달라집니다. |
6. 실제 분석에서의 전략
현업에서는 다음과 같은 흐름이 가장 일반적입니다.
1. Database search 수행
2. high-confidence peptide 확보
3. unmatched spectrum 선별
4. De novo sequencing 적용
5. 후보 서열 검증
이 방식은 다음을 동시에 만족합니다.
- 정확도 확보
- 신규 서열 탐지
- 분석 효율 유지
7. De novo 결과의 활용
De novo sequencing 결과는 단독으로 사용되기보다는 다음과 같이 활용됩니다.
1) Database 확장
De novo 결과 → custom database 생성 → 재검색
2) 후보 서열 필터링
- partial sequence 기반 검색
- tag-based search
3) PTM 탐지
예상되지 않은 modification 발견
8. 알고리즘 관점에서의 차이
Database Search
- scoring 기반
- theoretical spectrum 비교
- 확률 기반 평가 (FDR)
De novo
- graph-based 접근
- Δmass mapping
- path finding 문제
이 차이는 계산 방식뿐 아니라 결과 해석에도 영향을 미칩니다.
9. 실무에서의 핵심 포인트
하나의 방법에 의존하지 않는다
단일 접근 → 오류 가능성 증가
데이터 품질이 가장 중요
- high-resolution spectrum
- 정확한 charge state
결과는 항상 검증
- precursor mass 일치
- ion coverage 확인
정리
세 가지 접근 방법은 다음과 같이 정리할 수 있습니다.
Database Search → 빠르고 정확하지만 제한적
De novo Sequencing → 유연하지만 불안정
Hybrid → 가장 현실적이고 강력한 전략
따라서 실제 proteomics 분석에서는 다음이 가장 중요합니다.
“문제에 맞는 방법을 선택하고, 필요하면 두 가지 이상을 결합한다”
관련글 :
다른 글에서는 다음 내용을 다룹니다.
- b/y ion 기반 ladder 구성
- Δmass 기반 아미노산 매칭 (Proteomics Amino Acid Mass Table (32 Residues Reference))
- MS/MS 드노보 시퀀싱(De novo Sequencing) 원리: b/y Ion 기반 펩타이드 서열 복원
- MS/MS 및 LC-MS/MS De novo Sequencing 원리 (Database Search 차이)
- 실제 MS/MS spectrum 해석 방법
※ 본 글은 LC-MS/MS 기반 proteomics 분석을 위한 실무 중심 가이드입니다.
※ 실제 데이터 해석 예시는 이 블로그의 다른 글에서 자세히 다룹니다.

