왜 LC-MS/MS Proteomics에서는 False Positive가 반드시 발생할까?
Shotgun proteomics에서는 수천~수백만 개의 MS/MS 스펙트럼을 거대한 단백질 DB와 비교하여 peptide를 동정합니다.
하지만 여기에는 근본적인 통계 문제가 존재합니다.
모든 Peptide-Spectrum Match(PSM)가 진짜는 아닙니다.
MS/MS 스펙트럼이 다음과 같은 상황에서 생성되더라도:
- 노이즈
- Co-isolation
- 불완전한 fragmentation
- contamination
- database 미포함 peptide
- unexpected PTM
search engine은 항상 “가장 비슷한 peptide”를 강제로 선택하려고 합니다.
즉:
- 랜덤 스펙트럼도 높은 score를 받을 수 있고
- 일부 peptide identification은 우연히 발생하며
- False positive는 통계적으로 피할 수 없습니다.
이 문제를 해결하기 위해 modern proteomics에서는:
- Target-Decoy Approach
- FDR(False Discovery Rate)
기반의 통계 검증을 사용합니다.
왜 Decoy Database가 필요한가?
일반적인 protein database:
- UniProt
- SwissProt
- RefSeq
- Custom FASTA
만 사용하면 search engine은 항상 가장 높은 점수의 peptide를 반환합니다.
하지만 software는:
이 peptide가 진짜 맞는지
직접 알 수 없습니다.
따라서 proteomics에서는 “가짜 데이터”를 의도적으로 만들어 statistical negative control로 사용합니다.
이것이 바로:
- Decoy Database
입니다.
Decoy Database란 무엇인가?
Decoy DB는 biological meaning이 없는 artificial protein sequence DB입니다.
핵심 아이디어는:
랜덤 False Match는
Target와 Decoy를 거의 동일한 확률로 맞춘다
입니다.
즉:
- Decoy hit 수를 보면
- 숨겨진 false-positive 규모를 추정할 수 있습니다.
대표적인 Decoy 생성 방법
1. Reverse Database 방식
Protein sequence를 뒤집습니다.
예시:
- TARGET: MPEPTIDEK
- DECOY : KEDITPEPM
일부 algorithm은:
- cleavage site
- terminal residue
- initiator methionine
등을 유지하여 실제 digestion 특성을 더 비슷하게 만듭니다.
장점:
- amino acid composition 유지
- peptide mass distribution 유지
- protein length distribution 유지
- 구현이 단순함
현재 가장 널리 사용됩니다.
2. Shuffle Database 방식
Sequence를 단순 reverse하지 않고 amino acid를 랜덤 섞습니다.
예시:
- TARGET: MPEPTIDEK
- DECOY : PETKEDMPI
장점:
- amino acid composition 유지
- biological sequence 의미 제거
- reverse bias 감소
하지만 실제 peptide가 우연히 다시 생성될 위험이 있습니다.
Target-Decoy Searching의 핵심 원리
Search engine은:
- Target DB
- Decoy DB
를 동시에 검색합니다.
이때:
진짜 spectrum은 대부분 Target peptide를 맞추지만,
랜덤/노이즈 spectrum은:
- Target
- Decoy
를 비슷한 확률로 맞추게 됩니다.
따라서:
Observed Decoy Hit
≈ Hidden False Positive Population
으로 간주할 수 있습니다.
이것이 FDR 계산의 핵심입니다.
FDR(False Discovery Rate)이란?
FDR은 다음 의미입니다:
“현재 accepted identification 중 몇 %가 틀렸을 것으로 예상되는가?”
예를 들어:
- FDR = 1%
이면:
- 100개 accepted identification 중 약 1개가 false positive일 가능성이 있다는 뜻입니다.
중요한 점은:
Proteomics는:
절대적으로 맞는가?
를 묻는 것이 아니라,
통계적으로 얼마나 신뢰 가능한가?
를 평가한다는 것입니다.
대표적인 FDR 계산 공식
Proteomics software마다 구현은 조금씩 다르지만 대표 공식은 다음과 같습니다.
Simplified Estimator
Where:
- = accepted decoy hit 수
- = accepted target hit 수
Symmetric Estimator
일부 workflow에서는 다음 공식을 사용합니다.
이 방식은:
- 랜덤 false match가
- target과 decoy를 50:50으로 맞춘다고 가정합니다.
Historically:
- concatenated target-decoy workflow
에서 많이 사용되었습니다.
왜 Software마다 FDR 계산이 다른가?
Modern proteomics software는 단순 공식보다 더 복잡한 전략을 사용합니다.
예시:
- concatenated target-decoy
- separated target-decoy
- picked FDR
- posterior probability
- competition filtering
대표 software:
- MaxQuant
- FragPipe
- Proteome Discoverer
- DIA-NN
- Mascot
- PEAKS
따라서 FDR은:
단일 공식
이라기보다:
통계 estimation framework
로 이해하는 것이 맞습니다.
실제 FDR 계산 예시
어떤 score cutoff에서:
- Target hit = 980
- Decoy hit = 10
이라면:
즉:
- accepted identification 중 약 2%가 false positive일 가능성이 있다는 의미입니다.
만약 laboratory 기준이:
- FDR < 1%
이라면 score cutoff를 더 높여야 합니다.
Running FDR이 중요한 이유
FDR은 보통 한 번만 계산하지 않습니다.
대부분 software는:
-
highest score
→ lowest score
순으로 PSM list를 탐색하면서 cumulative FDR을 계속 계산합니다.
이를:
- Running FDR
이라고 합니다.
이 과정으로:
- score cutoff
- acceptance boundary
- validated dataset
가 결정됩니다.
q-value란 무엇인가?
Modern software는 단순 FDR 대신 q-value를 자주 제공합니다.
q-value 의미:
특정 PSM이 accept되기 위한 최소 FDR threshold
즉:
- q-value가 낮을수록
- identification confidence가 높습니다.
보통:
- q-value < 0.01
이면:
- 1% FDR 수준으로 간주합니다.
PSM FDR과 Protein FDR은 다르다
많은 초보자들이 오해하는 부분입니다.
PSM FDR 1%
≠ Protein FDR 1%
입니다.
이들은 서로 다른 statistical layer입니다.
1. PSM-Level FDR
개별 spectrum-to-peptide assignment를 검증합니다.
가장 첫 단계 filtering입니다.
2. Peptide-Level FDR
동일 peptide sequence에 매칭된 중복 spectrum을 collapse합니다.
목적:
- redundancy 감소
- score inflation 방지
- repeated counting 방지
3. Protein-Level FDR
최종 protein identification을 검증합니다.
이 단계가 어려운 이유:
- 큰 protein은 peptide 수가 많고
- homologous protein이 peptide를 공유하며
- protein inference ambiguity가 발생하기 때문입니다.
왜 1% FDR이 표준이 되었을까?
Proteomics community에서는:
- 1% FDR
이 다음 균형점으로 받아들여졌습니다.
- sensitivity
- specificity
너무 낮으면:
- true identification 손실
너무 높으면:
- false positive 증가
따라서:
- 1% FDR
이 practical standard가 되었습니다.
DIA Proteomics에서는 왜 FDR이 더 중요할까?
DIA에서는:
- multiplexed spectra
- fragment interference
- co-fragmentation
이 심해집니다.
따라서 통계 validation이 더욱 중요합니다.
Modern DIA software는 다음을 함께 사용합니다:
- chromatographic co-elution
- RT prediction
- neural-network rescoring
- spectral library scoring
- target-decoy validation
실제 실무에서 Excel Bottleneck 문제
Proteomics 결과 export file은 종종:
- 수십만 row
- score column
- decoy flag
- peptide annotation
- protein group
를 포함합니다.
이때 수작업으로:
- sorting
- cumulative decoy counting
- running FDR 계산
- 1% cutoff 찾기
를 수행하면 매우 비효율적입니다.
특히:
- dataset merge
- custom QC
- publication table 제작
시 문제가 심각해집니다.
왜 Automation이 중요한가?
FDR workflow 자동화는:
- parsing
- matrix operation
- scripting
- QC pipeline
을 통해 다음을 줄여줍니다:
- spreadsheet error
- row mismatch
- manual filtering mistake
- analysis time
Large-scale proteomics에서는 automation이 사실상 필수입니다.
마무리
Target-Decoy Approach는 proteomics를 단순한:
best-match searching
에서
statistically controlled identification
으로 바꾼 핵심 기술입니다.
현대 LC-MS/MS proteomics는:
- decoy modeling
- running FDR
- q-value filtering
- multi-level validation
없이는 신뢰 가능한 결과를 얻기 어렵습니다.
특히 앞으로:
- DIA proteomics
- single-cell proteomics
- ultra-deep proteome profiling
이 발전할수록 robust statistical validation의 중요성은 더욱 커질 것입니다.
관련글 :
전체 분석 구조를 단계별로 정리한 통합 페이지는 아래에서 확인할 수 있습니다.
→ LC-MS/MS 질량분석 전체 흐름 가이드 보기
