Proteomics에서 Target-Decoy Approach와 FDR(False Discovery Rate) 계산 원리

왜 LC-MS/MS Proteomics에서는 False Positive가 반드시 발생할까?

Shotgun proteomics에서는 수천~수백만 개의 MS/MS 스펙트럼을 거대한 단백질 DB와 비교하여 peptide를 동정합니다.

하지만 여기에는 근본적인 통계 문제가 존재합니다.

모든 Peptide-Spectrum Match(PSM)가 진짜는 아닙니다.

MS/MS 스펙트럼이 다음과 같은 상황에서 생성되더라도:

  • 노이즈
  • Co-isolation
  • 불완전한 fragmentation
  • contamination
  • database 미포함 peptide
  • unexpected PTM

search engine은 항상 “가장 비슷한 peptide”를 강제로 선택하려고 합니다.

즉:

  • 랜덤 스펙트럼도 높은 score를 받을 수 있고
  • 일부 peptide identification은 우연히 발생하며
  • False positive는 통계적으로 피할 수 없습니다.

이 문제를 해결하기 위해 modern proteomics에서는:

  • Target-Decoy Approach
  • FDR(False Discovery Rate)

기반의 통계 검증을 사용합니다.


왜 Decoy Database가 필요한가?

일반적인 protein database:

  • UniProt
  • SwissProt
  • RefSeq
  • Custom FASTA

만 사용하면 search engine은 항상 가장 높은 점수의 peptide를 반환합니다.

하지만 software는:

이 peptide가 진짜 맞는지

직접 알 수 없습니다.

따라서 proteomics에서는 “가짜 데이터”를 의도적으로 만들어 statistical negative control로 사용합니다.

이것이 바로:

  • Decoy Database

입니다.


Decoy Database란 무엇인가?

Decoy DB는 biological meaning이 없는 artificial protein sequence DB입니다.

핵심 아이디어는:

랜덤 False Match는
Target와 Decoy를 거의 동일한 확률로 맞춘다

입니다.

즉:

  • Decoy hit 수를 보면
  • 숨겨진 false-positive 규모를 추정할 수 있습니다.

대표적인 Decoy 생성 방법

1. Reverse Database 방식

Protein sequence를 뒤집습니다.

예시:

  • TARGET: MPEPTIDEK
  • DECOY : KEDITPEPM

일부 algorithm은:

  • cleavage site
  • terminal residue
  • initiator methionine

등을 유지하여 실제 digestion 특성을 더 비슷하게 만듭니다.

장점:

  • amino acid composition 유지
  • peptide mass distribution 유지
  • protein length distribution 유지
  • 구현이 단순함

현재 가장 널리 사용됩니다.


2. Shuffle Database 방식

Sequence를 단순 reverse하지 않고 amino acid를 랜덤 섞습니다.

예시:

  • TARGET: MPEPTIDEK
  • DECOY : PETKEDMPI

장점:

  • amino acid composition 유지
  • biological sequence 의미 제거
  • reverse bias 감소

하지만 실제 peptide가 우연히 다시 생성될 위험이 있습니다.


Target-Decoy Searching의 핵심 원리

Search engine은:

  • Target DB
  • Decoy DB

를 동시에 검색합니다.

이때:

진짜 spectrum은 대부분 Target peptide를 맞추지만,

랜덤/노이즈 spectrum은:

  • Target
  • Decoy

를 비슷한 확률로 맞추게 됩니다.

따라서:

Observed Decoy Hit
≈ Hidden False Positive Population

으로 간주할 수 있습니다.

이것이 FDR 계산의 핵심입니다.


FDR(False Discovery Rate)이란?

FDR은 다음 의미입니다:

“현재 accepted identification 중 몇 %가 틀렸을 것으로 예상되는가?”

예를 들어:

  • FDR = 1%

이면:

  • 100개 accepted identification 중 약 1개가 false positive일 가능성이 있다는 뜻입니다.

중요한 점은:

Proteomics는:

절대적으로 맞는가?

를 묻는 것이 아니라,

통계적으로 얼마나 신뢰 가능한가?

를 평가한다는 것입니다.

LC-MS/MS 단백질체학에서 표적-미끼(Decoy) 워크플로우 및 FDR 추정 과정: 미끼 히트, FDR 실행 및 다단계 검증을 보여줍니다.
Conceptual overview of Target-Decoy-based statistical validation in proteomics. Random matches to decoy sequences are used to estimate false discovery rates (FDR) across PSM, peptide, and protein levels.



대표적인 FDR 계산 공식

Proteomics software마다 구현은 조금씩 다르지만 대표 공식은 다음과 같습니다.

Simplified Estimator

FDRNdecoyNtargetFDR \approx \frac{N_{decoy}}{N_{target}}

Where:

  • NdecoyN_{decoy} = accepted decoy hit 수
  • NtargetN_{target} = accepted target hit 수

Symmetric Estimator

일부 workflow에서는 다음 공식을 사용합니다.

FDR2×NdecoyNtarget+NdecoyFDR \approx \frac{2 \times N_{decoy}}{N_{target}+N_{decoy}}

이 방식은:

  • 랜덤 false match가
  • target과 decoy를 50:50으로 맞춘다고 가정합니다.

Historically:

  • concatenated target-decoy workflow

에서 많이 사용되었습니다.


왜 Software마다 FDR 계산이 다른가?

Modern proteomics software는 단순 공식보다 더 복잡한 전략을 사용합니다.

예시:

  • concatenated target-decoy
  • separated target-decoy
  • picked FDR
  • posterior probability
  • competition filtering

대표 software:

  • MaxQuant
  • FragPipe
  • Proteome Discoverer
  • DIA-NN
  • Mascot
  • PEAKS

따라서 FDR은:

단일 공식

이라기보다:

통계 estimation framework

로 이해하는 것이 맞습니다.


실제 FDR 계산 예시

어떤 score cutoff에서:

  • Target hit = 980
  • Decoy hit = 10

이라면:

FDR=2×10980+102.02%FDR = \frac{2 \times 10}{980+10} \approx 2.02\%

즉:

  • accepted identification 중 약 2%가 false positive일 가능성이 있다는 의미입니다.

만약 laboratory 기준이:

  • FDR < 1%

이라면 score cutoff를 더 높여야 합니다.


Running FDR이 중요한 이유

FDR은 보통 한 번만 계산하지 않습니다.

대부분 software는:

  • highest score
    → lowest score

순으로 PSM list를 탐색하면서 cumulative FDR을 계속 계산합니다.

이를:

  • Running FDR

이라고 합니다.

이 과정으로:

  • score cutoff
  • acceptance boundary
  • validated dataset

가 결정됩니다.


q-value란 무엇인가?

Modern software는 단순 FDR 대신 q-value를 자주 제공합니다.

q-value 의미:

특정 PSM이 accept되기 위한 최소 FDR threshold

즉:

  • q-value가 낮을수록
  • identification confidence가 높습니다.

보통:

  • q-value < 0.01

이면:

  • 1% FDR 수준으로 간주합니다.

PSM FDR과 Protein FDR은 다르다

많은 초보자들이 오해하는 부분입니다.

PSM FDR 1%
≠ Protein FDR 1%

입니다.

이들은 서로 다른 statistical layer입니다.


1. PSM-Level FDR

개별 spectrum-to-peptide assignment를 검증합니다.

가장 첫 단계 filtering입니다.


2. Peptide-Level FDR

동일 peptide sequence에 매칭된 중복 spectrum을 collapse합니다.

목적:

  • redundancy 감소
  • score inflation 방지
  • repeated counting 방지

3. Protein-Level FDR

최종 protein identification을 검증합니다.

이 단계가 어려운 이유:

  • 큰 protein은 peptide 수가 많고
  • homologous protein이 peptide를 공유하며
  • protein inference ambiguity가 발생하기 때문입니다.

왜 1% FDR이 표준이 되었을까?

Proteomics community에서는:

  • 1% FDR

이 다음 균형점으로 받아들여졌습니다.

  • sensitivity
  • specificity

너무 낮으면:

  • true identification 손실

너무 높으면:

  • false positive 증가

따라서:

  • 1% FDR

이 practical standard가 되었습니다.


DIA Proteomics에서는 왜 FDR이 더 중요할까?

DIA에서는:

  • multiplexed spectra
  • fragment interference
  • co-fragmentation

이 심해집니다.

따라서 통계 validation이 더욱 중요합니다.

Modern DIA software는 다음을 함께 사용합니다:

  • chromatographic co-elution
  • RT prediction
  • neural-network rescoring
  • spectral library scoring
  • target-decoy validation

실제 실무에서 Excel Bottleneck 문제

Proteomics 결과 export file은 종종:

  • 수십만 row
  • score column
  • decoy flag
  • peptide annotation
  • protein group

를 포함합니다.

이때 수작업으로:

  • sorting
  • cumulative decoy counting
  • running FDR 계산
  • 1% cutoff 찾기

를 수행하면 매우 비효율적입니다.

특히:

  • dataset merge
  • custom QC
  • publication table 제작

시 문제가 심각해집니다.


왜 Automation이 중요한가?

FDR workflow 자동화는:

  • parsing
  • matrix operation
  • scripting
  • QC pipeline

을 통해 다음을 줄여줍니다:

  • spreadsheet error
  • row mismatch
  • manual filtering mistake
  • analysis time

Large-scale proteomics에서는 automation이 사실상 필수입니다.


마무리

Target-Decoy Approach는 proteomics를 단순한:

best-match searching

에서

statistically controlled identification

으로 바꾼 핵심 기술입니다.

현대 LC-MS/MS proteomics는:

  • decoy modeling
  • running FDR
  • q-value filtering
  • multi-level validation

없이는 신뢰 가능한 결과를 얻기 어렵습니다.

특히 앞으로:

  • DIA proteomics
  • single-cell proteomics
  • ultra-deep proteome profiling

이 발전할수록 robust statistical validation의 중요성은 더욱 커질 것입니다.


관련글 :

이 글은 LC-MS/MS 기반 질량분석 및 proteomics 분석 전체 흐름 가이드의 일부입니다.  
전체 분석 구조를 단계별로 정리한 통합 페이지는 아래에서 확인할 수 있습니다.

→ LC-MS/MS 질량분석 전체 흐름 가이드 보기


다음 이전