LC-MS/MS 펩타이드 분석 오류 5가지 (Peptide Identification Pitfalls & 해결 방법)

LC-MS/MS peptide identification 오류는 proteomics 분석에서 가장 흔한 실패 원인 중 하나입니다.
LC-MS/MS를 이용한 Proteomics 분석은 단순한 질량 측정을 넘어, Fragmentation chemistry, Database search, Statistical validation이 결합된 복잡한 과정입니다. 높은 신뢰도의 단백질 동정(Peptide Identification) 결과를 얻기 위해 반드시 체크해야 할 5가지 핵심 요소와 흔한 오류(Pitfalls)를 정리합니다.

펩타이드 서열 분석 결과 스펙트럼 및 b-ion, y-ion 매칭 데이터 테이블 (MS/MS 데이터 해석 화면

펩타이드 서열(WGVPS..)에 대한 MS/MS 분석 결과로, 계산된 이론적 질량값(

m/z

)과 실제 관측된 스펙트럼 피크가 정밀하게 매칭된 상태를 보여줌.
Precursor $m/z$ : 402.2157 (Observed)
Charge state: 5+
Matching: 스펙트럼 하단의 테이블을 통해 b-ion 및 y-ion 시리즈의 이론값과 실험값이 일치함을 확인 가능.
차트 구성: 상단은 원시 스펙트럼(Experimental), 하단은 매칭된 이온(Theoretical)의 분포를 나타내는 미러 플롯(Mirror Plot) 형태. (Willy's LCMS 프로그램으로 매칭하였습니다)

1. Poor MS/MS Spectrum Quality

Fragment ion이 충분하지 않거나 Signal-to-Noise(S/N) 비율이 낮으면 알고리즘이 Peptide sequence를 정확히 매칭하기 어려워집니다.

원인: 낮은 시료 농도, Collision Energy(CE) 설정 미최적화, 혹은 기기 오염.
해결: 분석 전 TIC(Total Ion Chromatogram)를 확인하고, 주요 피크의 fragmentation 패턴이 이론적 b/y ion 시리즈와 일치하는지 점검해야 합니다.
좋은 MS/MS 스펙트럼의 조건(peak density, y-ion coverage 등)은 [What Makes a Good MS/MS Spectrum for Peptide Identification]에서 확인할 수 있습니다.

2. Incorrect Charge Assignment

Precursor의 Charge(z)가 잘못 지정되면 계산되는 이론적 질량값 자체가 틀려지므로 Database search 결과에 치명적인 영향을 줍니다.

원인: Low-resolution 데이터에서의 Isotope spacing 판독 오류.
체크포인트: 고해상도 질량분석기(HRMS)를 사용하더라도 복잡한 시료에서는 중첩된 피크로 인해 오류가 발생할 수 있으므로, 알고리즘의 Charge state assign 결과를 재검증해야 합니다.
isotope spacing (≈ 1/z)을 이용한 charge state 결정은
[Charge State Determination from Isotope Spacing]에서 구체적으로 설명합니다.

3. Contaminant Peaks

LC-MS 데이터에는 시료 전처리 과정에서 유입된 오염 물질이 포함될 수 있으며, 이는 유효한 펩타이드 신호를 방해합니다.

주요 오염원:
- PEG (Polyethylene Glycol): 실험실 세제, 플라스틱 소모품 등에서 유입 (44 Da 간격).
- Keratin: 실험자의 피부나 머리카락에서 유입되는 대표적인 오염 단백질.
- Plasticizers (Phthalates): 플라스틱 가용제 오염.
팁: 이러한 오염 피크들은 Peptide identification 과정에서 False Positive를 유발하므로, [LC-MS 주요 오염원 총정리] 포스팅을 참고하여 사전에 걸러내야 합니다.

LC-MS 주요 배경 오염원(Contaminants) 질량 스펙트럼 패턴 비교 및 생성기 (PEG, Siloxane, Phthalate, SDS 등)

LC-MS/MS 분석 시 빈번하게 관찰되는 10가지 주요 배경 오염원(Contaminants)의 질량 스펙트럼 패턴을 보여주는 종합 차트. 각 오염원은 고유한

m/z

피크 분포와 반복 패턴을 가짐.

상단 차트는 전체 오염원의 스펙트럼이 겹쳐진 미러 플롯 형태이며, 하단 범례를 통해 각 오염원의 색상과 패턴을 개별적으로 식별 가능 (예: PEG의 44 Da 간격, Siloxane의 74 Da 간격 등). (Willy's LCMS 로 생성한 차트 입니다)

4. Incomplete Digestion

Trypsin 등을 이용한 단백질 절단이 완전하지 않으면 예상치 못한 길이의 펩타이드(Missed Cleavage)가 대량 발생합니다.

문제점: Search space가 기하급수적으로 늘어나 분석 효율이 떨어지고, 데이터 해석의 복잡도가 증가합니다.
해결: Digestion efficiency를 모니터링하고, 필요 시 Missed cleavage 허용 범위를 적절히 설정해야 합니다.

5. PTM Misassignment

PTM(Post-Translational Modification) 검색 범위를 너무 넓게 잡으면 통계적 오류가 증가합니다.

함정: 모든 가능성을 열어두고 검색하면 False Discovery Rate(FDR)가 상승하여 실제 유의미한 동정 결과를 놓칠 수 있습니다.
전략: 생물학적으로 타당한 변형(예: Oxidation, Acetylation) 위주로 범위를 최적화하는 것이 중요합니다.
[Proteomics에서 자주 사용되는 43 Major PTM Reference Table] 에 PTM 관한 상세 정보가 있습니다.

정확한 Peptide Identification을 위해서는 단순히 소프트웨어 결과에 의존하기보다 Spectrum quality, Digestion efficiency, Contamination 요소를 종합적으로 고려해야 합니다. 이러한 원리를 깊이 이해할수록 데이터 해석의 해상도는 비약적으로 상승합니다.

요약.

Pitfall 항목	주요 원인 및 영향	데이터 해석 시 고려 사항
MS/MS Quality	낮은 S/N비, 파편 이온 부족	주요 b, y-ion 계열의 연속성 확인
Charge State	Isotope spacing 오판독	Precursor 질량 및 Charge 재검증
Contaminants	PEG, Keratin, Phthalate 유입	배경 노이즈 제거 및 Blank Run 대조
Digestion Error	Missed Cleavage 발생	효소 활성 및 반응 조건 최적화
PTM Search	과도한 변형 설정 (Search Space)	FDR 제어 및 필수 수식 위주 검색

LC-MS/MS proteomics는 단순한 질량 측정이 아니라

fragmentation chemistry
database search
statistical validation

이 결합된 복잡한 분석 과정입니다. 양질의 데이터를 얻는 것은 peptide identification 결과를 훨씬 정확하게 해석할 수 있는 기본입니다.

이 글은 LC-MS/MS 기반 질량분석 및 proteomics 분석 전체 흐름 가이드의 일부입니다.
전체 분석 구조를 단계별로 정리한 통합 페이지는 아래에서 확인할 수 있습니다.
→ LC-MS/MS 질량분석 전체 흐름 가이드 보기