MS/MS 스캔 데이터 구조 (MGF 파일 기초)

MS/MS 스캔 데이터 구조 이해하기 (MGF 파일 기초)

LC-MS/MS는 왜 펩타이드 분석에 강력한가?

프로테오믹스(Proteomics)에서 펩타이드 분석은 단순히 질량을 측정하는 작업이 아닙니다. 단백질을 효소(예: Trypsin)로 절단하면 수많은 펩타이드 조각이 생성되고, 이들은 서로 다른 질량과 전하 상태를 가집니다. 이러한 복잡한 혼합물 속에서 특정 펩타이드를 구분하고, 나아가 아미노산 서열까지 규명할 수 있는 도구가 바로 LC-MS/MS (LCMSMS) 입니다.

LC-MS/MS는 세 단계의 결합으로 작동합니다.

  • LC (Liquid Chromatography): 복잡한 펩타이드 혼합물을 시간적으로 분리 
  • MS1: 각 성분의 m/z 값을 측정 
  • MS/MS: 선택된 이온을 분해하여 구조 정보를 생성

한 문장으로 정리하면,

LC는 “분리”를 담당하고
MS는 “질량”을 제공하며
MS/MS는 “서열 정보”를 제공합니다.

이 조합 덕분에 LC-MS/MS는 펩타이드 분석에서 매우 강력한 도구가 됩니다.

그러나 왜 해석이 어려운가?

강력한 만큼, 해석은 단순하지 않습니다.

1. 다중 전하 (Multiple Charging)

ESI 환경에서는 펩타이드가 +2, +3, +4 등 다양한 전하 상태로 존재합니다. 동일한 펩타이드라도 서로 다른 m/z 위치에 나타나므로, 전하 계산은 필수입니다.

2. 동위원소 패턴과 Precursor 검증

MS1에서 선택된 precursor가 정확하지 않으면, 이후 MS/MS 해석은 모두 잘못될 수 있습니다. Isotope pattern과 charge state 검증은 해석의 출발점입니다.

3. 불완전한 Fragmentation

MS/MS에서 항상 완전한 b/y ion ladder가 생성되는 것은 아닙니다.

  • 일부 결합은 잘 끊어지지 않음

  • 특정 아미노산은 중성 손실(Neutral Loss) 발생

  • 낮은 intensity fragment는 노이즈에 묻힘

즉, fragment 패턴은 완전한 지도라기보다 단서의 조합입니다.

4. PTM (Post-Translational Modification)

산화, 인산화, 탈아미노화 등 다양한 변형이 존재합니다. PTM이 포함되면 질량이 변하고 fragment 패턴도 달라집니다. 이를 고려하지 않으면 오동정(false identification)이 발생할 수 있습니다.

5. 데이터 양과 복잡성

하나의 LC-MS/MS 런에는 수천 ~ 수만 개의 MS/MS 스캔이 포함됩니다. 이 데이터를 수작업으로 해석하는 것은 현실적으로 어렵습니다.

그래서 이러한 MS/MS 스캔 데이터를 구조화하여 저장한 형식이 필요합니다.

그 대표적인 형식이 바로 MGF 파일입니다.

MGF 파일이란 무엇인가?

MGF는 Mascot Generic Format의 약자로, MS/MS 스캔 데이터를 텍스트 형식으로 저장한 파일입니다. 데이터베이스 검색과 다양한 분석 도구에서 널리 사용됩니다.

MGF 파일은 매우 단순한 구조를 가집니다. 하나의 MS/MS 스캔은 하나의 블록으로 구성됩니다.

BEGIN IONS
TITLE=Scan 1523
PEPMASS=445.2345
CHARGE=2+
RTINSECONDS=1254.32
123.0456 3456
175.1190 7890
302.2214 1560
...
END IONS

MGF 블록의 구성 요소

  • BEGIN IONS / END IONS : 하나의 MS/MS 스캔 블록의 시작과 끝을 나타냄
  • PEPMASS : MS1에서 선택된 precursor의 m/z 값으로 해석의 출발점
  • CHARGE : 선택된 precursor의 전하 상태, 중성 질량 계산에 필수
  • RTINSECONDS : LC 분리에서의 유지 시간(retention time) 정보
  • m/z – intensity 목록 : MS2 fragment 데이터. 왼쪽은 fragment m/z, 오른쪽은 intensity 값

MGF에 포함되지 않는 정보

MGF 파일에는 다음 정보가 직접적으로 포함되지 않습니다.

  • MS1 전체 스펙트럼
  • Isotope 패턴
  • Isolation window 정보
  • Collision energy 상세 조건

즉, MGF는 “이미 선택된 precursor의 MS/MS 결과”만을 담고 있습니다.

따라서 해석을 시작하기 전에 반드시 다음을 확인해야 합니다.

  • 이 precursor가 정확한가?
  • charge가 올바른가?
  • isotope pattern이 일치하는가?

이 과정을 거치지 않으면, MS/MS 해석은 근거 없는 추측이 될 수 있습니다.

해석의 출발점

MGF 파일 해석은 항상 다음 순서로 접근합니다.

  1. Precursor m/z 확인 
  2. Charge 계산 
  3. Fragment 패턴 분석

이 순서를 체계화하면, LC-MS/MS 데이터 해석은 감(感)이 아니라 논리가 됩니다.

MGF 파일의 현실: Charge 정확도와 데이터 품질

이론적으로 MGF 파일에는 precursor m/z, charge, fragment 리스트가 정확히 기록되어 있어야 합니다. 그러나 실제 분석 환경에서는 몇 가지 중요한 현실적인 문제가 존재합니다.

Precursor Charge의 불확실성

MGF 파일의 주요 목적은 데이터베이스 서치(Database Search)입니다. 그러나 다음과 같은 상황이 자주 발생합니다.

  • Precursor charge가 잘못 지정된 경우 
  • Charge 정보가 아예 기록되지 않은 경우 
  • 동일 precursor가 여러 charge 상태로 반복 기록된 경우

특히 DDA(Data Dependent Acquisition) 방식에서는 charge state determination이 항상 정확하지 않습니다.

따라서 Mascot, Sequest, Andromeda 등의 검색 엔진은 종종:

  • 2+, 3+, 4+ 등을 모두 가정하여 검색하거나
  • charge 미기록 시 자동 추정 알고리즘을 사용합니다.

이 과정에서 검색 공간(search space)이 커지고 계산 시간이 증가합니다.

Fragment Charge는 어떻게 취급되는가?

실무적으로 매우 중요한 점은 다음과 같습니다.

대부분의 MS/MS fragment는 1가(+1) 이온으로 취급됩니다.

이유는 다음과 같습니다.

  • CID/HCD 조건에서 b/y ion은 주로 1가 형태로 생성 
  • 다중전하 fragment는 상대적으로 적음 
  • 검색 알고리즘은 기본적으로 1가 fragment 매칭을 기준으로 설계됨

따라서 MGF 파일에 fragment charge가 별도로 명시되지 않는 경우가 대부분입니다.

즉,

  • Precursor는 다중 전하 가능 
  • Fragment는 대부분 +1로 가정

이 구조를 이해하지 않으면 m/z 해석에서 혼란이 발생합니다.


하나의 MGF 파일에는 얼마나 많은 데이터가 들어있는가?

일반적인 LC-MS/MS 분석에서 하나의 MGF 파일에는:

수천 ~ 수만 개의 MS/MS 스캔이 포함됩니다.

예를 들어:

  • 90분 런 / Top20 DDA 설정 / 초당 2~3 MS/MS

이면 수만 개의 스캔이 생성될 수 있습니다.

그러나 중요한 질문은 이것입니다.

이 중 실제 “유효한 펩타이드 precursor”는 얼마나 되는가?


실제 유효 Precursor 비율

경험적으로:

  • 전체 MS/MS 스캔의 30~60%만이 의미 있는 펩타이드 스펙트럼

  • 나머지는:

    • 노이즈 동위원소 중복
    •  선택 낮은 intensity 
    • 공용매/배경 이온 
    • Co-isolation 혼합 스펙트럼

분석 조건이 좋을수록 유효 비율은 증가합니다.

분석 조건이 데이터 품질에 미치는 영향

다음 요소들이 데이터 품질을 결정합니다.

  • Isolation window 크기 
  • Collision energy 설정  
  • Dynamic exclusion 설정  
  • Resolution   
  • AGC target Injection time

예를 들어:

  • Isolation window가 넓으면 co-fragmentation 증가 
  • Collision energy가 낮으면 fragment 부족 
  • 너무 높으면 과도한 fragmentation

즉, MGF 파일의 “양”은 많아도, “질”은 조건에 따라 크게 달라집니다.

300MB MGF 파일의 현실적인 의미

약 300MB 크기의 MGF 파일은 보통:

  • 수만 개 MS/MS 스캔 포함 
  • 복잡한 시료 
  • 장시간 런 데이터

에 해당합니다.

Mascot 검색 기준 (일반적인 워크스테이션 기준)

  • 수만 개 스펙트럼
  • Trypsin digestion
  • Variable PTM 2~3개
  • ppm tolerance 설정

일 경우, 검색 소요 시간은 대략: 수십 분 ~ 1시간 이상 (서버 성능에 따라 다름)

정확도는 어느 정도 기대할 수 있는가?

정확도는 단순히 파일 크기에 비례하지 않습니다.

영향 요소:

  • Precursor mass accuracy
  • Fragment mass tolerance
  • PTM 설정 수
  • FDR (False Discovery Rate) 기준

일반적으로:

  • 1% FDR 기준
  • 적절한 mass tolerance 설정
  • 고해상도 MS1/MS2 데이터
그러나:
  • 잘못된 precursor 
  • charge 혼합 fragment 
  • PTM 과다 설정

은 오동정(false positive)을 증가시킵니다.

MGF File PreCheck. 

MGF File PreCheck (mgf file QC)

이 화면은 실제 MGF 파일에서 추출한 precursor-fragment 데이터를 기반으로 태그 분석과 charge consistency를 평가하는 과정입니다.

  • 총 태그 수 분석 
  • Charge 일관성 확인 
  • 아미노산 조성 분석 
  • DB 매칭 후보 필터링

이 과정을 통해 수만 개의 MS/MS 스캔 중 실제 해석 가능한 precursor를 선별할 수 있습니다.

(Willy's LCMS 의 MGF File QC 화면 입니다)


결론: MGF는 시작점일 뿐입니다

MGF 파일은 MS/MS 스캔을 저장한 구조화된 데이터일 뿐입니다.

그 안에는:

  • 올바른 precursor 
  • 잘못된 precursor 
  • 유효한 fragment 노이즈

가 모두 섞여 있습니다.

따라서 데이터베이스 서치 이전 단계에서:

  1. Precursor QC 
  2. Charge 검증 
  3. Isotope 패턴 확인

을 수행하면 검색 공간을 줄이고 정확도를 높일 수 있습니다.

이것이 바로 MGF 기반 QC의 핵심입니다.

다음 이전