MS/MS 스캔 데이터 구조 (MGF 파일 기초)

MS/MS 스캔 데이터 구조 이해하기 (MGF 파일 기초)

LC-MS/MS는 왜 펩타이드 분석에 강력한가?

프로테오믹스(Proteomics)에서 펩타이드 분석은 단순히 질량을 측정하는 작업이 아닙니다. 단백질을 효소(예: Trypsin)로 절단하면 수많은 펩타이드 조각이 생성되고, 이들은 서로 다른 질량과 전하 상태를 가집니다. 이러한 복잡한 혼합물 속에서 특정 펩타이드를 구분하고, 나아가 아미노산 서열까지 규명할 수 있는 도구가 바로 LC-MS/MS (LCMSMS) 입니다.

LC-MS/MS는 세 단계의 결합으로 작동합니다.

LC (Liquid Chromatography): 복잡한 펩타이드 혼합물을 시간적으로 분리
MS1: 각 성분의 m/z 값을 측정
MS/MS: 선택된 이온을 분해하여 구조 정보를 생성

한 문장으로 정리하면,

LC는 “분리”를 담당하고
MS는 “질량”을 제공하며
MS/MS는 “서열 정보”를 제공합니다.

이 조합 덕분에 LC-MS/MS는 펩타이드 분석에서 매우 강력한 도구가 됩니다.

그러나 왜 해석이 어려운가?

강력한 만큼, 해석은 단순하지 않습니다.

1. 다중 전하 (Multiple Charging)

ESI 환경에서는 펩타이드가 +2, +3, +4 등 다양한 전하 상태로 존재합니다. 동일한 펩타이드라도 서로 다른 m/z 위치에 나타나므로, 전하 계산은 필수입니다.

2. 동위원소 패턴과 Precursor 검증

MS1에서 선택된 precursor가 정확하지 않으면, 이후 MS/MS 해석은 모두 잘못될 수 있습니다. Isotope pattern과 charge state 검증은 해석의 출발점입니다.

3. 불완전한 Fragmentation

MS/MS에서 항상 완전한 b/y ion ladder가 생성되는 것은 아닙니다.

일부 결합은 잘 끊어지지 않음
특정 아미노산은 중성 손실(Neutral Loss) 발생
낮은 intensity fragment는 노이즈에 묻힘

즉, fragment 패턴은 완전한 지도라기보다 단서의 조합입니다.

참조글 : Understanding fragmentation is essential:

👉 CID vs HCD vs ETD Comparison

4. PTM (Post-Translational Modification)

산화, 인산화, 탈아미노화 등 다양한 변형이 존재합니다. PTM이 포함되면 질량이 변하고 fragment 패턴도 달라집니다. 이를 고려하지 않으면 오동정(false identification)이 발생할 수 있습니다.

5. 데이터 양과 복잡성

하나의 LC-MS/MS 런에는 수천 ~ 수만 개의 MS/MS 스캔이 포함됩니다. 이 데이터를 수작업으로 해석하는 것은 현실적으로 어렵습니다.

그래서 이러한 MS/MS 스캔 데이터를 구조화하여 저장한 형식이 필요합니다.

그 대표적인 형식이 바로 MGF 파일입니다.

MGF 파일이란 무엇인가?

MGF는 Mascot Generic Format의 약자로, MS/MS 스캔 데이터를 텍스트 형식으로 저장한 파일입니다. 데이터베이스 검색과 다양한 분석 도구에서 널리 사용됩니다.

MGF 파일은 매우 단순한 구조를 가집니다. 하나의 MS/MS 스캔은 하나의 블록으로 구성됩니다.


BEGIN IONS
TITLE=Scan 1523
PEPMASS=445.2345
CHARGE=2+
RTINSECONDS=1254.32
123.0456  3456
175.1190  7890
302.2214  1560
...
END IONS

MGF 블록의 구성 요소

BEGIN IONS / END IONS : 하나의 MS/MS 스캔 블록의 시작과 끝을 나타냄
PEPMASS : MS1에서 선택된 precursor의 m/z 값으로 해석의 출발점
CHARGE : 선택된 precursor의 전하 상태, 중성 질량 계산에 필수
RTINSECONDS : LC 분리에서의 유지 시간(retention time) 정보
m/z – intensity 목록 : MS2 fragment 데이터. 왼쪽은 fragment m/z, 오른쪽은 intensity 값

MGF에 포함되지 않는 정보

MGF 파일에는 다음 정보가 직접적으로 포함되지 않습니다.

MS1 전체 스펙트럼
Isotope 패턴
Isolation window 정보
Collision energy 상세 조건

즉, MGF는 “이미 선택된 precursor의 MS/MS 결과”만을 담고 있습니다.

따라서 해석을 시작하기 전에 반드시 다음을 확인해야 합니다.

이 precursor가 정확한가?
charge가 올바른가?
isotope pattern이 일치하는가?

이 과정을 거치지 않으면, MS/MS 해석은 근거 없는 추측이 될 수 있습니다.

해석의 출발점

MGF 파일 해석은 항상 다음 순서로 접근합니다.

Precursor m/z 확인
Charge 계산
Neutral mass 환산
Fragment 패턴 분석

이 순서를 체계화하면, LC-MS/MS 데이터 해석은 감(感)이 아니라 논리가 됩니다.

MGF 파일의 현실: Charge 정확도와 데이터 품질

이론적으로 MGF 파일에는 precursor m/z, charge, fragment 리스트가 정확히 기록되어 있어야 합니다. 그러나 실제 분석 환경에서는 몇 가지 중요한 현실적인 문제가 존재합니다.

Precursor Charge의 불확실성

MGF 파일의 주요 목적은 데이터베이스 서치(Database Search)입니다. 그러나 다음과 같은 상황이 자주 발생합니다.

Precursor charge가 잘못 지정된 경우
Charge 정보가 아예 기록되지 않은 경우
동일 precursor가 여러 charge 상태로 반복 기록된 경우

특히 DDA(Data Dependent Acquisition) 방식에서는 charge state determination이 항상 정확하지 않습니다.

따라서 Mascot, Sequest, Andromeda 등의 검색 엔진은 종종:

2+, 3+, 4+ 등을 모두 가정하여 검색하거나
charge 미기록 시 자동 추정 알고리즘을 사용합니다.

이 과정에서 검색 공간(search space)이 커지고 계산 시간이 증가합니다.

Fragment Charge는 어떻게 취급되는가?

실무적으로 매우 중요한 점은 다음과 같습니다.

대부분의 MS/MS fragment는 1가(+1) 이온으로 취급됩니다.

이유는 다음과 같습니다.

CID/HCD 조건에서 b/y ion은 주로 1가 형태로 생성
다중전하 fragment는 상대적으로 적음
검색 알고리즘은 기본적으로 1가 fragment 매칭을 기준으로 설계됨

따라서 MGF 파일에 fragment charge가 별도로 명시되지 않는 경우가 대부분입니다.

즉,

Precursor는 다중 전하 가능
Fragment는 대부분 +1로 가정

이 구조를 이해하지 않으면 m/z 해석에서 혼란이 발생합니다.

하나의 MGF 파일에는 얼마나 많은 데이터가 들어있는가?

일반적인 LC-MS/MS 분석에서 하나의 MGF 파일에는:

수천 ~ 수만 개의 MS/MS 스캔이 포함됩니다.

예를 들어:

90분 런 / Top20 DDA 설정 / 초당 2~3 MS/MS

이면 수만 개의 스캔이 생성될 수 있습니다.

그러나 중요한 질문은 이것입니다.

이 중 실제 “유효한 펩타이드 precursor”는 얼마나 되는가?

실제 유효 Precursor 비율

경험적으로:

전체 MS/MS 스캔의 30~60%만이 의미 있는 펩타이드 스펙트럼
나머지는:
- 노이즈 동위원소 중복
- 선택 낮은 intensity
- 공용매/배경 이온
- Co-isolation 혼합 스펙트럼

분석 조건이 좋을수록 유효 비율은 증가합니다.

분석 조건이 데이터 품질에 미치는 영향

다음 요소들이 데이터 품질을 결정합니다.

Isolation window 크기
Collision energy 설정
Dynamic exclusion 설정
Resolution
AGC target Injection time

예를 들어:

Isolation window가 넓으면 co-fragmentation 증가
Collision energy가 낮으면 fragment 부족
너무 높으면 과도한 fragmentation

즉, MGF 파일의 “양”은 많아도, “질”은 조건에 따라 크게 달라집니다.

참조글 (Not all MS/MS spectra are useful for identification):
👉 What Makes a Good MS/MS Spectrum

300MB MGF 파일의 현실적인 의미

약 300MB 크기의 MGF 파일은 보통:

수만 개 MS/MS 스캔 포함
복잡한 시료
장시간 런 데이터

에 해당합니다.

Mascot 검색 기준 (일반적인 워크스테이션 기준)

수만 개 스펙트럼
Trypsin digestion
Variable PTM 2~3개
ppm tolerance 설정

일 경우, 검색 소요 시간은 대략: 수십 분 ~ 1시간 이상 (서버 성능에 따라 다름)

정확도는 어느 정도 기대할 수 있는가?

정확도는 단순히 파일 크기에 비례하지 않습니다.

영향 요소:

Precursor mass accuracy
Fragment mass tolerance
PTM 설정 수
FDR (False Discovery Rate) 기준

일반적으로:

1% FDR 기준
적절한 mass tolerance 설정
고해상도 MS1/MS2 데이터

그러나:

잘못된 precursor
charge 혼합 fragment
PTM 과다 설정

은 오동정(false positive)을 증가시킵니다.

MGF File PreCheck.

이 화면은 실제 MGF 파일에서 추출한 precursor-fragment 데이터를 기반으로 태그 분석과 charge consistency를 평가하는 과정입니다.

총 태그 수 분석
Charge 일관성 확인
아미노산 조성 분석
DB 매칭 후보 필터링

이 과정을 통해 수만 개의 MS/MS 스캔 중 실제 해석 가능한 precursor를 선별할 수 있습니다.

(Willy's LCMS 의 MGF File QC 화면 입니다)

결론: MGF는 시작점일 뿐입니다

MGF 파일은 MS/MS 스캔을 저장한 구조화된 데이터일 뿐입니다.

그 안에는:

올바른 precursor
잘못된 precursor
유효한 fragment 노이즈

가 모두 섞여 있습니다.

따라서 데이터베이스 서치 이전 단계에서:

Precursor QC
Charge 검증
Isotope 패턴 확인

을 수행하면 검색 공간을 줄이고 정확도를 높일 수 있습니다.

이것이 바로 MGF 기반 QC의 핵심입니다.

For a complete understanding of the LC-MS/MS analysis workflow, see:

👉 LC-MS/MS Peptide Identification Workflow

이 글은 LC-MS/MS 기반 질량분석 및 proteomics 분석 전체 흐름 가이드의 일부입니다.
전체 분석 구조를 단계별로 정리한 통합 페이지는 아래에서 확인할 수 있습니다.
→ LC-MS/MS 질량분석 전체 흐름 가이드 보기