MS/MS 스캔 데이터 구조 이해하기 (MGF 파일 기초)
LC-MS/MS는 왜 펩타이드 분석에 강력한가?
프로테오믹스(Proteomics)에서 펩타이드 분석은 단순히 질량을 측정하는 작업이 아닙니다. 단백질을 효소(예: Trypsin)로 절단하면 수많은 펩타이드 조각이 생성되고, 이들은 서로 다른 질량과 전하 상태를 가집니다. 이러한 복잡한 혼합물 속에서 특정 펩타이드를 구분하고, 나아가 아미노산 서열까지 규명할 수 있는 도구가 바로 LC-MS/MS (LCMSMS) 입니다.
LC-MS/MS는 세 단계의 결합으로 작동합니다.
-
LC (Liquid Chromatography): 복잡한 펩타이드 혼합물을 시간적으로 분리
- MS1: 각 성분의 m/z 값을 측정
- MS/MS: 선택된 이온을 분해하여 구조 정보를 생성
한 문장으로 정리하면,
LC는 “분리”를 담당하고
MS는 “질량”을 제공하며
MS/MS는 “서열 정보”를 제공합니다.
이 조합 덕분에 LC-MS/MS는 펩타이드 분석에서 매우 강력한 도구가 됩니다.
그러나 왜 해석이 어려운가?
강력한 만큼, 해석은 단순하지 않습니다.
ESI 환경에서는 펩타이드가 +2, +3, +4 등 다양한 전하 상태로 존재합니다. 동일한 펩타이드라도 서로 다른 m/z 위치에 나타나므로, 전하 계산은 필수입니다.
MS1에서 선택된 precursor가 정확하지 않으면, 이후 MS/MS 해석은 모두 잘못될 수 있습니다. Isotope pattern과 charge state 검증은 해석의 출발점입니다.
MS/MS에서 항상 완전한 b/y ion ladder가 생성되는 것은 아닙니다.
-
일부 결합은 잘 끊어지지 않음
-
특정 아미노산은 중성 손실(Neutral Loss) 발생
-
낮은 intensity fragment는 노이즈에 묻힘
즉, fragment 패턴은 완전한 지도라기보다 단서의 조합입니다.
산화, 인산화, 탈아미노화 등 다양한 변형이 존재합니다. PTM이 포함되면 질량이 변하고 fragment 패턴도 달라집니다. 이를 고려하지 않으면 오동정(false identification)이 발생할 수 있습니다.
하나의 LC-MS/MS 런에는 수천 ~ 수만 개의 MS/MS 스캔이 포함됩니다. 이 데이터를 수작업으로 해석하는 것은 현실적으로 어렵습니다.
그래서 이러한 MS/MS 스캔 데이터를 구조화하여 저장한 형식이 필요합니다.
그 대표적인 형식이 바로 MGF 파일입니다.
MGF 파일이란 무엇인가?
MGF는 Mascot Generic Format의 약자로, MS/MS 스캔 데이터를 텍스트 형식으로 저장한 파일입니다. 데이터베이스 검색과 다양한 분석 도구에서 널리 사용됩니다.
MGF 파일은 매우 단순한 구조를 가집니다. 하나의 MS/MS 스캔은 하나의 블록으로 구성됩니다.
BEGIN IONS
TITLE=Scan 1523
PEPMASS=445.2345
CHARGE=2+
RTINSECONDS=1254.32
123.0456 3456
175.1190 7890
302.2214 1560
...
END IONS
MGF 블록의 구성 요소
- BEGIN IONS / END IONS : 하나의 MS/MS 스캔 블록의 시작과 끝을 나타냄
- PEPMASS : MS1에서 선택된 precursor의 m/z 값으로 해석의 출발점
- CHARGE : 선택된 precursor의 전하 상태, 중성 질량 계산에 필수
- RTINSECONDS : LC 분리에서의 유지 시간(retention time) 정보
- m/z – intensity 목록 : MS2 fragment 데이터. 왼쪽은 fragment m/z, 오른쪽은 intensity 값
MGF에 포함되지 않는 정보
MGF 파일에는 다음 정보가 직접적으로 포함되지 않습니다.
- MS1 전체 스펙트럼
- Isotope 패턴
- Isolation window 정보
- Collision energy 상세 조건
즉, MGF는 “이미 선택된 precursor의 MS/MS 결과”만을 담고 있습니다.
따라서 해석을 시작하기 전에 반드시 다음을 확인해야 합니다.
- 이 precursor가 정확한가?
- charge가 올바른가?
- isotope pattern이 일치하는가?
이 과정을 거치지 않으면, MS/MS 해석은 근거 없는 추측이 될 수 있습니다.
해석의 출발점
MGF 파일 해석은 항상 다음 순서로 접근합니다.
-
Precursor m/z 확인
- Charge 계산
- Neutral mass 환산
- Fragment 패턴 분석
이 순서를 체계화하면, LC-MS/MS 데이터 해석은 감(感)이 아니라 논리가 됩니다.
MGF 파일의 현실: Charge 정확도와 데이터 품질
이론적으로 MGF 파일에는 precursor m/z, charge, fragment 리스트가 정확히 기록되어 있어야 합니다. 그러나 실제 분석 환경에서는 몇 가지 중요한 현실적인 문제가 존재합니다.
Precursor Charge의 불확실성
MGF 파일의 주요 목적은 데이터베이스 서치(Database Search)입니다. 그러나 다음과 같은 상황이 자주 발생합니다.
-
Precursor charge가 잘못 지정된 경우
- Charge 정보가 아예 기록되지 않은 경우
- 동일 precursor가 여러 charge 상태로 반복 기록된 경우
특히 DDA(Data Dependent Acquisition) 방식에서는 charge state determination이 항상 정확하지 않습니다.
따라서 Mascot, Sequest, Andromeda 등의 검색 엔진은 종종:
-
2+, 3+, 4+ 등을 모두 가정하여 검색하거나
- charge 미기록 시 자동 추정 알고리즘을 사용합니다.
이 과정에서 검색 공간(search space)이 커지고 계산 시간이 증가합니다.
Fragment Charge는 어떻게 취급되는가?
실무적으로 매우 중요한 점은 다음과 같습니다.
대부분의 MS/MS fragment는 1가(+1) 이온으로 취급됩니다.
이유는 다음과 같습니다.
-
CID/HCD 조건에서 b/y ion은 주로 1가 형태로 생성
- 다중전하 fragment는 상대적으로 적음
- 검색 알고리즘은 기본적으로 1가 fragment 매칭을 기준으로 설계됨
따라서 MGF 파일에 fragment charge가 별도로 명시되지 않는 경우가 대부분입니다.
즉,
-
Precursor는 다중 전하 가능
- Fragment는 대부분 +1로 가정
이 구조를 이해하지 않으면 m/z 해석에서 혼란이 발생합니다.
하나의 MGF 파일에는 얼마나 많은 데이터가 들어있는가?
일반적인 LC-MS/MS 분석에서 하나의 MGF 파일에는:
예를 들어:
-
90분 런 / Top20 DDA 설정 / 초당 2~3 MS/MS
이면 수만 개의 스캔이 생성될 수 있습니다.
그러나 중요한 질문은 이것입니다.
이 중 실제 “유효한 펩타이드 precursor”는 얼마나 되는가?
경험적으로:
-
전체 MS/MS 스캔의 30~60%만이 의미 있는 펩타이드 스펙트럼
-
나머지는:
-
노이즈 동위원소 중복
- 선택 낮은 intensity
- 공용매/배경 이온
- Co-isolation 혼합 스펙트럼
-
분석 조건이 좋을수록 유효 비율은 증가합니다.
분석 조건이 데이터 품질에 미치는 영향
다음 요소들이 데이터 품질을 결정합니다.
-
Isolation window 크기
- Collision energy 설정
- Dynamic exclusion 설정
- Resolution
- AGC target Injection time
예를 들어:
-
Isolation window가 넓으면 co-fragmentation 증가
- Collision energy가 낮으면 fragment 부족
- 너무 높으면 과도한 fragmentation
즉, MGF 파일의 “양”은 많아도, “질”은 조건에 따라 크게 달라집니다.
300MB MGF 파일의 현실적인 의미
약 300MB 크기의 MGF 파일은 보통:
-
수만 개 MS/MS 스캔 포함
- 복잡한 시료
- 장시간 런 데이터
에 해당합니다.
Mascot 검색 기준 (일반적인 워크스테이션 기준)
-
수만 개 스펙트럼
- Trypsin digestion
- Variable PTM 2~3개
- ppm tolerance 설정
일 경우, 검색 소요 시간은 대략: 수십 분 ~ 1시간 이상 (서버 성능에 따라 다름)
정확도는 어느 정도 기대할 수 있는가?
정확도는 단순히 파일 크기에 비례하지 않습니다.
영향 요소:
-
Precursor mass accuracy
- Fragment mass tolerance
- PTM 설정 수
- FDR (False Discovery Rate) 기준
일반적으로:
-
1% FDR 기준
- 적절한 mass tolerance 설정
- 고해상도 MS1/MS2 데이터
-
잘못된 precursor
- charge 혼합 fragment
- PTM 과다 설정
은 오동정(false positive)을 증가시킵니다.
MGF File PreCheck.
이 화면은 실제 MGF 파일에서 추출한 precursor-fragment 데이터를 기반으로 태그 분석과 charge consistency를 평가하는 과정입니다.
-
총 태그 수 분석
- Charge 일관성 확인
- 아미노산 조성 분석
- DB 매칭 후보 필터링
이 과정을 통해 수만 개의 MS/MS 스캔 중 실제 해석 가능한 precursor를 선별할 수 있습니다.
(Willy's LCMS 의 MGF File QC 화면 입니다)
결론: MGF는 시작점일 뿐입니다
MGF 파일은 MS/MS 스캔을 저장한 구조화된 데이터일 뿐입니다.
그 안에는:
-
올바른 precursor
- 잘못된 precursor
- 유효한 fragment 노이즈
가 모두 섞여 있습니다.
따라서 데이터베이스 서치 이전 단계에서:
-
Precursor QC
- Charge 검증
- Isotope 패턴 확인
을 수행하면 검색 공간을 줄이고 정확도를 높일 수 있습니다.
이것이 바로 MGF 기반 QC의 핵심입니다.
