LC-MS/MS에서 SMILES란 무엇인가: 펩타이드 구조 해석과 활용 방법

LC-MS/MS에서 SMILES란 무엇인가: 펩타이드 구조 해석과 활용 방법

LC-MS/MS 분석에서 SMILES는 무엇이며, 실제로 어떻게 사용될까요?

SMILES(Simplified Molecular Input Line Entry System)는 분자의 구조를 텍스트로 표현하는 방식으로, LC-MS/MS에서 얻은 질량 데이터(m/z)와 화학 구조를 연결하는 데 사용됩니다.

LC-MS/MS 기반 proteomics 분석은 질량 정보를 중심으로 해석되지만, m/z 값만으로는 분자의 구조를 직접 확인하기 어렵습니다. 이때 SMILES는 분자 구조를 텍스트 형태로 표현하여, 질량 데이터와 구조 정보를 연결하는 핵심 도구로 활용됩니다.

이 글에서는 SMILES의 개념, 펩타이드와의 관계, 그리고 LC-MS/MS 분석에서의 실제 활용 방법을 실무 관점에서 설명합니다.

특히 펩타이드 분석에서는 SMILES를 통해 구조 기반 fragmentation 이해가 가능해집니다.


1. SMILES란 무엇인가

SMILES는 화학 구조를 문자열로 표현하는 표준 방식입니다.

예를 들어:

  • 물 (H₂O) → O

  • 에탄올 (C₂H₆O) → CCO

이처럼 원자와 결합 정보를 문자로 표현할 수 있습니다.

SMILES의 핵심 특징:

  • 텍스트 기반 구조 표현

  • 화학 구조의 간결한 저장 및 전달 가능

  • 다양한 cheminformatics 도구와 호환

즉, SMILES는 **“분자 구조의 텍스트 언어”**라고 이해할 수 있습니다.


2. 왜 LC-MS/MS에서 SMILES가 필요한가

LC-MS/MS는 다음과 같은 정보를 제공합니다:

  • m/z (질량/전하비)

  • fragmentation pattern

  • ion intensity

하지만 다음과 같은 정보는 제공하지 않습니다:

  • 정확한 2D/3D 구조

  • 원자의 연결 방식 (bonding topology)

즉,

  • LC-MS/MS → 질량 정보

  • SMILES → 구조 정보

이 둘을 결합해야 분자의 전체적인 이해가 가능합니다.


3. 펩타이드와 SMILES

펩타이드는 아미노산이 peptide bond로 연결된 구조입니다.

예를 들어:

Peptide: ACDE

이 서열은 실제로 다음과 같은 화학 구조를 가집니다:

  • backbone (–NH–CH–CO– 반복)

  • side chain (각 아미노산별 구조)

이 구조는 SMILES로 표현할 수 있으며, 이를 통해 다음이 가능합니다:

  • 구조 시각화

  • 화학적 특성 분석

  • in silico fragmentation

즉, 펩타이드는 단순한 서열이 아니라
완전한 화학 분자이며 SMILES로 표현 가능한 대상입니다.


4. LC-MS/MS 데이터와 SMILES의 연결

SMILES 정보가 있으면 Competitive Fragmentation Modeling (CFM-ID) 같은 도구를 통해, 특정 구조에서 어떤 fragment가 나올지 In silico 예측이 가능해집니다. 이는 De novo 결과의 신뢰도를 검증하는 데 결정적인 역할을 합니다.

De novo sequencing이나 database search를 통해 펩타이드 서열이 결정되면 다음 단계가 가능합니다:

Peptide sequence → Chemical structure → SMILES → 구조 분석

이 과정은 다음과 같은 분석에 활용됩니다:

  • fragment ion 해석 보조

  • neutral loss (NL) 이해

  • 구조 기반 fragmentation 패턴 해석

특히 다음과 같은 상황에서 유용합니다:

  • unusual fragmentation 패턴

  • PTM 구조 해석

  • 비표준 residue 분석


5. 실제 활용 예

아래 그림은 펩타이드 서열을 SMILES로 변환하고, 이를 기반으로 구조 및 질량 정보를 계산한 예시입니다. (해당 구조 및 SMILES는 자체 LCMS 프로그램 Willy's LCMS 로 생성된 결과입니다.)

Willy's LCMS 분석 프로그램으로 생성한 펩타이드(PEPTIDE) 서열의 2D 화학 구조 및 Isomeric SMILES 데이터. 분자식 C34H53N7O15와 Mono Mass 799.35996 및 Charge state별 m/z 계산 결과 포함.

펩타이드 서열의 입체 구조 시각화 및 Isomeric SMILES 추출 예시. 정확한 이론적 질량값(Mono Mass: 799.35996)과 전하 단계별 질량 분석 데이터









1) 구조 시각화

SMILES를 구조로 변환하여
펩타이드의 실제 형태를 확인할 수 있습니다.

2) Fragmentation 이해

특정 결합이 어디에서 끊어지는지 구조 기반으로 해석 가능

3) Cheminformatics 연계

다음과 같은 도구와 함께 활용됩니다:

  • RDKit

  • Open Babel

이를 통해 다양한 구조 기반 분석이 가능합니다.


6. SMILES의 한계

SMILES는 강력한 도구이지만 다음과 같은 한계가 있습니다:

  • LC-MS/MS만으로 완전한 구조 결정은 불가능

  • stereochemistry 표현의 제한

  • 동일 mass → 서로 다른 구조 가능

즉, SMILES는 보조 도구이며
MS 데이터 해석을 대체하지는 않습니다.


7. PubChem 및 주요 데이터베이스에서 SMILES 얻는 방법 (실무 가이드)

SMILES는 직접 생성할 수도 있지만, 실제 분석에서는
화학 데이터베이스를 활용하는 것이 훨씬 효율적입니다.

대표적인 데이터베이스는 다음과 같습니다:

  • PubChem

  • ChEMBL

  • ChemSpider

  • ZINC database


1) PubChem (가장 기본)

PubChem은 가장 널리 사용되는 무료 화학 데이터베이스로,
대부분의 소분자에 대한 SMILES 정보를 제공합니다.

  • 화합물 이름 검색 (caffeine, glucose 등)

  • 분자식 검색

  • 구조 기반 검색

→ Canonical SMILES / Isomeric SMILES 확인 가능

👉 LC-MS/MS small molecule 분석의 기본 출발점


2) ChEMBL (생물활성 중심)

ChEMBL은 bioactive molecule 데이터베이스로:

  • drug-like compound

  • ligand

  • bioactivity 정보

를 함께 제공합니다.

👉 약물 / 대사체 분석에서 유용


3) ChemSpider (광범위 커버리지)

ChemSpider는 다양한 데이터 소스를 통합한 데이터베이스로:

  • 다양한 공급자 데이터 포함

  • PubChem에서 찾기 어려운 구조 보완 가능

👉 보완 검색용으로 매우 유용


4) ZINC database (screening 중심)

ZINC는 virtual screening을 위한 데이터베이스로:

  • purchasable compound

  • library 기반 구조

를 제공합니다.

👉 in silico 분석 / 후보 물질 탐색에 적합


데이터베이스 선택 기준 (실무)

일반 소분자 → PubChem
약물 / bioactive → ChEMBL
보완 검색 → ChemSpider
screening / library → ZINC

Proteomics에서의 중요한 차이

  • 위 데이터베이스는 대부분 소분자 중심

  • 펩타이드는 일반적으로 직접 검색되지 않음

따라서 proteomics에서는:

Peptide sequence → SMILES 직접 생성 → 구조 분석

이 흐름이 필요합니다.


LC-MS/MS 분석에서의 실제 workflow

Unknown peak
→ 후보 분자식 추정
→ database 검색 (PubChem, ChEMBL 등)
→ SMILES 확보
→ 구조 해석 및 검증

특히 다음과 같은 분석에서 중요합니다:

  • contamination peak 분석

  • metabolite identification

  • small molecule LCMS 분석


8. Canonical SMILES vs Isomeric SMILES

두 가지 형태가 존재합니다:

  • Canonical SMILES
    → 구조 중심 (입체 정보 없음)

  • Isomeric SMILES
    → stereochemistry 포함 (정밀 분석용)

실무 기준:

간단 분석 → Canonical SMILES
정밀 분석 → Isomeric SMILES

9. Proteomics에서의 실제 활용

펩타이드 서열을 SMILES로 바꿀 때는 직접 그리기보다 RDKit이나 Biopython 같은 라이브러리를 활용하거나, PepSMI 같은 전용 변환 도구를 사용하면 정확한 Backbone 구조를 얻을 수 있습니다.

중요한 점은 다음과 같습니다:

  • PubChem은 주로 소분자 중심

  • 펩타이드는 일반적으로 직접 검색되지 않음

따라서 proteomics에서는 다음 흐름이 필요합니다:

Peptide sequence → SMILES 생성 → 구조 분석

10. LC-MS/MS 분석에서의 실제 workflow

Unknown peak
→ 후보 분자식 추정
→ database 검색 (PubChem 등)
→ SMILES 확보
→ 구조 해석 및 검증

특히 다음과 같은 분석에서 중요합니다:

  • contamination peak 분석

  • metabolite identification

  • small molecule LCMS 분석


11. 한계 및 주의점

  • 동일 분자식 → 여러 구조 존재

  • database에 없는 물질 존재

  • SMILES만으로 fragmentation 완전 예측 어려움

따라서 SMILES는 항상 MS 데이터와 함께 해석해야 합니다.


정리

SMILES는 단순한 화학 표현 방식이 아니라
LC-MS/MS 데이터 해석을 확장하는 중요한 연결 도구입니다.

핵심 요약:

  • LC-MS/MS → 질량 정보 제공

  • SMILES → 구조 정보 제공

  • 두 개념의 결합 → 분석 이해도 향상

또한 실무에서는 다음과 같이 구분할 수 있습니다:

  • Small molecule → database 활용

  • Peptide → 직접 구조 생성



관련글 

참고

※ 본 글은 LC-MS/MS 기반 proteomics 분석 경험을 바탕으로 실무 관점에서 SMILES의 역할을 설명한 내용입니다.

다음 이전