LC-MS/MS에서 SMILES란 무엇인가: 펩타이드 구조 해석과 활용 방법

LC-MS/MS 분석에서 SMILES는 무엇이며, 실제로 어떻게 사용될까요?

SMILES(Simplified Molecular Input Line Entry System)는 분자의 구조를 텍스트로 표현하는 방식으로, LC-MS/MS에서 얻은 질량 데이터(m/z)와 화학 구조를 연결하는 데 사용됩니다.

LC-MS/MS 기반 proteomics 분석은 질량 정보를 중심으로 해석되지만, m/z 값만으로는 분자의 구조를 직접 확인하기 어렵습니다. 이때 SMILES는 분자 구조를 텍스트 형태로 표현하여, 질량 데이터와 구조 정보를 연결하는 핵심 도구로 활용됩니다.

이 글에서는 SMILES의 개념, 펩타이드와의 관계, 그리고 LC-MS/MS 분석에서의 실제 활용 방법을 실무 관점에서 설명합니다.

특히 펩타이드 분석에서는 SMILES를 통해 구조 기반 fragmentation 이해가 가능해집니다.

1. SMILES란 무엇인가

SMILES는 화학 구조를 문자열로 표현하는 표준 방식입니다.

예를 들어:

물 (H₂O) → O
에탄올 (C₂H₆O) → CCO

이처럼 원자와 결합 정보를 문자로 표현할 수 있습니다.

SMILES의 핵심 특징:

텍스트 기반 구조 표현
화학 구조의 간결한 저장 및 전달 가능
다양한 cheminformatics 도구와 호환

즉, SMILES는 **“분자 구조의 텍스트 언어”**라고 이해할 수 있습니다.

2. 왜 LC-MS/MS에서 SMILES가 필요한가

LC-MS/MS는 다음과 같은 정보를 제공합니다:

m/z (질량/전하비)
fragmentation pattern
ion intensity

하지만 다음과 같은 정보는 제공하지 않습니다:

정확한 2D/3D 구조
원자의 연결 방식 (bonding topology)

즉,

LC-MS/MS → 질량 정보
SMILES → 구조 정보

이 둘을 결합해야 분자의 전체적인 이해가 가능합니다.

3. 펩타이드와 SMILES

펩타이드는 아미노산이 peptide bond로 연결된 구조입니다.

예를 들어:

Peptide: ACDE

이 서열은 실제로 다음과 같은 화학 구조를 가집니다:

backbone (–NH–CH–CO– 반복)
side chain (각 아미노산별 구조)

이 구조는 SMILES로 표현할 수 있으며, 이를 통해 다음이 가능합니다:

구조 시각화
화학적 특성 분석
in silico fragmentation

즉, 펩타이드는 단순한 서열이 아니라
완전한 화학 분자이며 SMILES로 표현 가능한 대상입니다.

4. LC-MS/MS 데이터와 SMILES의 연결

SMILES 정보가 있으면 Competitive Fragmentation Modeling (CFM-ID) 같은 도구를 통해, 특정 구조에서 어떤 fragment가 나올지 In silico 예측이 가능해집니다. 이는 De novo 결과의 신뢰도를 검증하는 데 결정적인 역할을 합니다.

De novo sequencing이나 database search를 통해 펩타이드 서열이 결정되면 다음 단계가 가능합니다:

Peptide sequence → Chemical structure → SMILES → 구조 분석

이 과정은 다음과 같은 분석에 활용됩니다:

fragment ion 해석 보조
neutral loss (NL) 이해
구조 기반 fragmentation 패턴 해석

특히 다음과 같은 상황에서 유용합니다:

unusual fragmentation 패턴
PTM 구조 해석
비표준 residue 분석

5. 실제 활용 예

아래 그림은 펩타이드 서열을 SMILES로 변환하고, 이를 기반으로 구조 및 질량 정보를 계산한 예시입니다. (해당 구조 및 SMILES는 자체 LCMS 프로그램 Willy's LCMS 로 생성된 결과입니다.)

Willy's LCMS 분석 프로그램으로 생성한 펩타이드(PEPTIDE) 서열의 2D 화학 구조 및 Isomeric SMILES 데이터. 분자식 C34H53N7O15와 Mono Mass 799.35996 및 Charge state별 m/z 계산 결과 포함.

펩타이드 서열의 입체 구조 시각화 및 Isomeric SMILES 추출 예시. 정확한 이론적 질량값(Mono Mass: 799.35996)과 전하 단계별 질량 분석 데이터

1) 구조 시각화

SMILES를 구조로 변환하여

펩타이드의 실제 형태를 확인할 수 있습니다.

2) Fragmentation 이해
특정 결합이 어디에서 끊어지는지 구조 기반으로 해석 가능

3) Cheminformatics 연계
다음과 같은 도구와 함께 활용됩니다:

RDKit
Open Babel

이를 통해 다양한 구조 기반 분석이 가능합니다.

6. SMILES의 한계

SMILES는 강력한 도구이지만 다음과 같은 한계가 있습니다:

LC-MS/MS만으로 완전한 구조 결정은 불가능
stereochemistry 표현의 제한
동일 mass → 서로 다른 구조 가능

즉, SMILES는 보조 도구이며
MS 데이터 해석을 대체하지는 않습니다.

7. PubChem 및 주요 데이터베이스에서 SMILES 얻는 방법 (실무 가이드)

SMILES는 직접 생성할 수도 있지만, 실제 분석에서는
화학 데이터베이스를 활용하는 것이 훨씬 효율적입니다.

대표적인 데이터베이스는 다음과 같습니다:

PubChem
ChEMBL
ChemSpider
ZINC database

1) PubChem (가장 기본)

PubChem은 가장 널리 사용되는 무료 화학 데이터베이스로,
대부분의 소분자에 대한 SMILES 정보를 제공합니다.

화합물 이름 검색 (caffeine, glucose 등)
분자식 검색
구조 기반 검색

→ Canonical SMILES / Isomeric SMILES 확인 가능

👉 LC-MS/MS small molecule 분석의 기본 출발점

2) ChEMBL (생물활성 중심)

ChEMBL은 bioactive molecule 데이터베이스로:

drug-like compound
ligand
bioactivity 정보

를 함께 제공합니다.

👉 약물 / 대사체 분석에서 유용

3) ChemSpider (광범위 커버리지)

ChemSpider는 다양한 데이터 소스를 통합한 데이터베이스로:

다양한 공급자 데이터 포함
PubChem에서 찾기 어려운 구조 보완 가능

👉 보완 검색용으로 매우 유용

4) ZINC database (screening 중심)

ZINC는 virtual screening을 위한 데이터베이스로:

purchasable compound
library 기반 구조

를 제공합니다.

👉 in silico 분석 / 후보 물질 탐색에 적합

데이터베이스 선택 기준 (실무)

일반 소분자 → PubChem
약물 / bioactive → ChEMBL
보완 검색 → ChemSpider
screening / library → ZINC

Proteomics에서의 중요한 차이

위 데이터베이스는 대부분 소분자 중심
펩타이드는 일반적으로 직접 검색되지 않음

따라서 proteomics에서는:

Peptide sequence → SMILES 직접 생성 → 구조 분석

이 흐름이 필요합니다.

LC-MS/MS 분석에서의 실제 workflow

Unknown peak
→ 후보 분자식 추정
→ database 검색 (PubChem, ChEMBL 등)
→ SMILES 확보
→ 구조 해석 및 검증

특히 다음과 같은 분석에서 중요합니다:

contamination peak 분석
metabolite identification
small molecule LCMS 분석

8. Canonical SMILES vs Isomeric SMILES

두 가지 형태가 존재합니다:

Canonical SMILES
→ 구조 중심 (입체 정보 없음)
Isomeric SMILES
→ stereochemistry 포함 (정밀 분석용)

실무 기준:

간단 분석 → Canonical SMILES
정밀 분석 → Isomeric SMILES

9. Proteomics에서의 실제 활용

펩타이드 서열을 SMILES로 바꿀 때는 직접 그리기보다 RDKit이나 Biopython 같은 라이브러리를 활용하거나, PepSMI 같은 전용 변환 도구를 사용하면 정확한 Backbone 구조를 얻을 수 있습니다.

중요한 점은 다음과 같습니다:

PubChem은 주로 소분자 중심
펩타이드는 일반적으로 직접 검색되지 않음

따라서 proteomics에서는 다음 흐름이 필요합니다:

Peptide sequence → SMILES 생성 → 구조 분석

10. LC-MS/MS 분석에서의 실제 workflow

Unknown peak
→ 후보 분자식 추정
→ database 검색 (PubChem 등)
→ SMILES 확보
→ 구조 해석 및 검증

특히 다음과 같은 분석에서 중요합니다:

contamination peak 분석
metabolite identification
small molecule LCMS 분석

11. 한계 및 주의점

동일 분자식 → 여러 구조 존재
database에 없는 물질 존재
SMILES만으로 fragmentation 완전 예측 어려움

따라서 SMILES는 항상 MS 데이터와 함께 해석해야 합니다.

정리

SMILES는 단순한 화학 표현 방식이 아니라
LC-MS/MS 데이터 해석을 확장하는 중요한 연결 도구입니다.

핵심 요약:

LC-MS/MS → 질량 정보 제공
SMILES → 구조 정보 제공
두 개념의 결합 → 분석 이해도 향상

또한 실무에서는 다음과 같이 구분할 수 있습니다:

Small molecule → database 활용
Peptide → 직접 구조 생성

이 글은 LC-MS/MS 기반 질량분석 및 proteomics 분석 전체 흐름 가이드의 일부입니다.
전체 분석 구조를 단계별로 정리한 통합 페이지는 아래에서 확인할 수 있습니다.
→ LC-MS/MS 질량분석 전체 흐름 가이드 보기

※ 본 글은 LC-MS/MS 기반 proteomics 분석 경험을 바탕으로 실무 관점에서 SMILES의 역할을 설명한 내용입니다.