실제 metabolomics, pharmaceutical analysis, environmental analysis, forensic toxicology 등의 분야에서는:
- 정확한 질량(Exact Mass)
- Isotope Pattern
- Molecular Formula
- MS/MS Fragmentation Pattern
- Database Matching
을 종합적으로 이용하여 화합물을 동정(Identification)합니다.
이 과정에서 매우 중요한 역할을 하는 것이 바로:
- SMILES
- InChI
- InChIKey
입니다.
특히 현대 LC-MS/MS 기반 unknown identification workflow에서는 InChI와 InChIKey가 사실상 표준 구조 식별자(Standard Structure Identifier)처럼 사용되고 있습니다.
이번 글에서는:
- InChI란 무엇인가?
- InChIKey는 왜 필요한가?
- SMILES와 어떤 차이가 있는가?
- LC-MS/MS에서 실제로 어떻게 사용되는가?
- 왜 modern metabolomics와 small molecule 분석에서 중요한가?
를 실무 관점에서 자세히 설명합니다.
InChI(International Chemical Identifier)란?
InChI는 IUPAC(국제순수·응용화학연합) 주도로 개발된:
화학 구조 기반 표준 텍스트 식별자
입니다.
즉 화학 구조 자체를 일정한 규칙에 따라 문자열(String) 형태로 표현하는 국제 표준입니다.
예를 들어 ethanol(에탄올)의 경우:
CH3-CH2-OH
구조를 가지며,
InChI는 이를 다음과 같이 표현합니다.
InChI=1S/C2H6O/c1-2-3/h3H,2H2,1H3
즉 InChI는 단순 이름(name)이 아니라:
실제 분자 구조 정보를 포함하는 구조 기반 identifier
입니다.
왜 InChI가 필요한가?
같은 화합물이라도:
- 상품명
- 관용명
- 약어
- 데이터베이스 이름
등이 서로 다를 수 있습니다.
예:
- Acetaminophen
- Paracetamol
은 같은 화합물입니다.
이처럼 이름 기반 시스템은:
- 중복
- 혼동
- 검색 오류
가 매우 쉽게 발생합니다.
따라서 현대 화학 데이터베이스에서는:
“이름(Name)”이 아니라 “구조(Structure)” 기반 연결
이 매우 중요합니다.
InChI는 바로 이를 위해 개발된 국제 표준입니다.
InChI의 Layer(층) 구조
InChI는 단순 문자열이 아니라 여러 구조 정보를 층(layer) 형태로 저장합니다.
대표적으로:
| Layer | 의미 |
|---|---|
| Formula Layer | 분자식 |
| Connectivity Layer | 원자 연결 정보 |
| Hydrogen Layer | 수소 배치 |
| Charge Layer | 전하 |
| Stereochemistry Layer | 입체화학 |
| Isotope Layer | 동위원소 정보 |
즉 InChI는 단순 chemical name이 아니라:
실제 molecular structure 자체를 단계적으로 저장
하고 있습니다.
Standard InChI란?
현대 LC-MS/MS software와 database에서는 보통:
Standard InChI
를 사용합니다.
예:
InChI=1S/
로 시작하는 형태입니다.
이는:
- 옵션 차이를 최소화하고
- 서로 다른 소프트웨어 간 일관성을 유지하기 위해
설계된 표준화 형태입니다.
![]() |
| 에탄올(Ethanol)을 예시로 구조식 → SMILES → InChI → InChIKey로 변환되는 과정을 보여준다. SMILES는 구조 표현에, InChI는 표준화에, InChIKey는 검색과 DB 연동에 최적화되어 있다. |
InChIKey란?
InChI는 매우 정확하지만 문제가 있습니다.
문자열이 너무 길다
는 점입니다.
예:
InChI=1S/C20H25N3O...
처럼 길어질 수 있습니다.
이 상태로:
- 웹 검색
- URL 사용
- Database indexing
을 수행하면 비효율적입니다.
이를 해결하기 위해 만들어진 것이:
InChIKey
입니다.
InChIKey의 특징
InChIKey는:
InChI를 27자의 고정 길이 문자열로 압축한 해시(Hash)
입니다.
예:
BSYNRYMUTXBXSQ-UHFFFAOYSA-N
형태입니다.
즉 InChIKey는:
-
구조 계산용
이 아니라,
검색(Search)과 Database Linking
을 위한 identifier입니다.
InChIKey는 구조를 복원할 수 있을까?
아니요.
이 부분은 매우 중요합니다.
InChIKey는:
- Hash 기반
- 비가역적(non-reversible)
입니다.
즉:
InChIKey만으로 원래 구조를 완전히 복원할 수는 없습니다.
또한 InChIKey는 고정된 27자 해시값이기 때문에:
이론적으로는 서로 다른 구조가 같은 InChIKey를 가지는 Collision(충돌) 가능성이 매우 낮지만 존재
합니다.
다만 실제 chemical database 환경에서는 충돌 가능성이 극도로 낮도록 설계되어 있습니다.
InChI vs InChIKey 차이
| 구분 | InChI | InChIKey |
|---|---|---|
| 역할 | 구조 정보 자체 | 검색용 해시 키 |
| 길이 | 가변 길이 | 고정 27자 |
| 구조 정보 포함 | O | X |
| 사람이 일부 해석 가능 | O | 거의 불가능 |
| DB 검색 최적화 | 제한적 | 매우 우수 |
| 구조 복원 가능성 | 일부 가능 | 불가능 |
즉:
InChI는 “구조 표현”
InChIKey는 “검색 최적화 키”
라고 이해하는 것이 가장 정확합니다.
SMILES와는 무엇이 다른가?
SMILES 역시 화학 구조를 문자열로 표현합니다.
예:
CCO
는 ethanol의 SMILES입니다.
SMILES의 장점은:
- 사람이 읽기 쉽고(Human-readable)
- 간결하며
- RDKit 같은 cheminformatics tool과 호환성이 매우 좋다는 점입니다.
하지만 중요한 한계가 있습니다.
SMILES의 한계점
같은 화합물이라도:
- 원자를 입력하는 순서
- software algorithm
- canonicalization 방식
에 따라 서로 다른 SMILES가 생성될 수 있습니다.
즉:
SMILES는 본질적으로 비표준성(non-standardization)의 한계를 가질 수 있습니다.
예를 들어 같은 분자라도:
CCO
또는:
OCC
처럼 표현될 수 있습니다.
반면 InChI는:
IUPAC 표준 알고리즘 기반으로 항상 동일한 결과를 생성
하도록 설계되었습니다.
즉:
| 방식 | 특징 |
|---|---|
| SMILES | 사람이 읽기 쉽고 software-friendly |
| InChI | 표준화(Standardization)에 강함 |
| InChIKey | 검색/DB linking에 최적화 |
입니다.
LC-MS/MS에서 왜 중요한가?
이제 핵심입니다.
Proteomics에서는:
- peptide sequence
- FASTA database
가 핵심입니다.
하지만 Small Molecule LC-MS/MS에서는:
“후보 구조(candidate structure)”
가 핵심입니다.
즉:
- Exact Mass
- Isotope Pattern
- Formula Prediction
- Fragmentation Spectrum
만으로 완전한 구조 동정이 어려운 경우가 많습니다.
따라서:
Chemical Database Matching
이 매우 중요합니다.
실제 LC-MS/MS Unknown Identification Workflow
현대 small molecule 분석에서는 일반적으로 다음 workflow를 사용합니다.
MS1 Exact Mass
→ Isotope Pattern Analysis
→ Molecular Formula Prediction
→ Candidate Structure Search
→ SMILES / InChI 생성
→ MS/MS Spectral Matching
→ Structure Confirmation
즉 InChI와 InChIKey는:
“후보 구조 연결과 데이터베이스 annotation”
의 핵심 역할을 수행합니다.
실제 사용되는 Database와 Software
현대 LC-MS/MS 환경에서는 InChIKey가 매우 널리 사용됩니다.
대표적으로:
| Database / Software | 활용 |
|---|---|
| PubChem | Compound linking |
| ChemSpider | Chemical search |
| MassBank | MS/MS spectral library |
| mzCloud | Spectral matching |
| GNPS | Molecular networking |
| METLIN | Metabolomics annotation |
| HMDB | Human metabolite database |
| MS-DIAL | Annotation |
| Compound Discoverer | Unknown identification |
특히 metabolomics에서는:
InChIKey 기반 compound annotation
이 사실상 표준 workflow처럼 사용됩니다.
CAS Number와는 무엇이 다른가?
많은 초보자들이:
- CAS Number
- InChIKey
를 혼동합니다.
하지만 차이가 큽니다.
| 항목 | CAS Number | InChI/InChIKey |
|---|---|---|
| 구조 기반 | X | O |
| Proprietary | O | X |
| 자동 생성 가능 | X | O |
| Machine-readable | 제한적 | 매우 높음 |
즉 InChI/InChIKey는:
현대 machine-readable chemistry
를 위한 구조 표준에 가깝습니다.
Proteomics와 Small Molecule LC-MS/MS의 차이
이 부분은 매우 중요합니다.
| Proteomics | Small Molecule |
|---|---|
| Sequence 중심 | Structure 중심 |
| FASTA DB | Chemical DB |
| b/y ion | Fragment interpretation |
| Peptide identification | Structure elucidation |
| Protein search | Compound annotation |
즉 Small Molecule LC-MS/MS에서는:
“Structure 자체”
가 핵심입니다.
따라서:
- SMILES
- InChI
- InChIKey
의 중요성이 매우 커집니다.
결론
InChI와 InChIKey는 단순한 화학 문자열이 아닙니다.
현대 LC-MS/MS 기반:
- metabolomics
- pharmaceutical analysis
- environmental analysis
- forensic toxicology
- unknown compound identification
에서는:
“구조 기반 데이터 연결과 annotation”
을 가능하게 하는 핵심 표준입니다.
특히 Small Molecule LC-MS/MS에서는:
- Exact Mass
- Isotope Pattern
- Formula Prediction
- MS/MS Fragmentation
만으로 완전한 구조 동정이 어려운 경우가 많기 때문에,
InChI/InChIKey 기반 Database Matching
이 매우 중요한 역할을 수행합니다.
따라서 modern LC-MS/MS workflow를 이해하려면:
- SMILES
- InChI
- InChIKey
의 차이와 실제 활용 방법을 함께 이해하는 것이 매우 중요합니다.
