InChI와 InChIKey란 무엇인가? LC-MS/MS 구조 동정(Structure Identification)에서 중요한 이유

LC-MS/MS 기반 Small Molecule 분석에서는 단순히 질량(mass)만 측정하는 것이 아닙니다.

실제 metabolomics, pharmaceutical analysis, environmental analysis, forensic toxicology 등의 분야에서는:

  • 정확한 질량(Exact Mass)
  • Isotope Pattern
  • Molecular Formula
  • MS/MS Fragmentation Pattern
  • Database Matching

을 종합적으로 이용하여 화합물을 동정(Identification)합니다.

이 과정에서 매우 중요한 역할을 하는 것이 바로:

  • SMILES
  • InChI
  • InChIKey

입니다.

특히 현대 LC-MS/MS 기반 unknown identification workflow에서는 InChI와 InChIKey가 사실상 표준 구조 식별자(Standard Structure Identifier)처럼 사용되고 있습니다.

이번 글에서는:

  • InChI란 무엇인가?
  • InChIKey는 왜 필요한가?
  • SMILES와 어떤 차이가 있는가?
  • LC-MS/MS에서 실제로 어떻게 사용되는가?
  • 왜 modern metabolomics와 small molecule 분석에서 중요한가?

를 실무 관점에서 자세히 설명합니다.


InChI(International Chemical Identifier)란?

InChI는 IUPAC(국제순수·응용화학연합) 주도로 개발된:

화학 구조 기반 표준 텍스트 식별자

입니다.

즉 화학 구조 자체를 일정한 규칙에 따라 문자열(String) 형태로 표현하는 국제 표준입니다.

예를 들어 ethanol(에탄올)의 경우:

CH3-CH2-OH

구조를 가지며,

InChI는 이를 다음과 같이 표현합니다.

InChI=1S/C2H6O/c1-2-3/h3H,2H2,1H3

즉 InChI는 단순 이름(name)이 아니라:

실제 분자 구조 정보를 포함하는 구조 기반 identifier

입니다.


왜 InChI가 필요한가?

같은 화합물이라도:

  • 상품명
  • 관용명
  • 약어
  • 데이터베이스 이름

등이 서로 다를 수 있습니다.

예:

  • Acetaminophen
  • Paracetamol

은 같은 화합물입니다.

이처럼 이름 기반 시스템은:

  • 중복
  • 혼동
  • 검색 오류

가 매우 쉽게 발생합니다.

따라서 현대 화학 데이터베이스에서는:

“이름(Name)”이 아니라 “구조(Structure)” 기반 연결

이 매우 중요합니다.

InChI는 바로 이를 위해 개발된 국제 표준입니다.


InChI의 Layer(층) 구조

InChI는 단순 문자열이 아니라 여러 구조 정보를 층(layer) 형태로 저장합니다.

대표적으로:

Layer의미
Formula Layer분자식
Connectivity Layer원자 연결 정보
Hydrogen Layer수소 배치
Charge Layer전하
Stereochemistry Layer입체화학
Isotope Layer동위원소 정보

즉 InChI는 단순 chemical name이 아니라:

실제 molecular structure 자체를 단계적으로 저장

하고 있습니다.


Standard InChI란?

현대 LC-MS/MS software와 database에서는 보통:

Standard InChI

를 사용합니다.

예:

InChI=1S/

로 시작하는 형태입니다.

이는:

  • 옵션 차이를 최소화하고
  • 서로 다른 소프트웨어 간 일관성을 유지하기 위해

설계된 표준화 형태입니다.



에탄올 구조식이 SMILES, InChI, InChIKey로 변환되는 과정을 단계별로 설명한 LC-MS/MS 구조 식별 인포그래픽
에탄올(Ethanol)을 예시로 구조식 → SMILES → InChI → InChIKey로 변환되는 과정을 보여준다. SMILES는 구조 표현에, InChI는 표준화에, InChIKey는 검색과 DB 연동에 최적화되어 있다.


InChIKey란?

InChI는 매우 정확하지만 문제가 있습니다.

문자열이 너무 길다

는 점입니다.

예:

InChI=1S/C20H25N3O...

처럼 길어질 수 있습니다.

이 상태로:

  • 웹 검색
  • URL 사용
  • Database indexing

을 수행하면 비효율적입니다.

이를 해결하기 위해 만들어진 것이:

InChIKey

입니다.


InChIKey의 특징

InChIKey는:

InChI를 27자의 고정 길이 문자열로 압축한 해시(Hash)

입니다.

예:

BSYNRYMUTXBXSQ-UHFFFAOYSA-N

형태입니다.

즉 InChIKey는:

  • 구조 계산용
    이 아니라,
검색(Search)과 Database Linking

을 위한 identifier입니다.


InChIKey는 구조를 복원할 수 있을까?

아니요.

이 부분은 매우 중요합니다.

InChIKey는:

  • Hash 기반
  • 비가역적(non-reversible)

입니다.

즉:

InChIKey만으로 원래 구조를 완전히 복원할 수는 없습니다.

또한 InChIKey는 고정된 27자 해시값이기 때문에:

이론적으로는 서로 다른 구조가 같은 InChIKey를 가지는 Collision(충돌) 가능성이 매우 낮지만 존재

합니다.

다만 실제 chemical database 환경에서는 충돌 가능성이 극도로 낮도록 설계되어 있습니다.


InChI vs InChIKey 차이

구분InChIInChIKey
역할구조 정보 자체검색용 해시 키
길이가변 길이고정 27자
구조 정보 포함OX
사람이 일부 해석 가능O거의 불가능
DB 검색 최적화제한적매우 우수
구조 복원 가능성일부 가능불가능

즉:

InChI는 “구조 표현”
InChIKey는 “검색 최적화 키”

라고 이해하는 것이 가장 정확합니다.


SMILES와는 무엇이 다른가?

SMILES 역시 화학 구조를 문자열로 표현합니다.

예:

CCO

는 ethanol의 SMILES입니다.

SMILES의 장점은:

  • 사람이 읽기 쉽고(Human-readable)
  • 간결하며
  • RDKit 같은 cheminformatics tool과 호환성이 매우 좋다는 점입니다.

하지만 중요한 한계가 있습니다.


SMILES의 한계점

같은 화합물이라도:

  • 원자를 입력하는 순서
  • software algorithm
  • canonicalization 방식

에 따라 서로 다른 SMILES가 생성될 수 있습니다.

즉:

SMILES는 본질적으로 비표준성(non-standardization)의 한계를 가질 수 있습니다.

예를 들어 같은 분자라도:

CCO

또는:

OCC

처럼 표현될 수 있습니다.

반면 InChI는:

IUPAC 표준 알고리즘 기반으로 항상 동일한 결과를 생성

하도록 설계되었습니다.

즉:

방식특징
SMILES사람이 읽기 쉽고 software-friendly
InChI표준화(Standardization)에 강함
InChIKey검색/DB linking에 최적화

입니다.


LC-MS/MS에서 왜 중요한가?

이제 핵심입니다.

Proteomics에서는:

  • peptide sequence
  • FASTA database

가 핵심입니다.

하지만 Small Molecule LC-MS/MS에서는:

“후보 구조(candidate structure)”

가 핵심입니다.

즉:

  • Exact Mass
  • Isotope Pattern
  • Formula Prediction
  • Fragmentation Spectrum

만으로 완전한 구조 동정이 어려운 경우가 많습니다.

따라서:

Chemical Database Matching

이 매우 중요합니다.


실제 LC-MS/MS Unknown Identification Workflow

현대 small molecule 분석에서는 일반적으로 다음 workflow를 사용합니다.

MS1 Exact Mass
→ Isotope Pattern Analysis
→ Molecular Formula Prediction
→ Candidate Structure Search
→ SMILES / InChI 생성
→ MS/MS Spectral Matching
→ Structure Confirmation

즉 InChI와 InChIKey는:

“후보 구조 연결과 데이터베이스 annotation”

의 핵심 역할을 수행합니다.


실제 사용되는 Database와 Software

현대 LC-MS/MS 환경에서는 InChIKey가 매우 널리 사용됩니다.

대표적으로:

Database / Software활용
PubChemCompound linking
ChemSpiderChemical search
MassBankMS/MS spectral library
mzCloudSpectral matching
GNPSMolecular networking
METLINMetabolomics annotation
HMDBHuman metabolite database
MS-DIALAnnotation
Compound DiscovererUnknown identification

특히 metabolomics에서는:

InChIKey 기반 compound annotation

이 사실상 표준 workflow처럼 사용됩니다.


CAS Number와는 무엇이 다른가?

많은 초보자들이:

  • CAS Number
  • InChIKey

를 혼동합니다.

하지만 차이가 큽니다.

항목CAS NumberInChI/InChIKey
구조 기반XO
ProprietaryOX
자동 생성 가능XO
Machine-readable제한적매우 높음

즉 InChI/InChIKey는:

현대 machine-readable chemistry

를 위한 구조 표준에 가깝습니다.


Proteomics와 Small Molecule LC-MS/MS의 차이

이 부분은 매우 중요합니다.

ProteomicsSmall Molecule
Sequence 중심Structure 중심
FASTA DBChemical DB
b/y ionFragment interpretation
Peptide identificationStructure elucidation
Protein searchCompound annotation

즉 Small Molecule LC-MS/MS에서는:

“Structure 자체”

가 핵심입니다.

따라서:

  • SMILES
  • InChI
  • InChIKey

의 중요성이 매우 커집니다.


결론

InChI와 InChIKey는 단순한 화학 문자열이 아닙니다.

현대 LC-MS/MS 기반:

  • metabolomics
  • pharmaceutical analysis
  • environmental analysis
  • forensic toxicology
  • unknown compound identification

에서는:

“구조 기반 데이터 연결과 annotation”

을 가능하게 하는 핵심 표준입니다.

특히 Small Molecule LC-MS/MS에서는:

  • Exact Mass
  • Isotope Pattern
  • Formula Prediction
  • MS/MS Fragmentation

만으로 완전한 구조 동정이 어려운 경우가 많기 때문에,

InChI/InChIKey 기반 Database Matching

이 매우 중요한 역할을 수행합니다.

따라서 modern LC-MS/MS workflow를 이해하려면:

  • SMILES
  • InChI
  • InChIKey

의 차이와 실제 활용 방법을 함께 이해하는 것이 매우 중요합니다.


관련글 :



다음 이전