바이오 특화 AI 언어 모델 EVO-2, 게임 체인저가 될 수 있을까?

어떤 유전자가 내 건강에 해로운지 혹은 유익한지를 AI 모델을 통해 미리 확인할 수 있다면 어떨까? 더 나아가, AI가 앞으로 발병할 질병을 미리 예측하여 치료방법을 제시하거나 기존에 없는 새로운 신약을 개발할 수 있다면?

공상과학 소설이나 영화속에서만 존재했던 이러한 시나리오가 점점 현실화되고 있다. AI 기술의 발전은 단백질 구조 예측부터 생성적 약물 설계에 이르기까지 이전에는 해결 불가능하다고 여겨졌던 문제들을 빠르게 해결하고 있다. 2025년 2월, 스탠포드 대학교, Arc Institute, NVIDIA가 공동으로 개발한 바이오 특화 AI 언어모델인 'EVO-2'는 생명과학 분야에서 새로운 혁신을 가져올 차세대 인공지능 모델이자 게임 체인저로 평가받고 있다. 오픈소스로 공개된 EVO-2는 DNA, RNA, 단백질 전반에 걸쳐 생물학적 서열을 분석하고 생성할 수 있는 생물학적 기초 모델로 분자 수준에서 게놈 규모에 이르기까지 예측 및 생성 설계 작업을 수행할 수 있는 능력을 보유하고 있다.

Evo-2는 ChatGPT와 비슷한가?

ChatGPT에 일부 문장을 입력하면, 이전에 작성된 문장 패턴을 기반으로 나머지 문장을 자동 완성한다. Evo-2 역시 DNA에 대해 같은 일을 수행한다. 새로운 유전자를 설계하고 싶을 때, 유전자 서열의 시작 부분을 입력하면 Evo-2가 나머지를 자동으로 완성해준다. Evo-2는 엔비디아 DGX 클라우드 플랫폼을 기반으로 구축됐고, AWS를 활용해 방대한 바이오 데이터를 빠르게 처리할 수 있다.

완성된 결과가 자연에서 발견되는 유전자와 똑같이 보일 수도 있지만, 다른 경우에는 AI 모델이 개선을 하거나, 지구 역사상 한 번도 존재한 적 없는 방식으로 유전자를 작성할 수도 있다. 현실에서는 이러한 돌연변이가 우연히 발생하지만 Evo-2를 사용하면 유용한 기능을 가진 돌연변이 방향으로 유도할 수 있다. 기존 생명과학 연구에서는 유전자 변이가 단백질 기능에 미치는 영향을 분석하는 데 많은 시간과 비용이 소요되는데 반해, EVO-2는 이러한 과정을 가속화하여, 실험실에서 수년 또는 그 이상 걸릴 수 있는 작업을 몇 시간 내에 완료할 수 있도록 도와준다.

Arc Institute의 최고기술책임자(CTO) Dave Burke는 EVO-2를 "강력한 새로운 망원경을 우주의 가장 먼 곳까지 보내는 것과 같다"고 표현했다. 그의 말처럼, EVO-2는 생명과학 연구자들에게 기존 방식으로는 접근하기 어려웠던 생물학적 복잡성을 탐색할 수 있는 새로운 기술적 도구를 제공할 것으로 전망된다.

Evo-2 개발진 마이클 폴리(Michael Poli), 브라이언 히(Brian Hie), 개릭 브릭시(Garyk Brixi), 출처: 스탠포드리포트
지구상에 존재하는 모든 생명은 네 가지 화학물질(아데닌, 구아닌, 시토신, 티민), 즉 뉴클레오타이드(핵산을 구성하는 단위체인 분자)로 암호화되어 있습니다. 이 복잡한 분자들은 A(아데닌), G(구아닌), C(시토신), T(티민)라는 문자로 줄여서 표현됩니다. 인간의 유전체는 30억 개의 뉴클레오타이드로 이루어져 있지만 따지고 보면 이 네 글자의 문자열입니다. 이 DNA를 30억 글자의 책이라고 생각하면, 개별 유전자는 그 안의 단어들입니다. 유전자는 각각 다르게 철자되어 있고, 어떤 것은 글자가 더 많고 어떤 것은 적습니다. 이들은 각기 다른 목적과 의미, 즉 다른 기능을 갖고 있습니다. AI를 통해 이 코드 안에서 패턴을 찾아 다음에 나올 뉴클레오타이드를 예측할 수 있습니다. 이런 방식으로 Evo-2는 새로운 유전자 코드를 생성할 수 있고 기존에 알기 어려웠던 유전자 간의 연결을 포착할 수 있습니다.  (스탠포드大 Brian Hie 교수)

Evo-2는 생명의 세 영역에 걸친 128,000개 이상의 유전체에서 수집된 9조 3천억 개 이상의 뉴클레오타이드를 기반으로 학습한다(여기에서는 유사성에 따라 군집화된 점들로 시각화됨), 출처: Arc Institute

EVO-2 기술 아키텍처

  • 핵심 아키텍처: EVO-2에는 이전 모델인 EVO-1에서 사용된 StripedHyena 아키텍처를 기반으로 개선된 StripedHyena 2 아키텍처를 활용하였다. 이 모델은 긴 서열 정보를 효율적으로 처리하도록 설계되었으며, 기존 Transformer 아키텍처에서 흔히 사용되는 전통적인 어텐션 메커니즘에 의존하지 않는다. StripedHyena 2는 컨볼루션 신경망과 어텐션 메커니즘을 결합하여 짧은 범위와 긴 범위의 의존성을 모두 모델링하는 것이 특징이다. 특히 StripedHyena 아키텍처의 초기 버전에서는 Hyena 레이어가 Transformer 레이어와 함께 통합되어 사용되었다. StripedHyena 2의 멀티 하이브리드 설계는 컨볼루션을 기반으로 하여 Transformer 모델이나 선형 어텐션 또는 상태 공간 모델을 사용하는 다른 하이브리드 모델보다 훨씬 빠른 학습 속도를 제공한다.
  • 학습 데이터: EVO-2는 모든 생명체의 영역(진핵생물, 원핵생물, 고세균)에서 수집된 8조 8천억 개의 토큰(뉴클레오타이드)으로 구성된 대규모 데이터 세트인 OpenGenome2를 사용하여 자기 회귀 방식으로 사전 학습되었다. 이 광범위한 데이터 세트는 이전 모델인 EVO-1이 주로 원핵생물 게놈에 초점을 맞춘 것과 비교하여 전례 없는 종 간 일반화 능력을 제공하며 적용 범위를 크게 확장한다. EVO-2는 약 13만 종의 게놈에서 추출한 9조 3천억 개 이상의 DNA 염기 서열로 학습되었다. OpenGenome2 데이터 세트는 허깅페이스에서 공개적으로 이용 가능하다. 단, 안전상의 이유로 바이러스 게놈은 학습 데이터에서 제외되었다.
  • 모델 규모 및 컨텍스트 길이: EVO-2는 70억 개 및 400억 개 파라미터 버전을 포함한다. 이 모델은 단일 뉴클레오티드 해상도로 전례 없는 100만 토큰의 컨텍스트 창을 제공한다. 100만 뉴클레오타이드 창은 DNA에서 물리적으로 가깝지 않은 유전자와 조절 영역 간의 장거리 상호작용을 탐색하는 데 중요한 역할을 수행한다.
  • 학습 인프라: EVO-2 모델은 AWS의 NVIDIA DGX Cloud에서 2,048개의 NVIDIA H100 GPU를 사용하여 수개월 동안 학습되었다.
  • 소프트웨어 통합 및 접근성: EVO-2는 Vortex 추론 코드를 사용하여 로컬에서 추론 또는 생성을 위해 실행할 수 있다. 또한 NVIDIA NIM 및 호스팅된 API에서도 사용할 수 있다. 특화된 바이오 제약 작업을 위해 사전 학습된 모델을 조정할 수 있도록 오픈 소스 NVIDIA BioNeMo 프레임워크에 통합되었다.

경쟁 모델과의 차이점

  • BioGPT (Microsoft Research): BioGPT는 생물의학 텍스트에 특화된GPT 기반 언어 모델로, 수백만 편의 PubMed 논문을 학습하여 개발되었다. 파라미터 규모는 3억 47백만 개(베이스 모델)부터 15억 개(BioGPT-Large) 버전까지 있으며, OpenAI GPT-2 계열 아키텍처를 기반으로 한다. 자연어 형태의 생물의학 지식 추출과 질문 답변에 능하여, 약물-단백질 상호작용 추론, 의학 논문 요약, 생물학 개념 정의 생성 등에서 당시 최고 성능을 달성했다. 실제 PubMedQA(의학문헌 기반 질의응답)에서 인간 전문가 수준의 정확도(약 81%)를 보여 GPT-3보다 우수한 결과를 보여줬다.
  • BioMedLM (Stanford CRFM & MosaicML): 스탠포드 기반모델연구센터(CRFM)와 MosaicML이 협력하여 공개한 의료/생명 과학 특화 LLM으로 PubMed 논문 초록과 전문 약 50억 토큰 규모의 데이터를 GPT 방식으로 학습한 27억 개 파라미터를 보유한 것으로 알려졌다.  출시 당시 의학 시험 문제(예: USMLE)와 의료Q&A에서 최신 거대 모델들을 능가하는 준전문가 수준 성능을 보였으며​, 이는 거대 모델이라도 도메인 특화 데이터를 충분히 학습하면 전문 영역 질문에 뛰어난 응답을 할 수 있음을 입증했다​.
  • Med-PaLM (Google/DeepMind): 구글이 자사의 초거대 언어모델인 PaLM(5400억 파라미터)을 파인튜닝하여 개발한 의료 전문 LLM으로 일반 상식과 추론에 능한 거대 모델을 의학 지식으로 재훈련하고, 추가로 의사가 평가한 피드백으로 답변의 정확성과 안전성을 튜닝한 것이 특징이다. Med-PaLM은 출시 후 의료 전문 평가에서 미국 의사면허시험(USMLE) 합격 점수를 최초로 넘어섰다.

활용 분야

  • 게놈 연구 혁신: EVO-2는 이질적인 유기체 간의 유전자 서열에서 패턴을 식별하여 실험 연구자들이 수년이 걸릴 수 있는 관계를 밝힐 수 있는 잠재력을 보여준다. 비코딩 영역을 포함한 유전적 변이의 기능적 결과를 정확하게 예측하는 능력이 뛰어나며 , BRCA1 유전자 변이의 영향을 90% 이상의 정확도로 예측한 사례가 대표적이다. 또한, 이전에 특성화되지 않은 유전적 변이를 분석하여 질병 발병에 미치는 잠재적 영향을 평가하는 데 도움을 줄 수 있으며, 엑손-인트론 경계 및 전사 인자 결합 부위와 같은 유전적 요소를 감지하는 능력도 갖추고 있습니다. 기능적 게놈 주석 달기에도 활용될 수 있다.
  • 합성 생물학 및 게놈 공학 발전: EVO-2는 미토콘드리아, 원핵생물, 진핵생물을 포함한 완전한 게놈 서열을 생성할 수 있습니다. 단순 박테리아 규모의 인공 게놈 설계도 가능하며 , 크로마틴 접근성을 제어 가능한 방식으로 설계할 수 있다.
  • 단백질 공학 혁신: EVO-2는 유전 서열을 분석하여 표적화된 기능을 가진 새로운 단백질 설계를 지원함으로써 약물 개발 및 산업 생명 공학 분야에 기여할 수 있다. 특히 EVO-2가 생성한 DNA로 코딩된 단백질의 구조를 예측하기 위해 ESMFold와 통합되어 활용될 수 있다. 또한, EVO-2를 조작하여 새로운 단백질 구조를 엔지니어링하는 것도 가능하다.
  • 약물 개발 파이프라인 가속화: EVO-2는 의료 및 산업 분야를 위한 새로운 분자를 식별하는 데 잠재력을 보여주며 , 특정 질병과 관련된 유전자 변이를 이해하는 데 도움을 줄 수 있다. 질병 영역을 정확하게 표적화하는 새로운 분자를 설계하는 능력은  약물 개발의 선도 물질 최적화 과정을 가속화하고 , 약물 개발 과정에서 생성된 대규모 데이터 세트 분석을 간소화하며 , 분자의 특성을 정확하게 예측하는 예측 모델 개발을 향상시킬 수 있다.

바이오 LLM 향후 전망

결론적으로, EVO-2는 생물학의 언어를 보다 효과적으로 이해하고 활용할 수 있게 해주는 혁신적인 AI 모델로, 향후 바이오 분야의 연구 및 개발에 중요한 역할을 할 것으로 기대된다. 반면 EVO-2는 강력하지만 여전히 개발 중인 기술이며 학습 데이터에 편향이 있을 가능성이 있으며 , 특정 작업에서는 더 작고 전문화된 모델보다 성능이 떨어질 수 있다.

특히 EVO-1이 필수 유전자를 포함하는 데 어려움을 겪었던 것처럼, EVO-2 역시 처음부터 완전히 기능적인 게놈을 만드는 데 어려움이 있을 수 있다. 앞으로 EVO-2를 비롯한 바이오 분야에 특화된 LLM들이 난치병 치료제 개발, 생태계 보전, 인류 건강 증진 등 광범위한 분야에서 실질적인 기여를 할 수 있을 것으로 전망된다.  

글: 투이컨설팅 디지털연구소

Newsletter
디지털 시대, 새로운 정보를 받아보세요!
SHOP