Search

IsoDDE 기술문서 리뷰: AF3를 뛰어넘은 새로운 모델의 등장?

들어가며

AlphaFold2의 개발 이후 단백질 구조 예측 분야는 눈부신 발전을 이루었고, 이후 AlphaFold3 (AF3)까지 등장하며 단백질-단백질, 단백질-소분자 복합체의 구조 예측이 가능해졌습니다. 그러나 실제 신약 개발 현장에서는 여전히 해결되지 않은 문제들이 산적해 있어왔습니다. 학습 데이터와 유사하지 않은 새로운 표적에서의 일반화(generalization) 실패, 구조 예측이 결합 친화도(binding affinity)와 연결되지 않는 문제, 그리고 미지의 단백질 표면에서 약물이 결합할 수 있는 포켓(pocket)을 찾아내는 것이 대표적입니다.
여기서는 2026년 2월 10일 Google Deepmind의 스핀오프, Isomorphic Labs에서 발표한, IsoDDE(Isomorphic Drug Design Engine) 기술 문서를 리뷰해 봅니다.. IsoDDE는 구조 예측, 결합 친화도 예측, 포켓 식별이라는 세 가지 핵심 과제를 하나의 통합 시스템에서 해결하고자 합니다. 저자들은 "AF3 이후 첫 단계적 도약(step change)"이라는 주장을 내세우며, 특히 학습 분포 밖(out-of-distribution)의 어려운 사례들에서 큰 폭의 성능 향상을 보고하고 있습니다.
이 글에서는 IsoDDE가 제시하는 결과들을 (1) 구조 예측 성능, (2) 친화도 예측 성능, (3) 포켓 식별 성능의 세 가지 관점으로 나누어 살펴보고, 이 연구가 갖는 의의와 한계점을 함께 알아보도록 하겠습니다.

연구 배경 및 동기

구조 예측의 진전과 남은 과제

AF3 출시 이후, Boltz-1/Boltz-2, Chai-1, Protenix, HelixFold 3, SeedFold, OpenFold 3 와 같은 다양한 변형 모델들이 등장했습니다. 이들 모델은 사용자 제어(steerability) 강화와 아키텍처 변경 두 가지 방향으로 개선을 시도했습니다. 그러나 저자들은 제어성과 효율성은 개선되었지만, 새로운 범용 모델들이 무조건적(unconditional) 정확도에서는 실질적 진전을 보이지 못했다고 지적합니다. 즉, 외부 conditioning이 아무것도 주어지지 않은 상황에서의 구조 예측 성능은 실질적으로 AF3보다 개선된 모델이 없다는 점을 지적하는 것이죠. IsoDDE는 AF3 출시 이후 이러한 무조건적 정확도에서 첫 번째 단계적 도약을 제시한다고 주장합니다.
AlphaFold2, AlphaFold-Multimer, 그리고 AF3로 이어지는 발전은 단백질 구조 예측의 정확도를 비약적으로 높였습니다. 그러나 이러한 성과에도 불구하고, 실제 약물 설계에서 요구되는 수준의 일반화에는 아직은 미치지 못한다는 것이 업계의 공통된 인식이었습니다. 구체적으로 어떤 문제들이 지적되어 왔을까요? 첫째, 항체-항원(antibody-antigen) 도킹에서 AF3의 실패율이 50%를 넘는다는 보고가 있습니다. 항체 치료제 개발이 활발한 현재, 이는 무시할 수 없는 한계라고 볼 수 있겠습니다. 둘째, small molecule-protein 결합에서 기존 모델들이 학습 데이터에 포함된 결합 모드(binding mode)를 "암기"하는 경향이 있다는 비판이 제기되었습니다. 새로운 포켓이나 결합 방식에서는 성능이 급격히 떨어진다는 것이죠.

구조에서 친화도로의 전이 실패

설령 구조 예측이 정확하더라도, 그것이 곧바로 결합 세기(ΔG, KD 등)의 정량적 예측으로 이어지지는 않습니다. 구조 예측 모델의 신뢰도 점수(confidence score)나 별도의 딥러닝 기반의 score를 사용해 친화도를 추정하려는 시도들이 있었지만, 실험값과의 상관관계가 낮거나 시스템마다 수작업 초기화가 필요한 문제가 있었습니다. 딥러닝 등장 이후 DeepDTA, Pafnucy 등의 신경망 모델과 DiffDock 같은 특화된 딥러닝 스코어러, AutoDock Vina 같은 고전적 도킹 도구들이 사용되어 왔습니다. 그러나 기존 데이터셋의 편향으로 인해 딥러닝 모델 벤치마킹 자체가 쉽지 않았습니다.
물리 기반 방법인 자유 에너지 섭동(Free Energy Perturbation, FEP)은 여전히 "Gold Standard"로 여겨집니다. FEP는 열역학적 사이클을 통해 두 리간드 간의 결합 자유 에너지 차이(ΔΔG)를 계산하는 방법으로, 분자 역학(MD) 시뮬레이션을 기반으로 합니다. 원리적으로 가장 엄밀한 접근이지만, 계산 비용이 매우 높고(타깃당 수일~수주), 정확한 초기 구조와 세심한 시스템 준비(force field 선택, 용매화, 평형화 등)가 필요해 대규모 탐색에는 부적합합니다.

포켓 탐지의 한계

기존 포켓 예측 도구들(예: P2Rank)은 사전에 정의된 특성(feature)에 의존하고, 명시적인 3D 구조 입력을 전제로 합니다. 특히 리간드가 결합해야만 형성되는 cryptic pocket의 탐지에 취약합니다. 이는 새로운 작용기전이나 알로스테릭 부위를 발굴하는 데 큰 제약이 됩니다. 참고로, P2Rank는 기계학습 기반의 리간드 결합 포켓 예측 도구로, 오픈소스로 공개되어 널리 사용되고 있습니다. 단백질 표면의 점들을 기준으로 물리화학적 특성과 기하학적 특성을 추출한 뒤, 랜덤 포레스트 분류기를 통해 각 점이 포켓의 일부인지 예측하는 모델입니다.

왜 "정확한 예측"이 생성 모델보다 선행되어야 하는가

저자들은 "일반화 격차를 메우는 것이 first-in-class 타깃과 새로운 조절 메커니즘을 겨냥하는 Drug Design Engine의 기초층"이라고 강조합니다. 아무리 다양한 분자를 생성할 수 있는 생성 모델이 있더라도, 그 분자들의 구조와 친화도를 신뢰성 있게 평가하지 못한다면 실제 설계에 활용하기 어렵기 때문입니다.

방법론

통합 시스템으로서의 IsoDDE

IsoDDE는 구조 예측, 포켓 식별, 결합 친화도 예측을 하나의 "통합 계산 시스템(unified computational system)"에서 수행한다고 소개됩니다. 다만, 이것이 단일 백본(backbone)에 여러 헤드(head)가 달린 구조인지, 아니면 여러 모듈의 파이프라인 조합인지에 대한 아키텍처 세부사항은 공개되지 않았습니다.
Figure 1. IsoDDE의 주요 기능 개요. 왼쪽: Runs N' Poses 벤치마크에서 AF3 대비 2배 이상의 구조 예측 정확도 향상. 가운데: 리간드 결합 포켓 식별. 오른쪽: FEP+를 초과하는 결합 친화도 예측.

학습과 평가의 공정성 확보

일반화 성능을 평가하려면 학습 데이터와 평가 데이터 사이의 정보 누수(data leakage)를 철저히 차단해야 합니다. IsoDDE는 다음과 같은 원칙들을 적용했습니다.
훈련 컷오프(training cutoff): PDB 데이터의 학습 컷오프를 2021년 9월 30일로 설정했습니다. 이는 AF3와 동일한 컷오프로, 비교의 공정성을 확보하기 위함입니다.
통제된 템플릿 사용: FoldBench 등 특정 평가에서는 2023년 1월 1일 이전의 구조만 템플릿으로 제공했습니다. 평가 대상이 되는 구조 정보가 템플릿을 통해 누출되는 것을 방지하기 위한 조치입니다.
시드 샘플링과 신뢰도 기반 랭킹: 각 타깃에 대해 25개(또는 항체-항원의 경우 최대 1000개)의 샘플을 생성한 뒤, 모델이 출력하는 신뢰도 점수(confidence score)가 가장 높은 하나의 예측을 선택해 평가합니다. 이를 "top-1" 평가라고 합니다.

신뢰도 점수와 보정(calibration)

Figure 15. Runs N' Poses에서 신뢰도 점수 vs 성공률. IsoDDE가 더 단조적이며, 40% 미만 유사도에서도 약 70% 성공률.
위의 Figure 15에서 이 관계를 확인할 수 있습니다. IsoDDE의 관계가 AF3보다 더 단조적이며, 저유사도 구간에서도 보정이 유지됩니다. 예측 모델에서 신뢰도 점수가 실제 성공 확률과 잘 정렬되는지는 실무 적용에서 매우 중요합니다. IsoDDE는 신뢰도 점수가 성공률과 단조적(monotonic)으로 정렬됨을 보여줍니다. 즉, 신뢰도가 높은 예측일수록 실제로 정확할 가능성이 높다는 것입니다. 이러한 특성은 실험 우선순위 결정에 직접적으로 활용될 수 있습니다.

리간드 기하 위반(ligand violation) 처리

구조 예측 모델이 화학적으로 타당하지 않은 리간드 기하를 출력하는 것은 실제 설계 적용의 걸림돌입니다. IsoDDE는 엄격한 위반 기준을 정의했습니다. 결합 길이나 각도가 이상적 값에서 25% 이상 벗어나거나, 평면성 오류, 입체화학적 오류, 원자 간 충돌 등이 있는 경우 "위반"으로 판정합니다. 주목할 점은 IsoDDE가 이러한 위반 필터를 적용하기 전후로 성능이 거의 동등하다는 것입니다. 이는 모델이 애초에 화학적으로 타당한 리간드 기하를 생성한다는 것을 의미합니다.

포켓 식별 태스크

포켓 식별에서 IsoDDE는 리간드 정보 없이 단백질 서열만으로 잔기별 결합 확률을 예측합니다. 평가에서는 리간드로부터 5Å 이내의 잔기를 "포켓 잔기"로 레이블링하고, 이를 얼마나 잘 랭킹하는지를 AUPRC(Area Under the Precision-Recall Curve)로 측정합니다. 특히 cryptic pocket의 경우, apo 구조(리간드 미결합)와 holo 구조(리간드 결합) 사이의 backbone RMSD가 1Å 이상인 경우로 정의했습니다.

결과

Structure prediction - Runs N' Poses에서의 일반화 성능

Runs N' Poses (Škrinjar et al., 2025)는 기존 PoseBusters 벤치마크의 한계를 보완하기 위해 개발된 단백질-리간드 코폴딩 벤치마크입니다. 기존 벤치마크들이 학습 데이터와의 유사도를 고려하지 않아 "암기" 효과를 측정하지 못한다는 비판에 대응하여, 포켓 서열 유사도와 리간드 형태(shape) 오버레이를 기준으로 테스트 케이스를 유사도 구간(bin)으로 나눕니다. 이를 통해 모델이 학습 분포에서 얼마나 멀리 일반화할 수 있는지를 정량적으로 평가할 수 있습니다.
가장 주목할 결과는 최저 유사도 구간(0-20]에서 나타납니다. 이 구간은 학습 데이터와 가장 다른, 즉 가장 어려운 사례들이라고 볼 수 있는데요,
Figure 2. Runs N' Poses 벤치마크에서 IsoDDE의 성능. 유사도 구간별 top-1 성공률. A: 전체 데이터셋, B: 124개 흔한 리간드 제거 후.
IsoDDE는 이 구간에서 50%의 top-1 성공률을 달성했습니다 (Figure 2A). 반면 AF3는 23.3%에 그쳐, IsoDDE와 AF3 사이에 통계적으로 유의미한 차이(26.7% [8.3, 43.3])가 있음을 보고했습니다. 구체적으로는, 60개 타깃 중 30개를 맞췄고, 그중 17개는 AF3가 실패했던 사례입니다.
더욱 인상적인 것은 널리 알려진 리간드 124개를 제거하고 클러스터링 및 필터링을 적용한 세트에서도 이 우위가 유지된다는 점입니다 (Figure 2B). 이는 IsoDDE의 성능 향상이 특정 리간드의 "암기"에 의존하지 않음을 시사합니다.

Structure prediction - Case study: cryptic pocket과 유도 적합

저자들은 IsoDDE가 cryptic pocket 개방과 같은, 학습 분포 밖의 복잡한 구조 변형 사례를 어떻게 처리하는지 세 가지 사례로 보여줍니다.
Figure 3. 최저 유사도 구간 (0-20]에서 IsoDDE는 성공했지만, AF3는 실패한 사례. 왼쪽: 가장 가까운 학습 데이터 예시, 가운데: 실험 구조, 오른쪽: IsoDDE 예측.
8EA6 (NKG2D 이량체): 리간드가 결합하면서 cryptic pocket이 열리는 알로스테릭 PPI 억제제 사례입니다. IsoDDE는 이 포켓 개방을 정확히 예측했지만 AF3는 실패했습니다.
8E23 (PolΘ): Allosteric inhibitor가 헬릭스 이동을 유발하며 새로운 포켓을 형성합니다. IsoDDE는 이 헬릭스 이동과 신규 포켓을 모두 예측했습니다.
7FEE (CB1 GPCR): Positive allosteric modulator가 학습 데이터에 알려지지 않은 부위에 결합합니다. IsoDDE는 이 결합 모드를 맞췄습니다.
이러한 사례들은 IsoDDE가 단순히 학습 데이터를 암기하는 것이 아니라, 유도 적합(induced fit)이나 cryptic pocket 개방과 같은 물리적 현상을 어느 정도 일반화할 수 있음을 보여줍니다.

Structure prediction - FoldBench 전 범주 비교

FoldBench (Xu et al., 2025)는 항체-항원, 소분자-단백질, 단백질-단백질의 세 범주를 평가하는 벤치마크입니다. 2023년 1월 13일 이전 데이터로 학습된 구조 모델을 평가하기 위해 구성되었으며, 항체-항원, 단백질-리간드, 단백질-단백질의 세 범주를 평가합니다.
(참고: Boltz-2는 학습 컷오프 문제로 FoldBench 결과에 포함되어 있지 않습니다.)
세 범주 모두에서 IsoDDE가 1위를 차지했습니다. 특히 항체-항원에서의 개선 폭(+27.68%p)이 가장 컸습니다.

Structure prediction - Boltz-2와의 비교

공정한 비교를 위해 Boltz-2 훈련 컷오프(2024년 3월 5일) 이후에 공개된 구조만으로 구성한 서브셋에서 비교했습니다.
Figure 4. Boltz-2 학습 컷오프 이후 Runs N' Poses 서브셋에서 IsoDDE와 Boltz-2 비교.
이 서브셋에서도 IsoDDE는 특히 저유사도 구간에서 큰 격차로 우위를 보였습니다. 저자들은 Boltz-2의 스티어링(steering)/컨디셔닝 기능이 개선되었지만 "무조건적 정확도(unconditional accuracy)"에서는 진전이 제한적이라고 해석합니다.

Structure prediction - 항원-항체 인터페이스

항체-항원 도킹은 CDR(Complementarity-Determining Region), 특히 CDR-H3 루프의 높은 변이성과 유연성 때문에 매우 어려운 과제로 알려져 있습니다.
Figure 5. 세 가지 주요 인터페이스 유형에 대한 저유사도 클러스터 결과. 25개 샘플 중 top-1 메트릭.
Figure 6. 추론 시점 계산 확장이 항체-항원 구조 예측을 개선. A: DockQ > 0.8 성공률, B: CDR-H3 RMSD ≤2Å 성공률.
IsoDDE는 DockQ > 0.8(고정밀)에서 39%의 성공률을 달성했습니다. 여기서 DockQ는 단백질-단백질 도킹 품질을 0-1 스케일로 측정하는 메트릭으로, CAPRI(Critical Assessment of PRediction of Interactions) 기준에서 0.23 이상이면 "acceptable", 0.49 이상이면 "medium", 0.8 이상이면 "high quality"로 분류됩니다.
IsoDDE의 39%는 AF3(17%)의 2.3배, Boltz-2(2%)의 19.8배에 해당합니다. CDR-H3 backbone RMSD ≤ 2Å 기준에서도 70%로 AF3(58%)와 Boltz-2(43%)를 상회합니다.39%의 성공률을 달성했습니다. 이는 AF3(17%)의 2.3배, Boltz-2(2%)의 19.8배에 해당합니다. CDR-H3 backbone RMSD ≤ 2Å 기준에서도 70%로 AF3(58%)와 Boltz-2(43%)를 상회합니다.
시드 수를 1에서 1000으로 늘리면 DockQ > 0.8 성공률이 39%에서 59%로 증가합니다. 흥미로운 점은, IsoDDE의 seed=1 성능이 AF3와 Boltz-2의 seed=1000 성능보다 높다는 점인데요, 이는 연산량이 적은 세팅에서도 비교적 실용적인 성능을 달성할 수 있음을 의미합니다.
Figure 7. AF3와 IsoDDE의 항체-항원 구조 예측 비교. 왼쪽: 9FZD, 가운데: 8Q3J, 오른쪽: 8QZ2. 상단: AF3, 하단: IsoDDE.
AF3가 실패하는 전형적인 패턴 중 하나는 항체의 체인이 뒤집히거나(flipping) 잘못된 위치에 배치되는 것입니다. 저자들은 9FZD, 8Q3J, 8QZ2 등의 사례에서 IsoDDE가 이러한 오류를 피하고 정확한 배치를 달성함을 보여줍니다.
9FZD: IsoDDE DockQ 0.943 성공, AF3 DockQ 0.00 (잘못된 면에 배치).
8Q3J: IsoDDE DockQ 0.876 성공, AF3 DockQ 0.060 (체인 방향 뒤집힘).
8QZ2: IsoDDE DockQ 0.683 성공, AF3는 부정확.

Structure prediction - 리간드 기하 위반 필터링 후 성능

Figure 5를 보면, AF3나 Boltz-2와는 달리 앞서 언급한 엄격한 위반 기준을 적용해도 IsoDDE의 성능은 거의 그대로 유지됩니다. 이는 모델이 화학적으로 타당한 국소 기하를 생성하고 있음을 뜻합니다.

Structure prediction - 신뢰도-성공률 보정

Figure 15. Runs N' Poses에서 신뢰도 점수 vs 성공률. IsoDDE가 더 단조적이며, 40% 미만 유사도에서도 약 70% 성공률.
앞서 방법론에서 소개한 Figure 15를 다시 살펴봅니다. IsoDDE의 신뢰도는 성공률과 잘 정렬되어 있으며, 저유사도 구간에서도 이 관계가 유지됩니다. 고신뢰 구간(상위 구간)에서는 약 70%의 성공률을 보입니다. 이러한 보정 특성은 "신뢰도가 높은 상위 N개 예측을 우선 실험"하는 전략을 정당화해 줍니다.

Binding affinity - 평가 설계: 시간 분할

결합 친화도 평가에서 저자들은 ChEMBL 35 데이터베이스를 사용하되, time-split 전략을 채택했습니다. 2023년 1월 1일 이후에 등록된 어세이(assay)만 검증/테스트로 사용합니다. 이는 "미래의 새로운 문제에 대한 전향적(prospective) 성능"을 시뮬레이션하기 위함입니다.
포함 기준으로는 표준 활성 측정값(Ki, Kd, IC50, EC50, DC50), 타깃당 최소 20개 리간드, 단일체 단백질 등이 있습니다. FEP/OpenFE 등 물리 기반 벤치마크의 타깃은 학습에서 제외(서열 동일도 90% 이상 배제)하여 데이터 누수를 방지했습니다.

Binding affinity - 단백질 클래스별 성능

Figure 8. ChEMBL35 시간 분할 데이터셋에서 단백질 클래스별 성능. (피어슨 상관계수)
ChEMBL35의 다양한 단백질 클래스(효소, GPCR, 키나아제 등)에서 IsoDDE는 평균 Pearson r 약 0.55 수준을 유지하며, Boltz-2를 전반적으로 상회합니다. 다만 클래스별 격차의 원인(포즈 정확도, 리간드 특성 등)에 대한 세부 분석은 제시되지 않았습니다.

Binding affinity - 물리 기반 벤치마크와의 비교

Figure 9. FEP+ 4, OpenFE, CASP16 벤치마크에서 IsoDDE가 ML 방법들과 물리 기반 방법을 능가.
IsoDDE는 공개된 물리 기반 벤치마크에서도 경쟁력 있는 성능을 보입니다.
FEP+4: IsoDDE r=0.85 vs FEP+ r=0.78
OpenFE: IsoDDE r=0.73 vs OpenFE r=0.72
CASP16: IsoDDE r=0.75로 다른 ML 및 물리 기반 방법 초과
저자들은 "물리 기반 방법은 종종 결정 구조(crystal structure)를 초기 입력으로 사용하는 이점이 있음에도 불구하고 IsoDDE가 상회했다"고 강조합니다. 또한 "전통 물리 기반 워크플로의 계산 오버헤드 없이" 이러한 성능을 달성했다고 주장합니다.
다만, 계산 비용에 대한 정량적 비교(wall-clock time, 자원 사용량 등)는 제시되지 않아, 비용 절감의 정도는 명확히 파악하기 어렵습니다.

Binding affinity - 유사도 구간별 강건성과 GPR3 사례

Figure 10. IsoDDE 성능 분석. 왼쪽: 리간드 유사도 구간별 안정성. 오른쪽: GPR3 작용제 사례(r=0.82).
Figure 10(왼쪽)는 새로운 화학 공간 유사도 구간에 따른 성능 변화를 보여줍니다. IsoDDE는 유사도가 낮은 구간에서도 비교적 안정적인 상관관계를 유지합니다. 이 그림은 예측 친화도와 실험 친화도 사이의 피어슨 상관계수(r)가 유사도 구간에 따라 어떻게 변하는지를 보여줍니다. IsoDDE는 저유사도 구간에서도 안정적인 r=0.55 수준을 유지합니다.
GPR3 사례(Figure 10, 오른쪽)에서는 실험값과 예측값이 r=0.82의 높은 상관을 보여, 특정 타깃에서의 우수한 랭킹 능력을 보여주는데요, 이 GPR3 사례가 특히 의미 있는 이유는 다음과 같습니다. GPR3는 구성적 활성(constitutively active) 수용체로, 작용제/역작용제가 거의 알려져 있지 않아 약리학적 연구가 제한적이었던 "orphan-like" GPCR입니다. Gay et al. (2023)은 diphenyleneiodonium(DPI) 스캐폴드 기반의 GPR3 작용제를 개발하면서, 호몰로지 모델링으로 π-π 및 π-cation 상호작용이 풍부한 결합 부위를 찾아냈고, MMGBSA 자유 에너지 분석과 실험 EC50 간의 상관관계를 확인했습니다. 즉, 이 타깃은 구조 정보가 부족하고 기존 리간드 데이터도 희박한 전형적인 "first-in-class" 상황입니다. IsoDDE가 이런 상황에서 r=0.82라는 높은 상관관계를 달성했다는 것은, 학습 데이터에 거의 의존할 수 없는 새로운 타깃에서도 친화도 랭킹이 가능함을 시사합니다

Binding affinity - 해석상 주의점

저자들도 인정하듯이, time-split 만으로는 "학습 세트와 극도로 유사한 화합물"의 존재를 완전히 배제하지 못합니다. 동일 타깃 내 화학 시리즈 확장(계열 확장)으로 인한 편향 가능성이 남아 있으며, scaffold/assay 레벨의 추가 분할은 수행되지 않았습니다. 또한, 평가 지표가 Pearson r에 집중되어 있어 MAE, RMSE, 스피어먼 순위상관 등 보조 지표와 절대 오차 개선에 대한 정보는s 부족합니다.

Pocket identification - 벤치마크 구성과 평가 방법

포켓 식별 태스크에서 IsoDDE는 리간드 정보 없이 단백질 서열만으로 각 잔기가 리간드 결합에 관여할 확률을 예측합니다. 평가에서는 리간드로부터 5Å 이내의 잔기를 "포켓 잔기"로 정의하고, 이를 얼마나 잘 랭킹하는지를 AUPRC로 측정합니다.
비교 대상인 P2Rank도 IsoDDE가 예측한 동일한 구조를 입력으로 사용했습니다. 이는 입력 구조 품질 차이로 인한 영향을 통제하기 위함입니다.

Pocket identification - 주요 결과

Figure 11. IsoDDE가 P2Rank를 능가하며, cryptic pocket도 식별 가능.
전체 데이터셋에서 IsoDDE는 AUPRC 0.75를 달성했습니다. P2Rank(0.51)의 약 1.5배, 무작위 기준선(0.16)의 약 4.7배입니다.
Cryptic pocket subset에서는 AUPRC가 0.63으로 다소 낮아지지만, 여전히 P2Rank(0.40)를 큰 폭으로 상회합니다. 이는 리간드 결합 없이는 드러나지 않는 숨겨진 포켓까지 어느 정도 탐지할 수 있음을 시사합니다.

Pocket identification - Cereblon (9SFM) 회고 분석

Figure 12. Cereblon(CRBN) 신규 cryptic site 회고 분석. IsoDDE가 서열만으로 위치 예측.
Cereblon은 분자 접착제(molecular glue) 약물의 핵심 표적입니다. 저자들은 9SFM 구조를 사례로 들어, IsoDDE가 리간드 정보 없이 서열만으로 cryptic pocket 위치를 사전에 예측했음을 보여줍니다. 이후 리간드를 포함한 코폴딩(cofolding)을 수행하면 실험 구조와 일치하는 결합 포즈가 얻어집니다.
흥미로운 점은 P2Rank의 경우 holo 구조(리간드가 결합된 구조)가 형성된 후에야 해당 위치의 확률이 올라간다는 것입니다. 즉, IsoDDE는 구조 변화 전에도 잠재적 결합 가능성을 포착하는 반면, P2Rank는 이미 열린 포켓에서만 탐지가 가능합니다.

Pocket identification - PanDDA soaking 실험과의 일치도

Figure 16. Pocket identification을 통한 ligandable space의 확장. PDB/PanDDA recall: P2Rank 0.83/0.33, IsoDDE 1.0/0.73.
저자들은 전향적(prospective) PanDDA fragment soaking 실험과 IsoDDE 포켓 예측의 정합성도 보고합니다. 리콜 0.73으로, IsoDDE가 예측한 포켓 신호가 실제 프래그먼트 결합 위치와 상당 부분 일치했습니다.

Pocket identification - 해석상 주의점

포켓 식별에서 IsoDDE의 구조 예측 모듈과 포켓 예측 모듈이 동일한 표현(representation)을 공유할 경우, 결합 편향(coupling bias)이 발생할 가능성이 있습니다. 외부 구조를 입력으로 사용한 대조 실험이나 표현 독립성 검증은 제시되지 않았습니다.

5. 논의

연구의 강점

이 연구의 가장 두드러진 강점은 학습 분포 밖(OOD) 상황에서의 실질적 일반화 능력입니다. Runs N' Poses의 최저 유사도 구간(0-20]에서 50% 성공률은 AF3의 23.3%를 크게 상회하며, cryptic pocket 개방, 유도 적합 현상을 정확히 포착했습니다 (Figure 3). FoldBench 세 범주 모두에서 1위를 차지했고, 항체-항원 인터페이스에서 AF3 대비 2.3배, Boltz-2 대비 19.8배 향상을 보였습니다 (Figure 6). FEP+에서 r=0.85 vs 0.78로 물리 기반 방법과 경쟁력 있는 친화도 예측 성능도 보였습니다 (Figure 9).

한계점

1. 방법론 세부의 비공개
아키텍처, 학습 믹스, 손실 함수, 하이퍼파라미터 등 핵심 설계 요소가 공개되지 않았습니다. "아키텍처와 학습 개선"이 일반화 향상의 원인이라고 주장하지만, 이를 검증할 방법이 없습니다. 템플릿 정책, 시드 수, 신뢰도 랭킹 전략 등의 기여도를 분리하는 ablation 실험도 제시되지 않았습니다. 추가적으로, 코드, 모델 가중치, 상세 프로토콜이 공개되지 않아 외부 연구자가 결과를 재현하거나 독립적으로 검증하기 어렵다는 한계가 있습니다.
2. 친화도 평가의 제한점
피어슨 상관계수 중심의 보고는 랭킹 능력을 평가하기에 적합하지만 (상대적인 친화도 비교), MAE/RMSE 같은 절대 오차 지표가 없어 "실험급 정밀도" 달성 여부는 아직은 판단하기 어렵습니다. 또한 time-split 만으로는 동일 타깃 내 계열 확장 편향을 완전히 배제하지 못한다는 제한점이 분명히 존재합니다.
3. 적용 경계 조건의 제한
벤치마크 구성에서 리간드 크기(6-40 heavy atoms), 허용 원소군, 점유율 등의 제약을 두었습니다. Metal cofactor, macrocycle, 다중 리간드, 삼자 복합체, 비표준 아미노산, post-translational modification(PTM) 등 복잡한 경계 조건에서의 성능이나 실패 사례는 보고되지 않았습니다.
4. FoldBench 비교의 공정성 이슈
Table 1의 외부 모델 결과는 FoldBench 웹사이트나 논문에서 인용한 것으로, 동일한 template 사용 전략이 적용되었는지 확인할 수 없습니다. IsoDDE에는 2023년 1월 1일까지 템플릿 제공을 명시했지만, 다른 모델의 평가 조건들도 같은 조건인지는 보장되지 않습니다.

6. 결론

IsoDDE는 구조 예측, 결합 친화도 예측, 포켓 식별이라는 약물 설계의 세 가지 핵심 과제를 하나의 통합 시스템에서 다루려는 시도입니다. 특히 학습 분포 밖의 어려운 사례들에서 기존 모델(AF3, Boltz-2) 대비 큰 폭의 성능 향상을 보고했습니다.
핵심 기여를 요약하면 다음과 같습니다.
1.
일반화된 구조 예측: Runs N' Poses 최저 유사도 구간에서 AF3 대비 2배 이상의 성공률(50% vs 23.3%), 유도 적합과 cryptic pocket 개방 사례의 성공적 모델링
2.
친화도 정량 랭킹: 물리 기반 FEP+ 대비 우위(r=0.85 vs 0.78)하며, 다양한 단백질 클래스에서 안정적 성능
3.
포켓 발굴 능력: P2Rank 대비 AUPRC 1.5배(0.75 vs 0.51), cryptic pocket 서브셋에서도 우위 유지
다만, 방법론 세부의 비공개, ablation study의 부재, 재현성 검증 불가 등은 학술적 관점에서 아쉬운 점입니다. "AF3 이후 첫 단계적 도약"이라는 주장을 완전히 받아들이기 위해서는 외부 연구자에 의한 독립적 검증이 필요할 것입니다. 실무적 관점에서는, 포켓 식별 → 구조 예측(코폴딩) → 친화도 랭킹의 워크플로가 특히 first-in-class 타깃이나 항체 설계에서 유용할 수 있어 보입니다. 잘 calibration 된 confidence score를 활용해 상위 예측을 우선 실험하는 전략도 합리적으로 보입니다. 향후에는 공개 벤치마크에서의 대대적인 검증, 추가적인 실험 캠페인을 통한 실전 검증, 그리고 커뮤니티와의 협력을 통한 재현성 확보가 본 모델, IsoDDE의 영향력을 결정짓는 중요한 요소가 될 것입니다. 물론, 전략적인 선택으로 모델의 세부사항을 오랜 시간동안 공개하지 않을 수도 있겠죠. Isomorphic labs의 판단이 궁금해집니다.