IntelliFold2 release note 리뷰
들어가며
AlphaFold3 이후 biomolecular structure prediction 경쟁은 조금 다른 국면으로 들어갔습니다. 이제 질문은 단순히 protein monomer를 얼마나 잘 맞히는지가 아닙니다. Protein-protein complex, antibody-antigen interface, protein-ligand pose, protein-RNA/DNA interaction을 하나의 all-atom framework 안에서 얼마나 안정적으로 예측할 수 있는지가 중요해졌습니다.
IntelliFold2는 IntelliGen AI가 2026년 bioRxiv에 올린 짧은 release note입니다. 제목은 “IntelliFold-2: Surpassing AlphaFold 3 via Architectural Refinement and Structural Consistency”입니다. 제목은 공격적이지만, 본문은 5쪽짜리 update note에 가깝습니다. Pairformer latent capacity scaling, revised atom attention, stochastic atomization, PPO-guided diffusion sampling, difficulty-aware loss reweighting을 묶어 FoldBench의 antibody-antigen과 protein-ligand category에서 AlphaFold3보다 강한 결과를 주장합니다.
이 글에서는 IntelliFold2를 binder generation이나 antibody design 논문이 아니라, post-AF3 structure prediction infrastructure update로 다룹니다. 따라서 성능 수치는 design success가 아니라 evaluator/filter infrastructure의 후보 성능으로 보겠습니다. Antibody-antigen DockQ나 protein-ligand pose metric이 좋아졌다는 말은 downstream design pipeline의 evaluator/filter 선택에는 의미가 있습니다. 그러나 이 release note는 designed binder의 binding assay, affinity, specificity, developability, functional validation을 보고하지 않습니다.
AF3 이후 경쟁의 초점
AlphaFold3는 protein, nucleic acid, ligand, ion 같은 다양한 biomolecular component를 하나의 all-atom prediction framework 안에 넣었습니다. 이 구조는 이후 open-source 또는 open-ish predictor 경쟁의 기준점이 되었습니다. Boltz-1, Chai-1, Protenix-v1, SeedFold, IntelliFold 계열은 모두 조금씩 다른 방식으로 AF3-style architecture와 benchmark를 따라가거나 변형합니다.
이 경쟁에서 핵심은 “AF3를 재현했는가”만이 아닙니다. 어떤 category에서 어떤 metric을 개선했는지, inference sampling budget은 어떻게 잡았는지, open checkpoint와 server-side model claim이 어디서 갈라지는지, benchmark가 wet-lab design success와 얼마나 떨어져 있는지를 같이 보는 편이 정확합니다.
IntelliFold2는 이 흐름에서 hard category를 겨냥한 update로 보입니다. Release note는 antibody-antigen interaction과 protein-ligand co-folding을 전면에 둡니다. 이 두 category는 drug discovery 맥락에서 매력적입니다. Antibody/VHH design에서는 interface pose prediction이 후보 filtering에 중요하고, protein-ligand co-folding은 pocket geometry와 ligand pose plausibility를 보는 데 쓰일 수 있습니다.
세 가지 variant: Flash, v2, Pro
IntelliFold2는 세 variant로 나뉩니다.
IntelliFold-2-Flash는 12 standard Pairformer blocks를 쓰는 빠르고 효율적인 model입니다. Release note는 academic use와 fine-tuning을 염두에 둔 variant로 설명합니다. IntelliFold-2는 48 widened Pairformer blocks와 latent space scaling을 쓰는 open-source flagship에 가깝습니다. IntelliFold-2-Pro는 server-side flagship입니다. 모든 architectural improvement에 PPO-enhanced sampling과 Difficulty-Aware Loss optimization을 더한 high-precision variant로 설명됩니다.
이 구분은 리뷰에서 매우 중요합니다. GitHub/Hugging Face README는 v2와 v2-flash의 code/model parameter availability, PyPI inference, Apache 2.0 license를 말합니다. 반면 v2-Pro는 server-side access입니다. 따라서 “open-source IntelliFold2가 AlphaFold3를 넘었다”와 “server-side Pro model까지 포함한 FoldBench result가 특정 category에서 강하다”는 서로 다른 문장입니다.
짧은 release note만으로는 Figure 1의 각 수치가 local v2, v2-Pro, 또는 특정 aggregation setup과 어떻게 대응하는지 충분히 투명하지 않습니다. 이 불투명성은 이 글 전체에서 가장 큰 해석상 주의점입니다. 공개 글에서는 variant와 access level을 분리해두는 것이 좋습니다.
Pairformer latent capacity scaling
첫 번째 technical change는 Pairformer latent capacity scaling입니다. Release note는 이전 hidden dimension이 representational capacity와 computational efficiency를 동시에 bottleneck했다고 말합니다. 해결책은 Pairformer block 내부 latent representation dimensionality를 키우는 것입니다. Release note는 이것이 complex biological interaction을 포착하는 capacity를 늘리고, arithmetic intensity를 높여 modern GPU에서 Model FLOPs Utilisation, 즉 MFU를 개선한다고 설명합니다.
이 지점은 SeedFold와 직접 연결됩니다. SeedFold도 Pairformer depth보다 width/capacity가 병목일 수 있다고 보고, Pairformer width scaling을 핵심 recipe로 제시했습니다. IntelliFold2 release note는 SeedFold보다 훨씬 짧지만, post-AF3 predictor scaling이 어디로 움직이는지 보여주는 사례입니다.
구조 예측에서 pair representation은 단순한 중간 feature가 아닙니다. Antibody-antigen interface, ligand pocket, protein-RNA contact는 모두 token-token relation에 민감합니다. Pairformer latent를 키운다는 것은 이런 interaction representation의 bandwidth를 넓히는 선택입니다. 다만 release note에는 width scaling의 상세 ablation이나 category별 breakdown이 충분히 들어 있지 않습니다.
Atom attention과 stochastic atomization
두 번째 변화는 atom-level representation입니다. IntelliFold2는 atom attention mechanism을 더 principled formulation으로 수정해 training과 inference에서 robust하고 self-consistent한 model behaviour를 얻었다고 설명합니다. 여기에 atom-level tokenization을 stochastic하게 적용하는 stochastic atomization을 더합니다. 목적은 fine-grained atomic interaction에 대한 robustness를 높이는 것입니다.
이 설명은 방향성은 분명하지만 세부 구현은 제한적으로 공개되어 있습니다. 어떤 atomization schedule을 썼는지, token granularity가 어떻게 바뀌는지, attention window와 pair bias가 어떻게 조합되는지, 어떤 loss term이 직접 기여했는지는 release note만으로는 알기 어렵습니다.
그래서 이 부분은 “atom-level/local representation consistency를 개선하려는 recipe”로 정리하는 편이 적절합니다. Protein-ligand pose나 antibody-antigen interface에서는 local atom contact가 global fold만큼 중요합니다. IntelliFold2가 atom attention과 stochastic atomization을 강조하는 이유도 여기에 있습니다.
PPO-guided diffusion sampling
가장 특이한 claim은 PPO-guided diffusion sampling입니다. IntelliFold2-Pro는 diffusion sampler를 stochastic policy로 보고, Proximal Policy Optimization을 적용했다고 설명합니다. 목표는 structurally coherent and physically plausible conformation으로 이어지는 trajectory를 장려하고, clipped PPO objective로 unstable 또는 low-quality trajectory를 억제해 random sampling failure를 줄이는 것입니다.
이 아이디어는 흥미롭습니다. AF3-style predictor에서 structure module은 diffusion-style sampling을 사용합니다. 같은 network라도 sampling trajectory와 ranking strategy에 따라 benchmark 결과가 달라질 수 있습니다. 여기에 policy optimization을 넣는다는 것은 prediction model에서도 inference-time behavior를 직접 tuning하는 방향에 가깝습니다.
하지만 release note가 제공하는 evidence는 high-level description과 FoldBench result에 가깝습니다. PPO reward definition, training protocol, sampling budget, ablation, failure-type breakdown은 자세히 공개되어 있지 않습니다. 따라서 “PPO가 어떤 물리적 target을 최적화했고 어떤 failure mode를 줄였는가”까지 구체적으로 말하기는 어렵습니다. 현재 공개 자료에서는 “server-side Pro variant가 PPO-guided sampling을 사용한다고 주장한다” 정도가 안정적입니다.
Difficulty-aware loss reweighting
IntelliFold2-Pro의 또 다른 claim은 difficulty-aware loss reweighting입니다. Release note는 focal-loss-style reweighting을 사용해 easy samples를 down-weight하고, flexible loops와 ambiguous side-chain configurations 같은 hard regions에 더 많은 gradient signal을 준다고 설명합니다. 목적은 structurally complex target에서 accuracy를 높이고 optimization dynamics를 안정화하는 것입니다.
이 방향은 antibody-antigen과 protein-ligand category 강조와 잘 맞습니다. Antibody CDR loop, flexible interface, ligand pocket side chain은 쉬운 monomer core보다 예측이 어렵습니다. 같은 평균 loss를 줄이는 것보다 hard region에 더 많은 weight를 주는 전략이 효과적일 수 있습니다.
다만 이 부분도 release note에서는 수식과 ablation이 제한적입니다. Difficulty-aware loss가 정확히 어떤 region/task에 얼마나 기여했는지, v2와 v2-Pro 사이에서 어느 정도 차이를 만들었는지는 추가 자료 없이는 분해하기 어렵습니다.
Data curation과 self-distillation
Release note는 PDB dataset을 updated pipeline으로 재처리했고, self-distillation dataset의 규모와 분포를 최적화했다고 말합니다. 목적은 high-fidelity supervisory signal과 complex target generalization입니다.
Self-distillation은 post-AF3 predictor 경쟁에서 반복되는 재료입니다. SeedFold는 AFDB와 MGnify 기반 distillation data를 크게 사용했고, Protenix-v1도 open AF3-style predictor로서 data curation과 benchmark protocol을 강조했습니다. IntelliFold2도 같은 흐름 위에 있습니다.
이때 distillation data는 experimental ground truth와 분리해두는 것이 좋습니다. Predicted structure는 model training에 강한 prior를 줄 수 있지만, PDB experimental structure와 같은 evidence layer는 아닙니다. 특히 benchmark claim을 볼 때는 data cutoff, leakage control, self-distillation source, FoldBench split이 어떻게 정리됐는지가 중요합니다. IntelliFold2 release note는 이 정보를 길게 제공하지 않습니다.
FoldBench headline: Ab-Ag와 protein-ligand
IntelliFold2의 핵심 evidence는 FoldBench입니다. Figure 1 caption은 IntelliFold-2 v2와 v2-Pro가 AlphaFold3보다 antibody-antigen interaction과 protein-ligand co-folding에서 significant lead를 보인다고 설명합니다. Success 기준은 antibody-antigen에서 DockQ > 0.23, protein-ligand에서 lRMSD < 2 Å and LDDT-PLI > 0.8입니다. ABAG v2-model results는 5 runs aggregation이라고 적혀 있습니다.
이 metric은 structure/pose prediction metric입니다. DockQ success는 interface pose plausibility이고, lRMSD와 LDDT-PLI는 ligand pose와 local interaction geometry를 보는 proxy입니다. Antibody가 실제로 binding하는지, ligand가 functional modulation을 일으키는지, specificity나 developability가 어떤지는 이 metric만으로 알 수 없습니다.
그래도 FoldBench hard category에서 improvement를 주장한다는 점은 의미가 있습니다. Structure predictor는 design pipeline의 후반부에서 generated candidates를 filter하거나 pose를 sanity-check하는 데 쓰입니다. Ab-Ag와 protein-ligand category에서 더 안정적인 predictor가 나오면, downstream pipeline의 candidate triage에도 영향을 줄 수 있습니다.
Table 1이 말하는 것
Table 1은 monomer와 일부 interaction system을 비교합니다. Protein monomer LDDT는 AlphaFold3 0.88, IntelliFold-1 0.88, IntelliFold-2-Flash 0.88, IntelliFold-2 0.89입니다. 거의 동률에 가깝습니다. RNA monomer LDDT는 AlphaFold3 0.61, IntelliFold-1 0.63, IntelliFold-2-Flash 0.55, IntelliFold-2 0.58입니다. 여기서는 AlphaFold3가 IntelliFold-2보다 높습니다.
Protein-protein DockQ > 0.23은 AlphaFold3 72.9%, IntelliFold-1 72.9%, IntelliFold-2-Flash 73.6%, IntelliFold-2 71.9%입니다. IntelliFold-2-Flash는 조금 높지만, IntelliFold-2는 AlphaFold3보다 낮습니다. Protein-RNA DockQ > 0.23은 AlphaFold3 62.3%, IntelliFold-1 58.9%, IntelliFold-2-Flash 56.5%, IntelliFold-2 68.3%로 IntelliFold-2가 높습니다.
이 table은 headline을 한 단계 낮춰 보게 만듭니다. IntelliFold2가 모든 category에서 AlphaFold3를 전면적으로 압도하는 것은 아닙니다. Release note의 stronger claim은 Figure 1의 antibody-antigen과 protein-ligand category에 집중되어 있습니다. 공개 글에서는 “Surpassing AlphaFold3”라는 제목보다 category와 metric을 붙인 문장으로 정리하는 편이 정확합니다.
Figure 2: architecture와 algorithmic update
Figure 2는 IntelliFold2의 key architectural and algorithmic innovations를 요약합니다. Pairformer latent scaling, multiscale representation, PPO-guided diffusion sampling, difficulty-aware loss가 하나의 update package로 제시됩니다.
이 figure에서 읽을 수 있는 것은 post-AF3 competition의 방향입니다. 새로운 task를 여는 것보다, 기존 AF3-style framework 안에서 capacity, atom-level consistency, sampling reliability, hard-example weighting을 조정합니다. 즉 IntelliFold2는 완전히 새로운 paradigm이라기보다, hard categories에서 성능을 끌어올리기 위한 architecture/sampler/loss tuning note에 가깝습니다.
이런 release note는 benchmark를 읽는 방식도 달라집니다. Full method paper처럼 architecture ablation이 풍부하지 않기 때문에, claim의 무게를 Figure headline만으로 판단하기 어렵습니다. 어떤 variant가 어떤 result를 냈는지, local checkpoint로 재현되는지, server-side Pro sampling이 얼마나 관여했는지를 따로 확인할수록 해석이 안정적입니다.
Open-source claim과 server-side claim 분리
IntelliFold2는 open-source를 강조합니다. Release note는 IntelliFold-2-Flash와 IntelliFold-2가 GitHub repository에서 available하다고 적고, IntelliFold-2-Pro는 Pro users용 online server에서 제공된다고 말합니다. GitHub/Hugging Face README clip은 `pip install intellifold`, `intellifold predict ... --model v2-flash`, supported model values `v1`, `v2`, `v2-flash`를 제시합니다. Code와 model parameters가 Apache 2.0 license로 제공된다는 설명도 있습니다.
이 부분은 장점입니다. AF3-style biomolecular predictor가 점점 open ecosystem으로 옮겨오고 있다는 신호입니다. 다만 benchmark claim과 reproducibility claim은 분리해두는 것이 좋습니다. v2-Pro가 server-side flagship이고, PPO-enhanced sampling과 difficulty-aware loss optimization을 포함한다고 설명되는 만큼, headline performance가 local open v2/v2-flash와 같은 층인지 확인이 필요합니다.
Implementation lineage도 눈에 띕니다. README는 fast layernorm operators가 OneFlow/FastFold에서 영감을 받았고, Protenix usage를 따른다고 적습니다. `intellifold/openfold/`의 many components는 OpenFold에서 adapted되었고, inference data pipeline은 Boltz-1, template pipeline은 Protenix를 참조했다고 설명합니다. Open-source predictor 생태계가 서로 코드를 재사용하며 빠르게 수렴하는 모습입니다.
Evidence가 말해주는 범위
IntelliFold2의 evidence는 세 층으로 나눌 수 있습니다.
첫 번째는 architecture/sampling/loss update claim입니다. Pairformer latent scaling, atom attention, stochastic atomization, PPO-guided sampling, difficulty-aware loss가 여기에 들어갑니다. 다만 release note가 짧아서 각 요소의 독립 기여도는 충분히 분해되어 있지 않습니다.
두 번째는 FoldBench structure-prediction benchmark입니다. Antibody-antigen DockQ, protein-ligand lRMSD/LDDT-PLI, protein-RNA DockQ, monomer LDDT가 이 층입니다. 이 결과들은 structure/pose prediction 성능을 말합니다.
세 번째는 downstream utility 가능성입니다. 더 나은 Ab-Ag interface prediction이나 protein-ligand pose prediction은 binder design, antibody design, small-molecule workflow의 filtering layer에 도움이 될 수 있습니다. 하지만 그것은 potential utility입니다. 이 release note 자체가 wet-lab design campaign을 보여주는 것은 아닙니다.
독자가 조심해서 볼 지점
첫째, 이 문서는 짧은 release note입니다. Full method paper처럼 detailed architecture equation, training schedule, ablation, data split, sampling budget, exact checkpoint mapping이 풍부하지 않습니다.
둘째, benchmark는 structure prediction evidence입니다. DockQ, lRMSD, LDDT-PLI는 interface pose와 ligand pose plausibility를 평가합니다. Binding affinity, specificity, functional activity, developability와는 다른 층입니다.
셋째, variant comparability가 중요합니다. v2-Flash, v2, v2-Pro가 분리되어 있고, v2-Pro는 server-side model입니다. Open local model claim과 server-side flagship result를 섞으면 과한 결론이 됩니다.
넷째, headline category와 Table 1 category가 다릅니다. Figure 1은 Ab-Ag/protein-ligand lead를 강조하지만, Table 1은 monomer, protein-protein, protein-RNA, RNA monomer 중심입니다. Table 1만 보면 category별로 엇갈립니다.
다섯째, self-distillation과 benchmark split caveat가 남습니다. Updated PDB curation과 expanded self-distillation은 유용한 training ingredient이지만, release note만으로 leakage/cutoff comparability를 깊게 평가하기는 어렵습니다.
평가: open AF3-style predictor 경쟁의 짧은 update
IntelliFold2는 긴 method paper라기보다, AF3 이후 open/server-hybrid predictor 경쟁이 어디로 가는지 보여주는 짧은 signal에 가깝습니다. Pairformer capacity를 키우고, atom-level consistency를 다듬고, diffusion sampling을 policy-guided 방식으로 보정하고, hard examples에 더 많은 loss weight를 주는 방향입니다. 이 네 가지는 모두 antibody-antigen과 protein-ligand처럼 hard interaction category를 겨냥합니다.
좋은 점은 방향성이 분명하다는 것입니다. Predictor 성능 개선이 단순히 더 큰 model 하나로 끝나지 않고, representation capacity, atom-level modeling, sampler reliability, loss weighting이 함께 움직입니다. SeedFold의 width scaling, Protenix-v1의 open benchmark/evaluator framing, Boltz-1 계열의 open AF3-style reproduction과 나란히 놓으면, AF3 이후 생태계가 빠르게 구체화되는 모습이 보입니다.
조심할 점도 분명합니다. “Surpassing AlphaFold3”라는 제목을 그대로 받아들이기보다, FoldBench의 어떤 category에서 어떤 metric으로, 어떤 variant가, 어떤 access level에서 그런 결과를 냈는지 확인하는 것이 좋습니다. IntelliFold2는 design/generation paper가 아니고, wet-lab validation paper도 아닙니다. 현 시점에서 가장 안정적인 표현은 “IntelliGen AI가 FoldBench의 antibody-antigen/protein-ligand category에서 AF3보다 강한 결과를 주장하는 open/server-hybrid structure prediction update”입니다.
참고
- Release note: “IntelliFold-2: Surpassing AlphaFold 3 via Architectural Refinement and Structural Consistency” - Authors: Lifeng Qiao, He Yan, Gary Liu, Gaoxing Guo, Siqi Sun - Organization: IntelliGen AI - Posted: bioRxiv, 2026-02-10 - DOI: https://doi.org/10.64898/2026.02.09.704787 - GitHub: https://github.com/IntelliGen-AI/IntelliFold - Hugging Face: https://huggingface.co/intelligenAI/intellifold - Server: https://server.intfold.com - Related: AlphaFold3, FoldBench, Protenix-v1, SeedFold, Boltz-1, Chai-1