Search
Duplicate

단백질 구조 데이터 획득을 위한 PISCES 서버 사용법

PISCES: a protein sequence culling server

Protein Data Bank (PDB)로부터, sequence identity cutoff와 structural quality 기준을 바탕으로 단백질 서열 및 구조 데이터셋을 구성해주는 서버이다.
PSI-BLAST를 써서 sequence identity가 계산되어 있어서, 단순 BLAST보다 distant homology relationship을 더 잘 포착한다.
일주일 주기로 PDB sequence들이 업데이트 된다.

PISCES 서버를 이용한 데이터셋 구성 방법

2.
원하는 sequence identity cutoff과 resolution 기준을 선택한다.
3.
Download PDB file를 클릭하여 구성된 데이터셋을 다운받는다.

예시 1

다음과 같은 조건으로 데이터셋을 한번 구성해 보았다. 얼마나 많은 구조를 쓸 수 있을까?
Sequence percentage identity
<= 30%
Sequence chain length
40 ~ 10000
Resolution
0.0 ~ 2.0
R-factor value
0.25
X-ray entries
include
EM entries
exclude
NMR entries
exclude
Allow chain breaks
yes
Allow disorder
yes
Print seqids
no
→ 결과: 11,415개의 chain을 얻는다.
List of PDB chains
cullpdb_pc30.0_res0.0-2.0_len40-10000_R0.25_Xray_d2023_03_30_chains11415.fasta.txt
4602.1KB
FASTA
cullpdb_pc30.0_res0.0-2.0_len40-10000_R0.25_Xray_d2023_03_30_chains11415.txt
501.7KB

예시 2)

Sequence percentage identity
<= 30%
Sequence chain length
40 ~ 10000
Resolution
0.0 ~ 1.0
R-factor value
0.25
X-ray entries
include
EM entries
exclude
NMR entries
exclude
Allow chain breaks
yes
Allow disorder
yes
Print seqids
no
→ 결과: 351개의 chain을 얻는다.
List of PDB chains
cullpdb_pc30.0_res0.0-1.0_len40-10000_R0.25_Xray_d2023_03_30_chains351.txt
15.5KB
FASTA
cullpdb_pc30.0_res0.0-1.0_len40-10000_R0.25_Xray_d2023_03_30_chains351.fasta.txt
116.8KB

예시 3)

Sequence percentage identity
<= 30%
Sequence chain length
40 ~ 10000
Resolution
0.0 ~ 2.0
R-factor value
0.25
X-ray entries
include
EM entries
exclude
NMR entries
exclude
Allow chain breaks
no
Allow disorder
yes
Print seqids
no
→ 결과: 9471개의 chain을 얻는다.

예시 4)

Sequence percentage identity
<= 30%
Sequence chain length
40 ~ 10000
Resolution
0.0 ~ 1.5
R-factor value
0.25
X-ray entries
include
EM entries
exclude
NMR entries
exclude
Allow chain breaks
no
Allow disorder
yes
Print seqids
no
→ 결과: 3615개의 chain을 얻는다.
List of PDB chains
cullpdb_pc30.0_res0.0-1.5_noBrks_len40-10000_R0.25_Xray_d2023_03_30_chains3615.txt
158.9KB
FASTA
cullpdb_pc30.0_res0.0-1.5_noBrks_len40-10000_R0.25_Xray_d2023_03_30_chains3615.fasta.txt
1355.6KB

High-resolution protein structure를 얻고자 하면, resolution cutoff를 얼마로 주는 게 보통일까?

PDB 101에서는 1.0A를 기준으로 삼고 있다.

References