Search
Duplicate
🛠️

Transcript-Gene mapping 만들기

Transcriptome에 mapping하는 kallisto나 salmon 등의 tool 결과를 가지고 tximport를 사용하여 gene 단위의 DEG 분석을 하기 위해서는 transcript ID → gene ID 로의 mapping table이 필요하다.
이는 R의 GenomicFeatures 패키지를 활용하는 transcript DB를 쓰면 되는데, 보통 이런 bioconductor 패키지들은 TxDb.Mmusculus.UCSC.mm10.ensGene 같이 이름이 붙여져 있다. 필요한 organism과 genome version, gene ID version 등을 잘 보고 원하는 패키지를 다운로드하여 사용하자.

Installation

conda install -c bioconda bioconductor-txdb.mmusculus.ucsc.mm10.ensgene
Shell
복사

Quick Start

library(TxDb.Mmusculus.UCSC.mm10.ensGene) txdb = TxDb.Mmusculus.UCSC.mm10.ensGene # Select 함수는 txdb에 select query를 날리는 것 같이 쓰면 되는데, # keys argument로 key로 사용할 값들을 넘겨주고, keytype에서 그 key가 어떤 column의 값들인지 # 정해주면 된다. # 결과값들로 key-values mapping을 얻는데, values의 값들로는 columns에서 정해준 값들만 나온다. # select만 실행하면 'GENEID', 'TXNAME' 순으로 구성된 DataFrame이 나오기 때문에, # column 순서를 바꾸어 주었다. 우리가 원하는 건 transcript -> gene mapping이니까.. tx2gene = select(txdb, keys=keys(txdb), columns="TXNAME", keytype="GENEID")[,c('TXNAME', 'GENEID')]
R
복사

Results

head(tx2gene)
R
복사
Search
tx2gene mapping table
TXNAME
GENEID
ENSMUSG00000000003
ENSMUSG00000000003
ENSMUSG00000000028
ENSMUSG00000000028
ENSMUSG00000000028