一、MSigDB是什么
MSigDB(The Molecular Signatures Database)是一個(gè)基因集數(shù)據(jù)庫,包含了多種功能注釋的基因集,它是一個(gè)支持生物信息學(xué)數(shù)據(jù)分析的開放資源平臺(tái)。MSigDB是基于公開可得的基因表達(dá)數(shù)據(jù)而建立的,主要用于啟發(fā)式的生物標(biāo)記物,新藥靶點(diǎn)發(fā)現(xiàn)和機(jī)制解釋等研究。MSigDB還提供了用于分析基因表達(dá)數(shù)據(jù)集的工具和算法。
二、MSigDBR
MSigDBR是一個(gè)針對MSigDB的R語言包,可用于下載、管理和提取MSigDB的數(shù)據(jù)。該R包可以對52種Human MSigDB集合和18種 Mouse MSigDB集合進(jìn)行下載和管理,以及快速的基因集分析,使得用戶可以很方便的使用MSigDB數(shù)據(jù)庫中的基因集來進(jìn)行分析研究。
三、MSigDB查找基因集
用戶可以通過MSigDB官網(wǎng)的搜索功能輕松的查找到自己所需要的基因集,也可以通過R語言編寫代碼進(jìn)行查詢。以下是通過代碼獲取TP53(一種與癌癥相關(guān)的基因)基因集的示例:
library(MSigDBR)
tp53_list <- query(msigdbi = msigdb$path, gene_sets = 'TP53', gene_set_type = 'C2')
head(tp53_list$gs)
結(jié)果返回ID號(hào)和所有與TP53基因相關(guān)的基因集的名稱。此時(shí)可以通過ID號(hào)查找基因集內(nèi)的具體基因名稱,或者利用函數(shù)mapping來得到其他基因ID(如示例代碼中使用mapping(name=tp53_list$gs[1], msigdbi=msigdb$path)獲取該基因集中每個(gè)基因的Symbol等)。
四、MSigDB數(shù)據(jù)庫官網(wǎng)
MSigDB官網(wǎng)提供了便捷的數(shù)據(jù)查詢、下載和資源文檔,網(wǎng)址為https://www.gsea-msigdb.org/gsea/msigdb/index.jsp。可以直接通過該網(wǎng)站檢索自己感興趣的基因集,除此之外,官網(wǎng)還提供了一些其他工具和資源進(jìn)行生物信息學(xué)分析。
五、MSigDB數(shù)據(jù)庫小鼠
除了對人類基因的注釋,MSigDB還注釋了小鼠的基因,包含大量的小鼠基因集,支持小鼠數(shù)據(jù)的生物信息學(xué)研究,數(shù)據(jù)來源于鼠基因注釋數(shù)據(jù)庫(MGI)。搭配使用Mouse MSigDB和Human MSigDB可以得到更全面的研究結(jié)果。
六、MSigDB查找代謝基因集
MSigDB還注釋了代謝相關(guān)的基因集,其中包括如KEGG、REACTOME等公共數(shù)據(jù)庫,這對于代謝學(xué)研究是非常有價(jià)值的。以下是利用R語言查詢KEGG中代謝與葡萄糖代謝相關(guān)的基因集的示例:
kg <- msigdbKEGG(msigdbi = msigdb$path)
kegg_genes <- query(msigdbi = msigdb$path, gene_sets = 'KEGG_GLUCOSE_METABOLISM', gene_set_type = 'C2')
kegg_genes <- kegg_genes$gs[[1]]
kegg_genes <- mapping(name=kegg_genes, msigdbi=msigdb$path, toSymbol=T, destdir=NULL, geneColumn=2, proteinColumn=NULL)
以上是基于MSigDBR對MSigDB的一些簡單介紹,它們的使用可以顯著的提高生物信息學(xué)研究的效率及準(zhǔn)確性。