19个常用数据库盘点 | 用数据库轻松预测分子之间相互作用

分子之间相互作用是细胞内分子间通讯的重要方式之一。它涉及蛋白质与蛋白质、蛋白质与核酸以及核酸与核酸之间的相互作用。这些相互作用可以影响细胞内的信号传递、基因表达调控、代谢调控等生物学过程。


除了实验验证分子之间相互作用,我们还可以用数据库预测分子之间相互作用。本文整理了蛋白-蛋白、RNA-蛋白、DNA-蛋白、RNA-RNA/DNA、化合物-蛋白5类分子互作常用的19个预测数据库(赶紧收藏好)!



一、蛋白-蛋白

蛋白与蛋白通过形成复合物(complex)来发挥作用,或者蛋白通过直接结合效应蛋白,影响效应蛋白的功能。


1)STRING

官网:https://string-db.org/

老牌的蛋白相互作用数据库,数据有保障。研究蛋白之间互作网络,有助于挖掘核心调控基因。覆盖物种最多,互作信息最大,可输入蛋白质名称或序列,单个或多个蛋白。


输入基因名称后,可以获得蛋白互作网络图,其中圆圈节点之间的直线代表该直线连接的两个蛋白之间的相互作用关系,点击直线可查看蛋白的详细信息。


不同颜色的直线代表不同的相互作用关系证据来源。包括蛋白质之间的直接物理相互作用,也包括蛋白质之间的间接功能相关性。它除了包含有实验数据、从PubMed摘要中挖掘的结果和综合其他数据库数据外,还有利用生物信息学的方法预测的结果。


2)IID

官网:http://iid.ophid.utoronto.ca/SearchPPIs/protein/

预测蛋白质-蛋白质相互作用,可以精确到器官特异性的蛋白相互作用数据库。


IID 收录了 18 个物种(包括人类、5 个模式生物和 12 个驯化物种)中检测到和预测到的蛋白质-蛋白质相互作用(PPIs)。


该数据库为蛋白互作注释了全面的信息,包括发生条件(如发育阶段、组织)、跨物种保护、方向性、可药用性、持续时间以及在由两个以上蛋白组成的蛋白复合物中的相互作用。


3)BioGRID

官网:https://thebiogrid.org/

存档和传播多个模式生物和人类的遗传和蛋白质相互作用的数据。


BioGRID是一个生物医学互动库,通过全面的管理工作汇编数据。目前的索引版本为4.4.235,检索了85,077篇出版物,其中包括2,785,606种蛋白质和遗传相互作用,31,144种化学相互作用和1,128,339种主要模式生物物种的翻译后修饰。所有数据都通过搜索索引免费提供,并以多种标准格式提供下载。


结果可以看到哪些基因具有相互作用以及基因之间相互作用是实验还是预测。


4)HPRD

官网:http://hprd.org/index_html

通过该数据库我们可以方便的查询某个蛋白的相互作用网络,但是对于多个蛋白间的相互作用网络,只能自己从下载的数据文件中处理得到。


HPRD全称Human Protein Reference Database, 是一个专门存储人类蛋白质相互作用信息的数据库,和其他同类数据库相比,HPRD中的所有信息都是由阅读、解释和分析已发表数据的专家生物学家从文献中手动提取的,该数据库中存储的蛋白质互作信息都是经过实验验证的,而且数量上有明显优势。


除了数据质量和数量上的优势,HPRD还提供了蛋白质的表达谱,分类,结构域,亚细胞定位,转录后修饰,通路等其他信息。


二、蛋白-DNA

即转录因子模式,转录因子含有DNA结合的结构域,能识别基因上游启动子中的特征DNA序列(motif),调控基因的转录,包括对编码基因mRNA、非编码RNA (miRNA,lncRNA,circRNA)等的转录调节。


1)JASPAR

官网:http://jaspar.genereg.net/

提供了转录因子与DNA结合位点motif最全面的公开数据。


JASPAR是一个开源的转录因子结合位点信息数据库,以position frequency matrices (PFMs) 和TF flexible models(TFFMs)的形式记录了6大类物种的转录因子的DNA结合偏好信息。


这些信息可以转换为位置权重矩阵(Position Weight Matrices,PWMs),可用于扫描基因组序列。核心数据库JASPAR CORE包含的物种类群主要包括vertebrata(脊椎动物),insecta(昆虫),nematoda(线虫),fungi(真菌),plantae(植物)和 urochordata(尾索动物)六大类。


2)Harmonizonme

官网:http://amp.pharm.mssm.edu/Harmonizome

直接提供了靶基因数据可在线浏览特定转录因子的靶基因外,还可以方便的下载该数据集。


Harmonizonme将数十年的研究成果提取并汇总到在线数据库中。为了方便访问和学习生物医学大数据,Harmonizome从80个在线资源提供的140个数据集中收集有关基因和蛋白质的信息,着重于定义基因和不同属性之间的关联,属性可以是基因、蛋白质、细胞系、组织、实验干预因素、疾病、表型或药物,并构建基因与基因和属性与属性的相似性网络。本文重点介绍转录因子和靶基因数据集。


3)TRRUST

官网:http://www.grnpedia.org/trrust/

一个人工管理的人类和小鼠转录调控网络数据库。目前版本的TRRUST分别包含800个人类TF和828个小鼠TF的8,444和6,552个TF-靶标调控关系。它们来自11,237篇

pubmed文章,这些文章描述了转录调控的小规模实验研究。为了有效地从超过2000万篇公开的文章中搜索监管关系,使用了基于文本的文本挖掘方法。TRRUST数

据库还提供了调节模式(激活或抑制)的信息。目前,有8,972个(59.8%)监管关系是已知的监管模式。


记录转录因子调控关系的数据库,包含转录因子对应的靶基因,以及转录因子间的调控关系。目前存储了人和小鼠调控信息。


4)AnimalTFDB

官网:http://bioinfo.life.hust.edu.cn/AnimalTFDB/#!/

根据某段基因序列预测结合的转录因子AnimalTFDB4.0对97个动物基因组的转录因子(Transcription Factor)和转录辅助因子(Transcription cofactor)进行了归纳整理。基于DNA结合结构域,将动物转录因子分成了73个基因家族,将转录辅助因子分成了83个基因家族。


此外,动物转录因子分为六大类(Basic Domain Group、Zinc-Coordinating Group、Beta-Scaffold Factors、Helix-turn-helix、Other Alpha-Helix Group和Unclassified Structure),动物转录辅助因子也分为六大类(Co-activator/repressors、Chromatin Remodeling Factors、General Cofactors、Histone-modifying Enzymes、Cell Cycle和Other Cofactors)。


5)hTFtarget

官网:http://bioinfo.life.hust.edu.cn/hTFtarget#!/

通过转录因子预测靶基因。


该数据库收录399种细胞系、129种组织或细胞和141种干预因素共569种条件下的7190个实验样本大规模ChIP-Seq数据中659个TFs相关信息。点击Document可看到hTFtarget中关于TFs靶基因数据是基于ChIP-Seq数据分析和TFBSs分析两方面的结果。



三、RNA-蛋白

RNA能够结合到蛋白上,影响蛋白的功能或者定位。同样,蛋白亦可以作用于RNA,影响RNA的功能。RNA结合蛋白(RBP)涉及许多生理和病理过程,其分子机制从剪接、定位和翻译缺陷到聚集体的形成。


1)catRAPID

官网:http://service.tartaglialab.com/page/catrapid_group


专门用来计算蛋白和RNA结合特性的工具,可以从RNA入手,或者蛋白入手,进行相应的预测。


做lncRNA研究,当你找不到可以和lncRNA结合miRNA,而你却想从ceRNA机制入手时,肯定想看看有没有些蛋白和lncRNA结合。catRAPID就是一个非常实用的RNA与蛋白结合预测网站,主要针对蛋白质与RNA相互作用的能力进行高精度预测。catRAPID是一个专门用来计算蛋白和RNA结合特性的工具,通过整合secondary structure, hydrogen bonding , van der Waals contributions来预测蛋白和RNA的结合可能性。


2)RBPDB

官网:http://rbpdb.ccbr.utoronto.ca/

直接预测与RNA作用的蛋白。


RBPDB是一个RNA结合蛋白的集合,与已发表的RNA结合观察结果的策展数据库相关联。


RBPDB中的数据分为两组:蛋白质和实验。每个实验都是观察DNA-蛋白质与单个序列(例如在凝胶位移或UC交联实验中)或多个序列(例如SELEX或RIP-芯片实验)的结合。每个实验都与单个RNA结合蛋白相关联。


RBPDB 可以通过多种不同方式进行搜索。可通过每页顶部的搜索框,按基因符号、名称或描述快速搜索蛋白质,按实验类型、序列或 PubMed ID 快速搜索实验。


3)RPISeq

官网:http://pridb.gdcb.iastate.edu/RPISeq/

输入RNA以及蛋白序列,分析两者是否存在相互作用的可能性。


RPISeq可以提交单个蛋白质和单个RNA序列进行分析。也可以提交单个蛋白质和多个RNA序列进行分析或是提交单个RNA和多个蛋白质序列进行分析。(多个序列请上传包含FASTA格式序列的文件批次提交)

输出页面显示蛋白质命中和相互作用RNA以及相互作用的参考。还提供了SwissProt、PRIDB、NPInter和其他获得这些相互作用的可用文献的链接。


4)RNAct

官网:http://rnact.crg.eu

该数据库不仅能针对单个RNA/蛋白进行检索,还支持同时检索多达10000个蛋白质-RNA对之间的相互作用。采用catRAPID算法, 预测结果比较靠谱。


RNAct目前覆盖了人类、小鼠和酵母的基因组,总共包含了58.7亿个成对相互作用,反映了CRG高性能计算集群上近120年的计算时间。它结合了实验确定的相互作用(例如从ENCODE)与从头预测,使RNA结合蛋白质组的全面覆盖。


结果页面显示了其基本信息与其互作的全部RNA,结果分为蛋白、RNA、预测和交互四大部分,数据可以直接下载。


四、RNA-RNA/DNA

RNA与RNA或者DNA间通过碱基互补配对来发挥作用。RNA既可以结合到DNA上,影响基因转录等功能;也可以结合到RNA上,在转录后水平影响RNA,比如miRNA对mRNA的调控等。


1)StarBase

官网:http://starbase.sysu.edu.cn/

Starbase 是通过对高通量的 CLIP-Seq 实验数据和降解组实验数据来搜寻到 micorRNA 靶标,为探讨 microRNA 的靶标提供了各式各样的可视化界面,该数据库容括了丰富的 miRNA-ncRNA、miRNA-mRNA、RBP-RNA 和 RNA-RNA 的数据。


2)TargetScan

官网:http://www.targetscan.org/vert_72/

一个miRNA 靶基因预测的网站,包括了人,小鼠,果蝇,线虫,斑马鱼,共5个物种的miRNA靶基因结果。


TargetScan是一款预测miRNA结合位点的软件,对于哺乳动物中miRNA结合位点预测的效果非常好。在预测miRNA靶基因之前,首先需要确定转录本的3’UTR区域,TargetScan数据库通过一种名为3P-seq的测序技术,确定转录本对应的3’UTR区(哺乳动物中的miRNA通过结合转录本序列的3’UTR区,从而发挥转录后调控作用),并且结合该技术的分析结果和NCBI中已有的3’UTR注释,提供一个综合的3’UTR区序列。


3)LongTarget

官网:http://www.gaemons.net/LongTarget

输入lncRNA序列或者位置信息,就可以预测lncRNA结合DNA的motif以及结合DNA的位点信息。但是结果显示可能没有那么清晰直观,需要二次处理将数据可视化。




五、化合物-蛋白

化合物可以通过直接作用或者间接作用影响到细胞内靶分子的表达量以及功能活性。


1)STITCH

官网:http://stitch.embl.de/

用于检索已知的和被预测的化合物与蛋白之间互作关系的平台。互作关系通过实验验证,数据库及文献中的研究被证实。


STITCH是一个系统生物学数据库,集成了化合物、蛋白质和基因之间的相互作用网络。其数据来自文献、实验室数据库和计算预测。STITCH的特点在于提供了全面的相互作用网络,包括药物-蛋白质、蛋白质-蛋白质、化合物-化合物等。这使得研究者能够更全面地了解生物体系中分子之间的相互作用,为系统生物学和网络药物发现提供了重要资源。


在STITCH数据库分析出来的结果中,蛋白质-蛋白质相互作用用灰色表示,化合物-蛋白质相互作用用绿色表示,化学物质之间的相互作用用红色表示。


2)TCMSP

官网:https://tcmsp.91medicine.cn/#/database

用HIT数据预测算法SysDT获得药物靶点之间的关系。为每种化合物提供了药物代谢动力学信息,如DL, OB,BBB,Caco-2。


TCMSP数据库(Traditional Chinese Medicine Systems Pharmacology Database and Analysis Platform/中药系统药理学数据库与分析平台)是一个独特的中草药系统药理学平台,涵盖药物、靶点和疾病之间的关系。该数据库包括化学物质、靶点和药物靶点网络,相关的药物靶点-疾病网络,以及天然化合物的药代动力学特性,包括口服生物利用度、药物相似性、肠上皮通透性、血脑屏障、水溶性等。该数据库为实现中药现代化的研究,解释中药复方的作用机制奠定了基础。在网络药理学研究文章中,常用于收集中药成分和靶标数据。但由于数据库不支持一键下载数据,网药人通常需要花费大量时间逐个复制粘贴获得数据。


3)TTD

官网:http://bidd.nus.edu.sg/group/cjttd/

提供有关药物的化学结构、靶标,疾病和通路的信息,可以使用药物相似性预测没有靶点信息的化合物靶点。


TTD是一个以药物靶点为中心的数据库,整合了药物、疾病和靶点的关联信息。数据来源包括文献、专利和药物注册机构。TTD的独特之处在于它提供了详尽的药物与靶点之间的关系,包括药物的作用机制、临床试验状态和目前的研究进展。这使得研究者能够更好地了解药物的靶点、适应症和疾病关联,为个性化治疗和新药研发提供了参考依据。



4)ChEMBL

官网:https://www.ebi.ac.uk/chembl/

查询某个靶点已报道的化合物、活性等信息,以及某个化合物在哪些靶点做过生物活性测试。


ChEMBL是由欧洲生物信息研究所(EBI)创建和维护的化学生物学数据库。其数据来源主要包括文献、专利和药物注册机构。该数据库提供了广泛的生物活性数据和结构信息,是药物发现、靶点预测和药效学研究的重要工具。其特点在于详实的生物活性数据和广泛的药物覆盖面,为药物研发提供了深入挖掘的机会。


加入社群


关于福麦斯


创建时间:2024-09-20 09:25
浏览量:0