前沿洞察

贝斯特全球最奢华游戏平台QB 了解Cistrome DB数据库和Toolkit使用教程

2024-11-07

  为了促进本领域的学术交流,欢迎大家扫描下面二维码进入《定量生物学》期刊交流群。

  在Cistrome DB的主页面上,作者们设计了多个控件以满足不同的数据搜索场景◆■■★★。第一种,用户可通过关键词搜索(如下图所示)◆■◆★★,Cistrome DB允许用户在关键词输入框输入细胞系名称、细胞类型名称、组织名称★★■■、转录调控因子或GEO样本编号进行数据搜索。第二种,用户可通过点击单选框内条目进行数据搜索,Cistrome DB设计了三种单选框,分别是物种、生物来源和因子类型。用户可组合三种单选框逐步筛选数据,也可在使用关键词搜索后★◆■■,进一步通过单选框筛选数据★◆■★◆■。更为有意义的是■■◆,Cistrome DB为每套数据均进行了六项的质量控制,包括原始测序质量、回帖率、FRiP、PBC、高质量peak数量、union DHS的重合率,搜索结果中红色圆点表示该数据未通过该项,绿色则表示通过,因此样本所得绿点越多则质量相对较好。此外,用户还可探究每套数据的peak在启动子、外显子、内含子和基因间区域的分布情况,以及peak区域的平均保守性和peak中的转录因子motif情况■★■◆★■。

  在真核生物细胞中,基因的表达过程是被精密地调控的,关于基因转录调控这一过程的分子生物学机制也一直是研究者们关心的问题◆★★■,研究人员通常会从转录因子(Transcription Factor)、组蛋白修饰(Histone Modification)或染色体可及性(Chromatin Accessibility)的角度去探究某生物过程中基因表达发生变化的原因■◆■■。人们开发了ChIP-seq技术来检测转录因子在DNA上的结合位点★■,以及染色体上的组蛋白修饰位点;还开发了DNase-seq和ATAC-seq技术来观察细胞内所有的开放染色体。随着研究的不断深入,越来越多的研究团队和项目组产出了靶向各种转录因子或组蛋白修饰的ChIP-seq数据★◆■,以及DNase-seq和ATAC-seq数据,虽然这些数据的原始测序文件被要求上传至可被公共访问的数据仓库中(如GEO),然而对于很多没有计算生物学相关专业技能的生物学家而言◆★■,利用这些公共数据来进行基因转录调控分析具有一定挑战;另一方面,尽管这些数据已有的分析结果也可被获取,但数据产出者们所使用的数据分析流程和方法可能并不相同◆◆◆,使得数据相互之间的可比性不强。

  特别声明★◆◆◆◆:本文转载仅仅是出于传播信息的需要◆■,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体◆◆◆■■■、网站或个人从本网站转载使用■★◆,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜■◆,请与我们接洽。

  孙强/王小宁/黄红艳团队合作发现细胞套亡通过p53信号对抗上皮细胞基因组不稳定性新机制

  Quantitative Biology (QB)期刊是由高等教育出版社■◆◆★、清华大学和北京大学联合创办的全英文学术期刊。QB主要刊登生物信息学贝斯特全球最奢华游戏平台、计算生物学★◆◆◆◆、系统生物学、理论生物学和合成生物学的最新研究成果和前沿进展,并为生命科学与计算机★★、数学、物理等交叉研究领域打造一个学术水平高★■◆、可读性强■■■◆、具有全球影响力的交叉学科期刊品牌■■◆★◆■。

  为了解决这些问题,哈佛大学刘小乐教授课题组开发了Cistrome DB数据库和Cistrome DB Toolkit,前者主要用于展示所收集和整理的公共可获取的人和小鼠ChIP-seq、DNase-seq和ATAC-seq数据★◆◆■,这些数据的注释信息均通过网络爬虫技术获取,随后原始数据文件被下载,并通过统一的生物信息分析流程处理,最终将结果展示于Cistrome DB中■■◆★;后者主要基于所收集数据的分析结果为用户提供搜索功能,以便用户快速使用这些数据来回答他们的研究问题◆■◆◆■。近日◆◆★◆◆■,Cistrome DB数据库的作者们在Quantitative Biology期刊上发表了题为“Cistrome Data Browser and Toolkit: analyzing human and mouse genomic data using compendia of ChIP-seq and chromatin accessibility data”的文章,文中介绍了Cistrome DB和Toolkit的构建方法和详细的使用教程,并具体地描述了一些特定的使用场景,譬如该如何筛选有意义的数据等,文中也表达了Cistrome DB将被不断地维护和更新,希望能为生物医学领域提供有用的数据资源和分析工具的愿景。

  目前◆◆,Cistrome DB已经含有人和小鼠共56◆■★★★,000多套数据,为了方便研究者们快速整合这些数据,验证一些研究设想◆◆■★★,Cistrome DB Toolkit应运而生◆◆,分别从三个层面设计搜索功能,以满足快速数据整合的需求。第一,Toolkit从基因层面回答用户“What factors regulate your gene of interest?■★◆◆◆★”■◆,在这个功能中◆■,用户可输入任意的蛋白质编码基因★◆★■,Cistrome DB Toolkit可返回按照调控潜能排序好的转录因子列表,并且用户可选择仅关注启动子调控,或是选择包含增强子的调控。第二,Toolkit从单个基因组区段的层面回答“What factors bind on your interval of interest?”,用户可输入任意一段短于2Mb的基因组区域,Cistrome DB Toolkit会返回在该区域有peak的ChIP-seq★★◆★◆■、DNase-seq和ATAC-seq数据◆■;研究者们可利用这一功能来研究增强子或非编码RNA的调控■◆■◆■★,以及SNP可能影响的转录因子结合问题◆◆★★。第三,Toolkit从基因组片段集的层面帮助用户回答“What factors have a significant binding overlap with your peak set?■■★◆■”◆■◆,在此功能中,用户可提交一个BED文件,该文件可以是某个转录因子ChIP-seq结果★■★★★,则Cistrome DB Toolkit可帮助寻找到与该转录因子结合位点最相似的其他ChIP-seq数据,因而可用于寻找转录共调控因子;用户也可提交如肿瘤和正常组织中的差异开放染色体区域★★,则此时Cistrome DB Toolkit可帮助寻找参与调控这些差异开放染色体区域的转录因子等。