近期,Dana-Farber癌症研究所的刘小乐 (Xiaole Shirley Liu)教授联手上海肺科医院、同济大学和多伦多大学等处的研究人员,在国际学术期刊《Genome Research》发表一项研究,证明了将一个大的表观遗传学数据库整合到转录调控基因组学研究中的优势。
本文通讯作者刘小乐青年时代就读于天津南开中学, 1992 年考入北京大学生物系。1994 年转学到美国史密斯女子学院 (Smith College) 双修生物化学和计算机科学, 三年后以最高拉丁荣誉毕业 (Summa Cum Laude, 授予全校积分最高的 1% 的毕业生)。2002 年于斯坦福大学取得生物医学信息学博士和计算机科学辅修博士学位后, 被直接聘为哈佛大学终身制助理教授。她目前担任哈佛大学公共卫生学院生物统计与计算生物学系的终身正教授、Dana-Farber 肿瘤研究所功能性癌症表观遗传组学中心主任, 和同济大学生物信息学系教授并****讲座教授。
这项研究指出,基于模型的基因表达调控分析(MARGE),是解释H3K27ac染色质环境与差异表达基因集合之间关系的一个框架。该框架有三个主要功能:MARGE-potential、MARGE-express和MARGE-cistrome。MARGE-potential将每一个基因的一个调控potential (Rp)定义为H3K27ac ChIp-seq信号的总和,按“从转录起始位点的基因组距离的功能”计算。MARGE框架包括来自365个人的Rps集合,和267个小鼠H3K27ac ChIp-seq数据集合。
详细了解锐博生物的RNA-Seq技术服务>>
使用这个数据集按比例确定的相对Rps,优于预测BET((bromodomain and extraterminal结构域)-抑制剂抑制基因中的超级增强子。MARGE-express,采用逻辑回归来检索来自数据集的相关H3K27ac属性,以精确地模仿一组输入的差异表达基因,在来自MSigDB的671个不同基因集合上进行了检测。MARGE-cistrome采用一种新型半监督学习方法,来确定调节一个基因集合的顺式调控元件。MARGE-cistrome采用来自DNase I超敏位点上的H3K27ac信号的信息,这些位点是从已公布的人类和小鼠DNase-seq数据中确定而来的。
在前列腺癌细胞系(LNCap-abl)中多个转录和表观遗传学调节因子的siRNA调控之后,该研究小组在新生成的RNA-seq和H3K27ac ChIp-seq文件上测试了该框架。MARGE-cistrome可以预测沉默的转录因子的结合位点,不必与H3K27ac ChIp-seq数据匹配。即使当匹配的H3K27ac ChIp-seq文件是可用的时候,MARGE也可能用公共H3K27ac文件来增强这些数据。这项研究展示了将一个大的表观遗传学数据集合,整合到转录调节基因组研究中的优势。
刘小乐教授带领的研究小组最近在国际著名学术期刊上发表了多项研究成果。今年3月,来自同济大学,Dana-Farber癌症研究所等机构的研究人员,通过综合分析揭示出了前列腺癌中由长链非编码RNA(lncRNA)介导的一个海绵调控网络。这一研究发现发布在《自然通讯》(Nature Communications)杂志上。相关阅读:同济大学Nature子刊解析lncRNAs与癌症;同济大学Nature子刊解析癌症长链非编码RNA调控网络。
高通量实验中的噪音和偏好使高维基因组数据分析成为了一项很大的挑战。Dana-Farber癌症研究所的刘小乐 (Xiaole Shirley Liu) 和德克萨斯大学西南医学中心的Yang Xie领导研究团队对此进行了深入研究。他们开发了一种强大的计算方法——MANCIE,并将其发表在今年四月十三日的Nature Communications杂志上。相关阅读:刘小乐教授Nature子刊解决基因组数据分析难题。
今年五月三十日,刘小乐带领的研究小组在Nature Genetics杂志上发布了一种新的计算方法,该方法可以帮助人们用RNA-seq数据从头组装肿瘤浸润T细胞的CDR3序列。相关阅读:刘小乐教授NatureGenetics发布癌症研究新工具。
理解肿瘤与免疫系统的相互作用,是发现预后指标、降低药物抗性和开发新药的关键。为此,刘小乐教授带领哈佛大学的研究人员,开发了一种能够综合性分析肿瘤免疫的计算方法。该方法可以对肿瘤浸润免疫细胞进行评估,帮助人们理解癌症中的肿瘤-免疫互作。这项研究于八月二十二日发表在Genome Biology杂志上。相关阅读:刘小乐教授发布癌症综合分析法。
(生物通:王英)
生物通推荐原文摘要:
Modeling cis-regulation with a compendium of genome-wide histone H3K27ac profiles
Abstract: Model-based analysis of regulation of gene expression (MARGE) is a framework for interpreting the relationship between the H3K27ac chromatin environment and differentially expressed gene sets. The framework has three main functions: MARGE-potential, MARGE-express, and MARGE-cistrome. MARGE-potential defines a regulatory potential (Rp) for each gene as the sum of H3K27ac ChIp-seq signals weighted by a function of genomic distance from the transcription start site. The MARGE framework includes a compendium of Rps derived from 365 human and 267 mouse H3K27ac ChIp-seq data sets. Relative Rps, scaled using this compendium, are superior to superenhancers in predicting BET (bromodomain and extraterminal domain) -inhibitor repressed genes. MARGE-express, which uses logistic regression to retrieve relevant H3K27ac profiles from the compendium to accurately model a query set of differentially expressed genes, was tested on 671 diverse gene sets from MSigDB. MARGE-cistrome adopts a novel semisupervised learning approach to identify cis-regulatory elements regulating a gene set. MARGE-cistrome exploits information from H3K27ac signal at DNase I hypersensitive sites identified from published human and mouse DNase-seq data. We tested the framework on newly generated RNA-seq and H3K27ac ChIp-seq profiles upon siRNA silencing of multiple transcriptional and epigenetic regulators in a prostate cancer cell line, LNCap-abl. MARGE-cistrome can predict the binding sites of silenced transcription factors without matched H3K27ac ChIp-seq data. Even when the matching H3K27ac ChIp-seq profiles are available, MARGE leverages public H3K27ac profiles to enhance these data. This study demonstrates the advantage of integrating a large compendium of historical epigenetic data for genomic studies of transcriptional regulation.