上海时时乐走势图
服務熱線400-065-1811
當前位置:首頁 > 科學研究 > 新聞動態
烈冰生物再發高效檢測可變簡介的新算法CASH! 時間:2017-06-30

近日,上海烈冰生物醫藥科技有限公司研發總監宗杰博士率生物信息研發團隊開發了可變剪接分析算法CASH(Comprehensive AS Hunting),該結果以“CASH: a constructing comprehensive splice site method for detecting alternative splicing events”為題發表于著名國際生物信息類期刊Briefings in Bioinformatics(IF=5.134)。通過與Cuffdiff,MISO,DEXSeq和rMATS等已有算法進行比較后發現,無論在有生物學重復還是無生物學重復樣本中,CASH都顯著提升了樣本之間差異可變剪接事件的檢測能力,尤其是新的可變剪接事件,驗證準確率高達70%!在針對不同測序深度數據的測試中,CASH始終表現出優于其他算法的檢測率。即使是在低數據量下,CASH依舊力壓其他算法,始終維持著極高的敏感性及特異性。
這是繼ASD算法(Nucleic Acids Res. 2014 Apr;42(6):4019-30. IF=10.162)后,烈冰生物發表的第二篇可變剪接檢測算法類文章,創下國內同類算法的又一里程碑,在創新型企業自主研發算法攻堅之路上再下一城!
參與該項研究的還有中國科學院上海生命科學研究院的馮英研究員、浙江農林大學吳文武教授。

該結果以“CASH: a constructing comprehensive splice site method for detecting alternative splicing events”為題發表于著名國際學術期刊Briefings in Bioinformatics。
CASH的下載地址:https://sourceforge.net/projects/cash-program/?source=directory


導讀
在高等真核生物中,基因大都以內含子-外顯子交替的形式存在,當其被轉錄成pre-mRNA后,通過外顯子的不同組合方式,可以產生一系列不同的轉錄本,最終使得生物體內的轉錄組和蛋白質組呈現多樣性。在這個過程中,可變剪接起著關鍵的作用。在人類中,絕大多數具有蛋白編碼能力的基因都能受到可變剪接的調控,最終產生多種不同功能的蛋白亞型。而異常的可變剪接也廣泛涉及到了多種疾病,例如癌癥等。因此,探索可變剪接事件對于進一步理解生物體內不同轉錄本的功能是至關重要的。



研究背景
高通量測序是研究可變剪接的強有力工具,并且已經開發出了一系列算法工具去對可變剪接事件進行分析。這類算法主要可以分成兩大類,一類是基于全長轉錄本的分析策略(以轉錄本為中心),另一類是基于外顯子或事件或轉錄本區域的分析策略(以區段為中心)。前者主要有Cuffdiff,BitSeq,rSeqNP等,這些算法能夠對轉錄本進行定量及差異分析,并且嘗試去捕獲到單個基因內部可能存在的多種復雜的可變剪接情況。而相反的,以JuncBase,rMATS或者DEXSeq為代表的后者,則試圖對參與可變剪接的外顯子的歸屬進行判斷,從而提高可變剪接的檢測效率。所有這些方法很大程度上依賴于參考基因組中轉錄本的注釋信息。然而截至目前,對于人類參考基因組轉錄本的注釋信息也并不是十分完整。除此之外,一些可變剪接的情況可能只在特定的細胞或者條件下產生。雖然三代測序已經能夠獲得全長轉錄本信息,但是其高昂的成本仍然限制了其被廣泛應用于轉錄組的研究中,因此以區段為中心的分析策略依舊是目前分析可變剪接事件的必要工具。


近日,上海烈冰生物醫藥科技有限公司宗杰博士聯合中國科學院上海生命科學研究院的馮英研究員、浙江農林大學吳文武教授共同開發了可變剪接分析算法CASH(Comprehensive AS Hunting),其中算法的大部分思路及全部代碼實現由烈冰科技完成。通過與其他已有的算法進行比較后發現,CASH顯著提升了樣本之間差異可變剪接事件的檢測能力。
除此之外,作者還用CASH檢測了SRSF10所影響的可變剪接事件。SRSF10是絲氨酸/精氨酸富集蛋白家族的成員,這類蛋白在pre-mRNA的剪接過程中發揮關鍵作用。在之前的研究中,作者已經發現SRSF10可以調控可變剪接事件的發生。在本研究中,作者進一步在多個物種中研究了SRSF10的調控作用,并對其保守性和進化關系進行了分析。作者在雞、小鼠和人類的測序數據中發現SRSF10調控的基因以及對應的可變剪接類型并不保守,但是有共同的結合位點基序,這個結果強烈暗示著SRSF10在不同物種中有著保守的調控模式。


研究思路
首先我們來理清這項研究的思路,如下圖所示。


研究結果
1、烈冰生物首先開發了CASH算法,該算法主要分為兩個階段,分別為SpliceCons和SpliceDiff。在第一個階段,CASH將RNA-seq數據中所有的junction reads提取出來,并生成一個剪接位點的列表,結合參考基因組中注釋的外顯子位點信息,針對每個基因構建完整的剪接位點信息(ComSpliceSite)。隨后,CASH在每一個基因中尋找并區分七種典型的可變剪接類型。在第二個階段,CASH對每種不同的剪接形式針對性的設計了不同的采樣方式,并分別基于exon覆蓋度和junction reads計算P-value,再將兩個P-value通過加權方程得到adjusted P-value,隨后通過BH算法計算得到FDR值,以此來評估可變剪接事件的顯著性。

2、接下來,我們將CASH與其他的算法進行了比較。首先,我們利用三組沒有生物學重復的數據,將CASH與Cuffdiff、MISO、rMATS進行了比較。結果顯示Cuffdiff沒有檢測到顯著的差異可變剪接,另外三種算法得到的結果相差較大,其中CASH與rMATS重疊的基因數量要顯著高于MISO。將預測到的結果與RT-PCR結果進行分析后發現,CASH和rMATS的驗證率顯著好于MISO,同時CASH的結果要優于rMATS。
為了更進一步評估CASH預測到的結果,我們選取了45個(其中22個是新的)僅CASH預測到的可變剪接基因,進行RT-PCR驗證,結果顯示71%(32/45)以上的陽性結果,包括GALN2,CAST以及PATL1中新的可變剪接事件。暗示著CASH能夠在無生物學重復樣本的比較中顯著提高差異可變剪接,特別是新的可變剪接事件的檢測效率。

3、與此同時,我們又評估了CASH在有生物學重復樣本中的檢測效率。與Cuffdiff,DEXSeq和rMATS相比,CASH檢測到了更多的差異可變剪接事件。RT-PCR結果顯示CASH的驗證率好于其他幾種算法,同樣地,CASH能夠檢測到CG9947和mys中新的可變剪接事件。綜合這兩個測試表明,CASH既能夠在有生物學重復的樣本,也能夠在無生物學重復的樣本中提高差異可變剪接檢測率,尤其是新的可變剪接事件。

4、下一步,我們利用Flux模擬器模擬了一系列數據,其中包含已有注釋的以及新的差異可變剪接事件,測序深度分為30x,50x和100x。結果顯示MISO,rMATS以及DEXSeq在使用重建后轉錄本的情況下,其檢測效率要高于使用參考基因組,但還是顯著低于CASH。即使是在30x的數據量下,CASH依舊能夠維持著極高的敏感性及特異性。

5、在此基礎上,我們利用CASH在雞、小鼠和人類中研究了SRSF10介導的可變剪接事件,并進行了物種間的比較。我們發現了41個基因在三個物種間都受到了SRSR10的調控,但是只有7個(星標)發生了一致的可變剪接事件,暗示著SRSF10的調控方式在物種間是非常靈活的。通過GO和pathway的分析,我們發現受SRSF10調控的基因功能在物種間具有一定的保守性,這些基因參與了許多基礎的生物學過程包括細胞骨架、染色質結構以及RNA加工過程等,同時也存在著些許差別。

6、之前的研究表明,SRSF10擁有一個保守的RNA識別基序,能夠結合AGAGAV或者AAAGACAAA。我們對cassette類型可變剪接中的序列信息進行了分析,發現在三個物種中有一個共同的調控模式。通過更深入的分析后,我們提出了一種SRSF10介導的剪接模型,當外顯子具有GA富集的特征時,通常能夠與SRSF10具有更高的親和力,因此當GA富集出現在下游外顯子時,會導致cassette外顯子的跳躍,而GA富集發生在cassette外顯子上時,則會發生該外顯子納入的情況。并且這種調控模式在雞、小鼠和人類中都高度保守。

上海时时乐走势图