答疑解惑 | 華銀康高通量測(cè)序檢測(cè)中心帶你解讀轉(zhuǎn)錄組常見問題,洞悉數(shù)據(jù)分析內(nèi)容!
2022-11-16 閱讀數(shù):6958
當(dāng)我們拿到轉(zhuǎn)錄組測(cè)序報(bào)告和數(shù)據(jù)結(jié)果時(shí),是否對(duì)報(bào)告中的數(shù)據(jù)內(nèi)容有疑惑?怎么在文章中闡述這些數(shù)據(jù)所代表的意義?今天華銀康高通量測(cè)序檢測(cè)中心為大家整理了轉(zhuǎn)錄組常見問題解答內(nèi)容,干貨滿滿,快來一起學(xué)習(xí)!
Q1:轉(zhuǎn)錄組測(cè)序建庫方式有哪些?該如何選擇?
A1:原核生物樣本采用的是去核糖體建庫方式。由于原核生物中的mRNA上沒有polyA尾,沒法通過帶有Oligo(dT)的磁珠富集。所以可以用試劑盒去除rRNA,再對(duì)所有的mRNA、非編碼RNA(Non-coding RNA)以及游離的RNA進(jìn)行富集。
真核生物可以采用去核糖體建庫、Oligo(dT)富集mRNA這兩種建庫方式,由于真核生物mRNA的3’端存在polyA尾,可以用磁珠富集捕獲到mRNA。
這兩種建庫方式需要看樣本類型和RIN值(RNA完整性)來選擇,比如RIN值在7以上可以采用Oligo(dT)建庫方式。反之,可以進(jìn)行去核糖體建庫方式。由于Oligo(dT)只是富集到的mRNA的3’端,如果片段發(fā)生斷裂會(huì)導(dǎo)致5’端的序列丟失,導(dǎo)致獲得的mRNA完整性不足,所以這一建庫方式對(duì)RNA完整性要求比較高。
Q2:轉(zhuǎn)錄組測(cè)序報(bào)告和數(shù)據(jù)結(jié)果中重要的內(nèi)容有哪些?
A2:首先,我們用RSEM(RNASeq by Expectation Maximization) 工具進(jìn)行基因以及轉(zhuǎn)錄本的表達(dá)定量,從而得到樣本中所有表達(dá)的基因定量結(jié)果。隨后,采用edgeR軟件進(jìn)行比較組中差異表達(dá)基因分析。最后,對(duì)這些篩選到的差異基因進(jìn)行GO和KEGG功能富集分析,對(duì)功能通路進(jìn)行注釋以及分析通路上富集到的差異基因。
Q3:如何篩選差異基因?怎么看目標(biāo)基因在實(shí)驗(yàn)組高/低表達(dá)?
A3:我們基于之前分析的所有轉(zhuǎn)錄本表達(dá)量數(shù)據(jù)文件,按照|log2FC|>= 1和 Pvalue < 0.05這兩個(gè)閾值條件進(jìn)行差異基因的篩選,那么FC的閾值范圍為FC>=2 或者FC<=-2。如果log2FC大于0,就說明這個(gè)基因在實(shí)驗(yàn)組是高表達(dá)的,反之,log2FC小于0,說明在實(shí)驗(yàn)組是低表達(dá)的。
Q4:在基因差異表達(dá)分析中,例如樣品1 vs 樣品2,如何理解上調(diào)和下調(diào)?
A4:‘樣品1 vs 樣品2’,則樣品1是對(duì)照組,樣品2是處理組。在相應(yīng)的結(jié)果文件1-vs-2.GeneDiffExp.xls和1-vs-2.GeneDiffExpFilter.xls中,如果一個(gè)基因被記為是上調(diào),就表明相對(duì)于樣品1(對(duì)照組),此基因在樣品2(處理組)中的表達(dá)量是上調(diào)的。
Q5:GSEA富集分析哪些數(shù)據(jù)內(nèi)容?樣本數(shù)的要求?
A5:GSEA富集分析能幫助科研工作者們?cè)趦煞N不同的生物學(xué)狀態(tài) (biological states)中,判斷某一組有特定意義的基因集合的表達(dá)模式更接近于哪一種。因此GSEA是一種非常常見且實(shí)用的分析方法,可以將數(shù)個(gè)基因組成的基因集與整個(gè)轉(zhuǎn)錄組、修飾組等做出簡(jiǎn)單而清晰的關(guān)聯(lián)分析。
一般我們GSEA富集分析要求的樣本數(shù)在3個(gè)生物學(xué)重復(fù)以上。
那么GSEA熱圖怎么看呢?
熱圖顯示了前緣子集中的(聚類)基因。在熱圖中,表達(dá)值表示為顏色,其中顏色范圍(紅色,粉紅色,淺藍(lán)色,深藍(lán)色)顯示了表達(dá)值的范圍(高,中,中,低,最低)。
對(duì)照組和處理組表達(dá)量高低的問題?
可以看熱圖中|ES|最大值對(duì)應(yīng)的分組,就說明該基因集在這個(gè)分組中高表達(dá),處于一個(gè)激活的狀態(tài),|ES|最高點(diǎn)右側(cè)基因集屬于核心基因集,對(duì)應(yīng)表格中CORE ENRICHMENT為“Yes”的是核心基因集;
前面我們提到了ES,它的具體含義是什么呢?
每個(gè)基因?qū)?yīng)的累計(jì)值就叫做富集得分 (Enrichment score, ES) ,而這個(gè)基因集的富集得分 (ES)則定義為遍歷基因列表時(shí)遇到的離零的最大偏差,即峰值。峰值為正值表示基因集富集在列表的頂部(mut),負(fù)值表示富集在底部(wt)。
Q6:基因的表達(dá)量是基于什么計(jì)算的?
A6:表達(dá)定量的結(jié)果以FPKM為單位,具體計(jì)算公式如下。
RPKM:Reads Per Kilobase Million,指的是每一百條reads中,對(duì)基因的每1000個(gè)base而言比對(duì)到的reads數(shù)。RPKM用于雙端測(cè)序結(jié)果,由于每個(gè)fragment會(huì)包含兩個(gè)reads,使用FPKM計(jì)算基因的表達(dá)量時(shí),可以避免同一個(gè)fragment的兩個(gè)reads計(jì)算2次的問題。
Q7:KEGG中l(wèi)evel1、2、3、4層級(jí)代表的含義?
A7:KEGG是一個(gè)綜合性公共數(shù)據(jù)庫,首先,生物代謝通路主要分為6類,分別為:細(xì)胞過程(Cellular Processes)、環(huán)境信息處理(Environmental Information Processing)、遺傳信息處理(Genetic Information Processing)、人類疾?。℉uman Diseases)、新陳代謝(Metabolism)、生物體系統(tǒng)(Organismal Systems),其中每類又被系統(tǒng)分類為二、三、四層。第二層又分為一些子pathway,第三層為其代謝通路圖;第四層為每個(gè)代謝通路圖的具體注釋信息。
怎么看目標(biāo)通路是否顯著?怎么看通路上富集基因表達(dá)的上/下調(diào)?
p<0.05時(shí),目標(biāo)通路是顯著的,通過KEGG代謝通路的map圖可以看基因表達(dá)上/下調(diào)的情況,并且可以看出基因在通路上下游的位置,一般在前面的都處于上游的位置,并可以進(jìn)行后續(xù)的基因敲除實(shí)驗(yàn)驗(yàn)證目標(biāo)差異基因?qū)ν返囊种?促進(jìn)。
通路map圖中的實(shí)線和虛線各代表什么?
實(shí)線箭頭:①一步生化反應(yīng);②正向調(diào)控;③分子相互作用。
虛線箭頭:①間接反應(yīng);②不確定的生化反應(yīng)。
KO富集氣泡圖中的rich factor指的什么?代表的含義?怎么計(jì)算?
Rich factor為該代謝路徑下差異基因數(shù)目與所有注釋到該路徑基因數(shù)目的比值,數(shù)值越大表示富集程度越大??梢杂胏lusterprofiler R包去計(jì)算得到。
Q8:轉(zhuǎn)錄組歸一化的含義?發(fā)揮的作用?
A8:歸一化指的是在比較不同樣本轉(zhuǎn)錄組表達(dá)量的時(shí)候,需要量化成一個(gè)標(biāo)準(zhǔn),然后將raw counts同時(shí)除以目標(biāo)基因的外顯子長(zhǎng)度之和(也就是目標(biāo)基因轉(zhuǎn)錄本長(zhǎng)度)和總的有效比對(duì)的read總數(shù),這就是歸一化處理。
我們?cè)诒容^不同樣本的轉(zhuǎn)錄本表達(dá)量時(shí),是基于歸一化處理的數(shù)據(jù)文件進(jìn)行的。
Q9:如何理解測(cè)序隨機(jī)性圖(即reads在參考基因組上的分布)?隨機(jī)性好壞的標(biāo)準(zhǔn)是什么?
A9:隨機(jī)性是測(cè)序質(zhì)量的一個(gè)判定因素,目前尚沒有標(biāo)準(zhǔn)來評(píng)估隨機(jī)性的好壞。但通常來說,如果測(cè)序隨機(jī)較好,reads會(huì)較均勻地分布在參考序列上。
Q10:原始數(shù)據(jù)都包含了哪些內(nèi)容?原始數(shù)據(jù)可以用什么軟件打開查看?
A10:測(cè)序得到的原始圖像數(shù)據(jù)經(jīng)base calling轉(zhuǎn)化為序列數(shù)據(jù),我們稱之為Raw data,結(jié)果以FASTQ文件格式存儲(chǔ),包含reads的序列以及堿基的測(cè)序質(zhì)量。在FASTQ格式文件中每個(gè)read由四行描述,如下:
@A80GVTABXX:4:1:2587:1979#ACAGTGAT/1
NTTTGATATGTGTGAGGACGTCTGCAGCGTCACCTTTATCGGCCATGGT
+
BTTMKZXUUUdddddddddddddddddddddddddddadddddd^WYYU
每個(gè)序列共有4行,第1行和第3行是序列名稱(有的fq文件為了節(jié)省存儲(chǔ)空間會(huì)省略第三行“+”后面的序列名稱),由測(cè)序儀產(chǎn)生;第2行是序列;第4行是序列的測(cè)序質(zhì)量,每個(gè)字符對(duì)應(yīng)第2行每個(gè)堿基,第四行每個(gè)字符對(duì)應(yīng)的ASCII值減去64,即為該堿基的測(cè)序質(zhì)量值,比如c對(duì)應(yīng)的ASCII值為99,那么其對(duì)應(yīng)的堿基質(zhì)量值是35。
可以用記事本或者notepad ++打開;但是有時(shí)會(huì)出現(xiàn)FASTQ文件打不開的情況,這是什么原因呢?
有可能是因?yàn)槲募?,在這種情況下我們可以嘗試用pycharm讀取文件,或者抽取一部分?jǐn)?shù)據(jù)再打開。
Q11:將Clean Data比對(duì)到核糖體是為了看什么?
A11:受樣品質(zhì)量和物種的影響,實(shí)驗(yàn)方法去核糖體的效率可能不太穩(wěn)定,而核糖體的污染會(huì)影響后續(xù)的分析,因此首先使用短 reads 比對(duì)工具 bowtie 將 High quality clean reads 比對(duì)到核糖體數(shù)據(jù)庫,最多允許 5 個(gè)錯(cuò)配,去除比對(duì)上核糖體的 reads,將保留下來的數(shù)據(jù)用于后續(xù)的分析。如果比對(duì)到核糖體上的reads占比很低,則說明數(shù)據(jù)質(zhì)量比較好,可以用于后續(xù)分析。
今天對(duì)轉(zhuǎn)錄組的常見問題解答整理先分享到這里,如果您有其他疑惑,歡迎隨時(shí)聯(lián)系我們~