答疑解惑 | 華銀康高通量測序檢測中心帶你解讀轉錄組常見(jiàn)問(wèn)題,洞悉數據分析內容!
2022-11-16 閱讀數:6082
當我們拿到轉錄組測序報告和數據結果時(shí),是否對報告中的數據內容有疑惑?怎么在文章中闡述這些數據所代表的意義?今天華銀康高通量測序檢測中心為大家整理了轉錄組常見(jiàn)問(wèn)題解答內容,干貨滿(mǎn)滿(mǎn),快來(lái)一起學(xué)習!
Q1:轉錄組測序建庫方式有哪些?該如何選擇?
A1:原核生物樣本采用的是去核糖體建庫方式。由于原核生物中的mRNA上沒(méi)有polyA尾,沒(méi)法通過(guò)帶有Oligo(dT)的磁珠富集。所以可以用試劑盒去除rRNA,再對所有的mRNA、非編碼RNA(Non-coding RNA)以及游離的RNA進(jìn)行富集。
真核生物可以采用去核糖體建庫、Oligo(dT)富集mRNA這兩種建庫方式,由于真核生物mRNA的3’端存在polyA尾,可以用磁珠富集捕獲到mRNA。
這兩種建庫方式需要看樣本類(lèi)型和RIN值(RNA完整性)來(lái)選擇,比如RIN值在7以上可以采用Oligo(dT)建庫方式。反之,可以進(jìn)行去核糖體建庫方式。由于Oligo(dT)只是富集到的mRNA的3’端,如果片段發(fā)生斷裂會(huì )導致5’端的序列丟失,導致獲得的mRNA完整性不足,所以這一建庫方式對RNA完整性要求比較高。
Q2:轉錄組測序報告和數據結果中重要的內容有哪些?
A2:首先,我們用RSEM(RNASeq by Expectation Maximization) 工具進(jìn)行基因以及轉錄本的表達定量,從而得到樣本中所有表達的基因定量結果。隨后,采用edgeR軟件進(jìn)行比較組中差異表達基因分析。最后,對這些篩選到的差異基因進(jìn)行GO和KEGG功能富集分析,對功能通路進(jìn)行注釋以及分析通路上富集到的差異基因。
Q3:如何篩選差異基因?怎么看目標基因在實(shí)驗組高/低表達?
A3:我們基于之前分析的所有轉錄本表達量數據文件,按照|log2FC|>= 1和 Pvalue < 0.05這兩個(gè)閾值條件進(jìn)行差異基因的篩選,那么FC的閾值范圍為FC>=2 或者FC<=-2。如果log2FC大于0,就說(shuō)明這個(gè)基因在實(shí)驗組是高表達的,反之,log2FC小于0,說(shuō)明在實(shí)驗組是低表達的。
Q4:在基因差異表達分析中,例如樣品1 vs 樣品2,如何理解上調和下調?
A4:‘樣品1 vs 樣品2’,則樣品1是對照組,樣品2是處理組。在相應的結果文件1-vs-2.GeneDiffExp.xls和1-vs-2.GeneDiffExpFilter.xls中,如果一個(gè)基因被記為是上調,就表明相對于樣品1(對照組),此基因在樣品2(處理組)中的表達量是上調的。
Q5:GSEA富集分析哪些數據內容?樣本數的要求?
A5:GSEA富集分析能幫助科研工作者們在兩種不同的生物學(xué)狀態(tài) (biological states)中,判斷某一組有特定意義的基因集合的表達模式更接近于哪一種。因此GSEA是一種非常常見(jiàn)且實(shí)用的分析方法,可以將數個(gè)基因組成的基因集與整個(gè)轉錄組、修飾組等做出簡(jiǎn)單而清晰的關(guān)聯(lián)分析。
一般我們GSEA富集分析要求的樣本數在3個(gè)生物學(xué)重復以上。
那么GSEA熱圖怎么看呢?
熱圖顯示了前緣子集中的(聚類(lèi))基因。在熱圖中,表達值表示為顏色,其中顏色范圍(紅色,粉紅色,淺藍色,深藍色)顯示了表達值的范圍(高,中,中,低,最低)。
對照組和處理組表達量高低的問(wèn)題?
可以看熱圖中|ES|最大值對應的分組,就說(shuō)明該基因集在這個(gè)分組中高表達,處于一個(gè)激活的狀態(tài),|ES|最高點(diǎn)右側基因集屬于核心基因集,對應表格中CORE ENRICHMENT為“Yes”的是核心基因集;
前面我們提到了ES,它的具體含義是什么呢?
每個(gè)基因對應的累計值就叫做富集得分 (Enrichment score, ES) ,而這個(gè)基因集的富集得分 (ES)則定義為遍歷基因列表時(shí)遇到的離零的最大偏差,即峰值。峰值為正值表示基因集富集在列表的頂部(mut),負值表示富集在底部(wt)。
Q6:基因的表達量是基于什么計算的?
A6:表達定量的結果以FPKM為單位,具體計算公式如下。
RPKM:Reads Per Kilobase Million,指的是每一百條reads中,對基因的每1000個(gè)base而言比對到的reads數。RPKM用于雙端測序結果,由于每個(gè)fragment會(huì )包含兩個(gè)reads,使用FPKM計算基因的表達量時(shí),可以避免同一個(gè)fragment的兩個(gè)reads計算2次的問(wèn)題。
Q7:KEGG中level1、2、3、4層級代表的含義?
A7:KEGG是一個(gè)綜合性公共數據庫,首先,生物代謝通路主要分為6類(lèi),分別為:細胞過(guò)程(Cellular Processes)、環(huán)境信息處理(Environmental Information Processing)、遺傳信息處理(Genetic Information Processing)、人類(lèi)疾?。℉uman Diseases)、新陳代謝(Metabolism)、生物體系統(Organismal Systems),其中每類(lèi)又被系統分類(lèi)為二、三、四層。第二層又分為一些子pathway,第三層為其代謝通路圖;第四層為每個(gè)代謝通路圖的具體注釋信息。
怎么看目標通路是否顯著(zhù)?怎么看通路上富集基因表達的上/下調?
p<0.05時(shí),目標通路是顯著(zhù)的,通過(guò)KEGG代謝通路的map圖可以看基因表達上/下調的情況,并且可以看出基因在通路上下游的位置,一般在前面的都處于上游的位置,并可以進(jìn)行后續的基因敲除實(shí)驗驗證目標差異基因對通路的抑制/促進(jìn)。
通路map圖中的實(shí)線(xiàn)和虛線(xiàn)各代表什么?
實(shí)線(xiàn)箭頭:①一步生化反應;②正向調控;③分子相互作用。
虛線(xiàn)箭頭:①間接反應;②不確定的生化反應。
KO富集氣泡圖中的rich factor指的什么?代表的含義?怎么計算?
Rich factor為該代謝路徑下差異基因數目與所有注釋到該路徑基因數目的比值,數值越大表示富集程度越大??梢杂胏lusterprofiler R包去計算得到。
Q8:轉錄組歸一化的含義?發(fā)揮的作用?
A8:歸一化指的是在比較不同樣本轉錄組表達量的時(shí)候,需要量化成一個(gè)標準,然后將raw counts同時(shí)除以目標基因的外顯子長(cháng)度之和(也就是目標基因轉錄本長(cháng)度)和總的有效比對的read總數,這就是歸一化處理。
我們在比較不同樣本的轉錄本表達量時(shí),是基于歸一化處理的數據文件進(jìn)行的。
Q9:如何理解測序隨機性圖(即reads在參考基因組上的分布)?隨機性好壞的標準是什么?
A9:隨機性是測序質(zhì)量的一個(gè)判定因素,目前尚沒(méi)有標準來(lái)評估隨機性的好壞。但通常來(lái)說(shuō),如果測序隨機較好,reads會(huì )較均勻地分布在參考序列上。
Q10:原始數據都包含了哪些內容?原始數據可以用什么軟件打開(kāi)查看?
A10:測序得到的原始圖像數據經(jīng)base calling轉化為序列數據,我們稱(chēng)之為Raw data,結果以FASTQ文件格式存儲,包含reads的序列以及堿基的測序質(zhì)量。在FASTQ格式文件中每個(gè)read由四行描述,如下:
@A80GVTABXX:4:1:2587:1979#ACAGTGAT/1
NTTTGATATGTGTGAGGACGTCTGCAGCGTCACCTTTATCGGCCATGGT
+
BTTMKZXUUUdddddddddddddddddddddddddddadddddd^WYYU
每個(gè)序列共有4行,第1行和第3行是序列名稱(chēng)(有的fq文件為了節省存儲空間會(huì )省略第三行“+”后面的序列名稱(chēng)),由測序儀產(chǎn)生;第2行是序列;第4行是序列的測序質(zhì)量,每個(gè)字符對應第2行每個(gè)堿基,第四行每個(gè)字符對應的ASCII值減去64,即為該堿基的測序質(zhì)量值,比如c對應的ASCII值為99,那么其對應的堿基質(zhì)量值是35。
可以用記事本或者notepad ++打開(kāi);但是有時(shí)會(huì )出現FASTQ文件打不開(kāi)的情況,這是什么原因呢?
有可能是因為文件太大,在這種情況下我們可以嘗試用pycharm讀取文件,或者抽取一部分數據再打開(kāi)。
Q11:將Clean Data比對到核糖體是為了看什么?
A11:受樣品質(zhì)量和物種的影響,實(shí)驗方法去核糖體的效率可能不太穩定,而核糖體的污染會(huì )影響后續的分析,因此首先使用短 reads 比對工具 bowtie 將 High quality clean reads 比對到核糖體數據庫,最多允許 5 個(gè)錯配,去除比對上核糖體的 reads,將保留下來(lái)的數據用于后續的分析。如果比對到核糖體上的reads占比很低,則說(shuō)明數據質(zhì)量比較好,可以用于后續分析。
今天對轉錄組的常見(jiàn)問(wèn)題解答整理先分享到這里,如果您有其他疑惑,歡迎隨時(shí)聯(lián)系我們~