青苹果乐园在线观看

新聞

NEWS CENTER

客戶(hù)中心

集團新聞

首頁(yè) > 新聞 > 集團新聞

答疑解惑 | 華銀康高通量測序檢測中心帶你解讀轉錄組常見(jiàn)問(wèn)題，洞悉數據分析內容！

2022-11-16 閱讀數：6082

轉錄組測序研究的是特定組織或細胞在某一發(fā)育階段或功能狀態(tài)下轉錄出的mRNA，結合二代高通量測序可以全面地獲得該物種在某一狀態(tài)下的所有轉錄本信息，可用于基礎研究、臨床診斷和藥物研發(fā)等領(lǐng)域。

當我們拿到轉錄組測序報告和數據結果時(shí)，是否對報告中的數據內容有疑惑？怎么在文章中闡述這些數據所代表的意義？今天華銀康高通量測序檢測中心為大家整理了轉錄組常見(jiàn)問(wèn)題解答內容，干貨滿(mǎn)滿(mǎn)，快來(lái)一起學(xué)習！

實(shí)驗建庫

Q1：轉錄組測序建庫方式有哪些？該如何選擇？

A1：原核生物樣本采用的是去核糖體建庫方式。由于原核生物中的mRNA上沒(méi)有polyA尾，沒(méi)法通過(guò)帶有Oligo（dT）的磁珠富集。所以可以用試劑盒去除rRNA，再對所有的mRNA、非編碼RNA（Non-coding RNA）以及游離的RNA進(jìn)行富集。

真核生物可以采用去核糖體建庫、Oligo（dT）富集mRNA這兩種建庫方式，由于真核生物mRNA的3’端存在polyA尾，可以用磁珠富集捕獲到mRNA。

這兩種建庫方式需要看樣本類(lèi)型和RIN值（RNA完整性）來(lái)選擇，比如RIN值在7以上可以采用Oligo（dT）建庫方式。反之，可以進(jìn)行去核糖體建庫方式。由于Oligo（dT）只是富集到的mRNA的3’端，如果片段發(fā)生斷裂會(huì )導致5’端的序列丟失，導致獲得的mRNA完整性不足，所以這一建庫方式對RNA完整性要求比較高。

分析結果

Q2：轉錄組測序報告和數據結果中重要的內容有哪些？

A2：首先，我們用RSEM(RNASeq by Expectation Maximization) 工具進(jìn)行基因以及轉錄本的表達定量，從而得到樣本中所有表達的基因定量結果。隨后，采用edgeR軟件進(jìn)行比較組中差異表達基因分析。最后，對這些篩選到的差異基因進(jìn)行GO和KEGG功能富集分析，對功能通路進(jìn)行注釋以及分析通路上富集到的差異基因。

Q3：如何篩選差異基因？怎么看目標基因在實(shí)驗組高/低表達？

A3：我們基于之前分析的所有轉錄本表達量數據文件，按照｜log2FC｜>= 1和 Pvalue < 0.05這兩個(gè)閾值條件進(jìn)行差異基因的篩選，那么FC的閾值范圍為FC>=2 或者FC<=-2。如果log2FC大于0，就說(shuō)明這個(gè)基因在實(shí)驗組是高表達的，反之，log2FC小于0，說(shuō)明在實(shí)驗組是低表達的。

Q4：在基因差異表達分析中，例如樣品1 vs 樣品2，如何理解上調和下調？

A4：‘樣品1 vs 樣品2’，則樣品1是對照組，樣品2是處理組。在相應的結果文件1-vs-2.GeneDiffExp.xls和1-vs-2.GeneDiffExpFilter.xls中，如果一個(gè)基因被記為是上調，就表明相對于樣品1（對照組），此基因在樣品2（處理組）中的表達量是上調的。

Q5：GSEA富集分析哪些數據內容？樣本數的要求？

A5：GSEA富集分析能幫助科研工作者們在兩種不同的生物學(xué)狀態(tài) （biological states）中，判斷某一組有特定意義的基因集合的表達模式更接近于哪一種。因此GSEA是一種非常常見(jiàn)且實(shí)用的分析方法，可以將數個(gè)基因組成的基因集與整個(gè)轉錄組、修飾組等做出簡(jiǎn)單而清晰的關(guān)聯(lián)分析。

一般我們GSEA富集分析要求的樣本數在3個(gè)生物學(xué)重復以上。

那么GSEA熱圖怎么看呢？

熱圖顯示了前緣子集中的（聚類(lèi)）基因。在熱圖中，表達值表示為顏色，其中顏色范圍（紅色，粉紅色，淺藍色，深藍色）顯示了表達值的范圍（高，中，中，低，最低）。

對照組和處理組表達量高低的問(wèn)題？

可以看熱圖中｜ES｜最大值對應的分組，就說(shuō)明該基因集在這個(gè)分組中高表達，處于一個(gè)激活的狀態(tài)，｜ES｜最高點(diǎn)右側基因集屬于核心基因集，對應表格中CORE ENRICHMENT為“Yes”的是核心基因集；

前面我們提到了ES，它的具體含義是什么呢？

每個(gè)基因對應的累計值就叫做富集得分 (Enrichment score, ES) ，而這個(gè)基因集的富集得分（ES）則定義為遍歷基因列表時(shí)遇到的離零的最大偏差，即峰值。峰值為正值表示基因集富集在列表的頂部（mut），負值表示富集在底部（wt）。

Q6：基因的表達量是基于什么計算的？

A6：表達定量的結果以FPKM為單位，具體計算公式如下。

RPKM：Reads Per Kilobase Million，指的是每一百條reads中，對基因的每1000個(gè)base而言比對到的reads數。RPKM用于雙端測序結果，由于每個(gè)fragment會(huì )包含兩個(gè)reads，使用FPKM計算基因的表達量時(shí)，可以避免同一個(gè)fragment的兩個(gè)reads計算2次的問(wèn)題。

Q7：KEGG中level1、2、3、4層級代表的含義？

A7：KEGG是一個(gè)綜合性公共數據庫，首先，生物代謝通路主要分為6類(lèi)，分別為：細胞過(guò)程（Cellular Processes）、環(huán)境信息處理（Environmental Information Processing）、遺傳信息處理（Genetic Information Processing）、人類(lèi)疾?。℉uman Diseases）、新陳代謝（Metabolism）、生物體系統（Organismal Systems），其中每類(lèi)又被系統分類(lèi)為二、三、四層。第二層又分為一些子pathway，第三層為其代謝通路圖；第四層為每個(gè)代謝通路圖的具體注釋信息。

怎么看目標通路是否顯著(zhù)？怎么看通路上富集基因表達的上/下調？

p<0.05時(shí)，目標通路是顯著(zhù)的，通過(guò)KEGG代謝通路的map圖可以看基因表達上/下調的情況，并且可以看出基因在通路上下游的位置，一般在前面的都處于上游的位置，并可以進(jìn)行后續的基因敲除實(shí)驗驗證目標差異基因對通路的抑制/促進(jìn)。

通路map圖中的實(shí)線(xiàn)和虛線(xiàn)各代表什么？

實(shí)線(xiàn)箭頭：①一步生化反應；②正向調控；③分子相互作用。

虛線(xiàn)箭頭：①間接反應；②不確定的生化反應。

KO富集氣泡圖中的rich factor指的什么？代表的含義？怎么計算？

Rich factor為該代謝路徑下差異基因數目與所有注釋到該路徑基因數目的比值，數值越大表示富集程度越大?？梢杂胏lusterprofiler R包去計算得到。

數據類(lèi)型

Q8：轉錄組歸一化的含義？發(fā)揮的作用？

A8：歸一化指的是在比較不同樣本轉錄組表達量的時(shí)候，需要量化成一個(gè)標準，然后將raw counts同時(shí)除以目標基因的外顯子長(cháng)度之和（也就是目標基因轉錄本長(cháng)度）和總的有效比對的read總數，這就是歸一化處理。

我們在比較不同樣本的轉錄本表達量時(shí)，是基于歸一化處理的數據文件進(jìn)行的。

Q9：如何理解測序隨機性圖（即reads在參考基因組上的分布）？隨機性好壞的標準是什么？

A9：隨機性是測序質(zhì)量的一個(gè)判定因素，目前尚沒(méi)有標準來(lái)評估隨機性的好壞。但通常來(lái)說(shuō)，如果測序隨機較好，reads會(huì )較均勻地分布在參考序列上。

Q10：原始數據都包含了哪些內容？原始數據可以用什么軟件打開(kāi)查看？

A10：測序得到的原始圖像數據經(jīng)base calling轉化為序列數據，我們稱(chēng)之為Raw data，結果以FASTQ文件格式存儲，包含reads的序列以及堿基的測序質(zhì)量。在FASTQ格式文件中每個(gè)read由四行描述，如下：

@A80GVTABXX:4:1:2587:1979#ACAGTGAT/1

NTTTGATATGTGTGAGGACGTCTGCAGCGTCACCTTTATCGGCCATGGT

BTTMKZXUUUdddddddddddddddddddddddddddadddddd^WYYU

每個(gè)序列共有4行，第1行和第3行是序列名稱(chēng)（有的fq文件為了節省存儲空間會(huì )省略第三行“＋”后面的序列名稱(chēng)），由測序儀產(chǎn)生；第2行是序列；第4行是序列的測序質(zhì)量，每個(gè)字符對應第2行每個(gè)堿基，第四行每個(gè)字符對應的ASCII值減去64，即為該堿基的測序質(zhì)量值，比如c對應的ASCII值為99，那么其對應的堿基質(zhì)量值是35。

可以用記事本或者notepad ++打開(kāi)；但是有時(shí)會(huì )出現FASTQ文件打不開(kāi)的情況，這是什么原因呢？

有可能是因為文件太大，在這種情況下我們可以嘗試用pycharm讀取文件，或者抽取一部分數據再打開(kāi)。

Q11：將Clean Data比對到核糖體是為了看什么？

A11：受樣品質(zhì)量和物種的影響，實(shí)驗方法去核糖體的效率可能不太穩定，而核糖體的污染會(huì )影響后續的分析，因此首先使用短 reads 比對工具 bowtie 將 High quality clean reads 比對到核糖體數據庫，最多允許 5 個(gè)錯配，去除比對上核糖體的 reads，將保留下來(lái)的數據用于后續的分析。如果比對到核糖體上的reads占比很低，則說(shuō)明數據質(zhì)量比較好，可以用于后續分析。

今天對轉錄組的常見(jiàn)問(wèn)題解答整理先分享到這里，如果您有其他疑惑，歡迎隨時(shí)聯(lián)系我們~

上一篇：喜訊丨華銀康集團高通量實(shí)驗室2022年四次“國考”全滿(mǎn)分通過(guò)！
下一篇：精彩回顧！華銀康感染綜合診斷中心重癥學(xué)術(shù)研討會(huì )成功舉辦

新聞

客戶(hù)中心

在線(xiàn)留言

申請單下載

集團新聞

企業(yè)概況

新聞

服務(wù)領(lǐng)域

資源下載

人才發(fā)展

聯(lián)系我們

注冊登錄