男女无遮挡羞羞视频免费网站, ,性XXXXFREEXXXXX,破产姐妹第五季

新聞

NEWS CENTER

客戶中心

集團(tuán)新聞

首頁 > 新聞 > 集團(tuán)新聞

答疑解惑 | 華銀康高通量測(cè)序檢測(cè)中心帶你解讀轉(zhuǎn)錄組常見問題，洞悉數(shù)據(jù)分析內(nèi)容！

2022-11-16 閱讀數(shù)：6958

轉(zhuǎn)錄組測(cè)序研究的是特定組織或細(xì)胞在某一發(fā)育階段或功能狀態(tài)下轉(zhuǎn)錄出的mRNA，結(jié)合二代高通量測(cè)序可以全面地獲得該物種在某一狀態(tài)下的所有轉(zhuǎn)錄本信息，可用于基礎(chǔ)研究、臨床診斷和藥物研發(fā)等領(lǐng)域。

當(dāng)我們拿到轉(zhuǎn)錄組測(cè)序報(bào)告和數(shù)據(jù)結(jié)果時(shí)，是否對(duì)報(bào)告中的數(shù)據(jù)內(nèi)容有疑惑？怎么在文章中闡述這些數(shù)據(jù)所代表的意義？今天華銀康高通量測(cè)序檢測(cè)中心為大家整理了轉(zhuǎn)錄組常見問題解答內(nèi)容，干貨滿滿，快來一起學(xué)習(xí)！

實(shí)驗(yàn)建庫

Q1：轉(zhuǎn)錄組測(cè)序建庫方式有哪些？該如何選擇？

A1：原核生物樣本采用的是去核糖體建庫方式。由于原核生物中的mRNA上沒有polyA尾，沒法通過帶有Oligo（dT）的磁珠富集。所以可以用試劑盒去除rRNA，再對(duì)所有的mRNA、非編碼RNA（Non-coding RNA）以及游離的RNA進(jìn)行富集。

真核生物可以采用去核糖體建庫、Oligo（dT）富集mRNA這兩種建庫方式，由于真核生物mRNA的3’端存在polyA尾，可以用磁珠富集捕獲到mRNA。

這兩種建庫方式需要看樣本類型和RIN值（RNA完整性）來選擇，比如RIN值在7以上可以采用Oligo（dT）建庫方式。反之，可以進(jìn)行去核糖體建庫方式。由于Oligo（dT）只是富集到的mRNA的3’端，如果片段發(fā)生斷裂會(huì)導(dǎo)致5’端的序列丟失，導(dǎo)致獲得的mRNA完整性不足，所以這一建庫方式對(duì)RNA完整性要求比較高。

分析結(jié)果

Q2：轉(zhuǎn)錄組測(cè)序報(bào)告和數(shù)據(jù)結(jié)果中重要的內(nèi)容有哪些？

A2：首先，我們用RSEM(RNASeq by Expectation Maximization) 工具進(jìn)行基因以及轉(zhuǎn)錄本的表達(dá)定量，從而得到樣本中所有表達(dá)的基因定量結(jié)果。隨后，采用edgeR軟件進(jìn)行比較組中差異表達(dá)基因分析。最后，對(duì)這些篩選到的差異基因進(jìn)行GO和KEGG功能富集分析，對(duì)功能通路進(jìn)行注釋以及分析通路上富集到的差異基因。

Q3：如何篩選差異基因？怎么看目標(biāo)基因在實(shí)驗(yàn)組高/低表達(dá)？

A3：我們基于之前分析的所有轉(zhuǎn)錄本表達(dá)量數(shù)據(jù)文件，按照｜log2FC｜>= 1和 Pvalue < 0.05這兩個(gè)閾值條件進(jìn)行差異基因的篩選，那么FC的閾值范圍為FC>=2 或者FC<=-2。如果log2FC大于0，就說明這個(gè)基因在實(shí)驗(yàn)組是高表達(dá)的，反之，log2FC小于0，說明在實(shí)驗(yàn)組是低表達(dá)的。

Q4：在基因差異表達(dá)分析中，例如樣品1 vs 樣品2，如何理解上調(diào)和下調(diào)？

A4：‘樣品1 vs 樣品2’，則樣品1是對(duì)照組，樣品2是處理組。在相應(yīng)的結(jié)果文件1-vs-2.GeneDiffExp.xls和1-vs-2.GeneDiffExpFilter.xls中，如果一個(gè)基因被記為是上調(diào)，就表明相對(duì)于樣品1（對(duì)照組），此基因在樣品2（處理組）中的表達(dá)量是上調(diào)的。

Q5：GSEA富集分析哪些數(shù)據(jù)內(nèi)容？樣本數(shù)的要求？

A5：GSEA富集分析能幫助科研工作者們?cè)趦煞N不同的生物學(xué)狀態(tài) （biological states）中，判斷某一組有特定意義的基因集合的表達(dá)模式更接近于哪一種。因此GSEA是一種非常常見且實(shí)用的分析方法，可以將數(shù)個(gè)基因組成的基因集與整個(gè)轉(zhuǎn)錄組、修飾組等做出簡(jiǎn)單而清晰的關(guān)聯(lián)分析。

一般我們GSEA富集分析要求的樣本數(shù)在3個(gè)生物學(xué)重復(fù)以上。

那么GSEA熱圖怎么看呢？

熱圖顯示了前緣子集中的（聚類）基因。在熱圖中，表達(dá)值表示為顏色，其中顏色范圍（紅色，粉紅色，淺藍(lán)色，深藍(lán)色）顯示了表達(dá)值的范圍（高，中，中，低，最低）。

對(duì)照組和處理組表達(dá)量高低的問題？

可以看熱圖中｜ES｜最大值對(duì)應(yīng)的分組，就說明該基因集在這個(gè)分組中高表達(dá)，處于一個(gè)激活的狀態(tài)，｜ES｜最高點(diǎn)右側(cè)基因集屬于核心基因集，對(duì)應(yīng)表格中CORE ENRICHMENT為“Yes”的是核心基因集；

前面我們提到了ES，它的具體含義是什么呢？

每個(gè)基因?qū)?yīng)的累計(jì)值就叫做富集得分 (Enrichment score, ES) ，而這個(gè)基因集的富集得分（ES）則定義為遍歷基因列表時(shí)遇到的離零的最大偏差，即峰值。峰值為正值表示基因集富集在列表的頂部（mut），負(fù)值表示富集在底部（wt）。

Q6：基因的表達(dá)量是基于什么計(jì)算的？

A6：表達(dá)定量的結(jié)果以FPKM為單位，具體計(jì)算公式如下。

RPKM：Reads Per Kilobase Million，指的是每一百條reads中，對(duì)基因的每1000個(gè)base而言比對(duì)到的reads數(shù)。RPKM用于雙端測(cè)序結(jié)果，由于每個(gè)fragment會(huì)包含兩個(gè)reads，使用FPKM計(jì)算基因的表達(dá)量時(shí)，可以避免同一個(gè)fragment的兩個(gè)reads計(jì)算2次的問題。

Q7：KEGG中l(wèi)evel1、2、3、4層級(jí)代表的含義？

A7：KEGG是一個(gè)綜合性公共數(shù)據(jù)庫，首先，生物代謝通路主要分為6類，分別為：細(xì)胞過程（Cellular Processes）、環(huán)境信息處理（Environmental Information Processing）、遺傳信息處理（Genetic Information Processing）、人類疾?。℉uman Diseases）、新陳代謝（Metabolism）、生物體系統(tǒng)（Organismal Systems），其中每類又被系統(tǒng)分類為二、三、四層。第二層又分為一些子pathway，第三層為其代謝通路圖；第四層為每個(gè)代謝通路圖的具體注釋信息。

怎么看目標(biāo)通路是否顯著？怎么看通路上富集基因表達(dá)的上/下調(diào)？

p<0.05時(shí)，目標(biāo)通路是顯著的，通過KEGG代謝通路的map圖可以看基因表達(dá)上/下調(diào)的情況，并且可以看出基因在通路上下游的位置，一般在前面的都處于上游的位置，并可以進(jìn)行后續(xù)的基因敲除實(shí)驗(yàn)驗(yàn)證目標(biāo)差異基因?qū)ν返囊种?促進(jìn)。

通路map圖中的實(shí)線和虛線各代表什么？

實(shí)線箭頭：①一步生化反應(yīng)；②正向調(diào)控；③分子相互作用。

虛線箭頭：①間接反應(yīng)；②不確定的生化反應(yīng)。

KO富集氣泡圖中的rich factor指的什么？代表的含義？怎么計(jì)算？

Rich factor為該代謝路徑下差異基因數(shù)目與所有注釋到該路徑基因數(shù)目的比值，數(shù)值越大表示富集程度越大?？梢杂胏lusterprofiler R包去計(jì)算得到。

數(shù)據(jù)類型

Q8：轉(zhuǎn)錄組歸一化的含義？發(fā)揮的作用？

A8：歸一化指的是在比較不同樣本轉(zhuǎn)錄組表達(dá)量的時(shí)候，需要量化成一個(gè)標(biāo)準(zhǔn)，然后將raw counts同時(shí)除以目標(biāo)基因的外顯子長(zhǎng)度之和（也就是目標(biāo)基因轉(zhuǎn)錄本長(zhǎng)度）和總的有效比對(duì)的read總數(shù)，這就是歸一化處理。

我們?cè)诒容^不同樣本的轉(zhuǎn)錄本表達(dá)量時(shí)，是基于歸一化處理的數(shù)據(jù)文件進(jìn)行的。

Q9：如何理解測(cè)序隨機(jī)性圖（即reads在參考基因組上的分布）？隨機(jī)性好壞的標(biāo)準(zhǔn)是什么？

A9：隨機(jī)性是測(cè)序質(zhì)量的一個(gè)判定因素，目前尚沒有標(biāo)準(zhǔn)來評(píng)估隨機(jī)性的好壞。但通常來說，如果測(cè)序隨機(jī)較好，reads會(huì)較均勻地分布在參考序列上。

Q10：原始數(shù)據(jù)都包含了哪些內(nèi)容？原始數(shù)據(jù)可以用什么軟件打開查看？

A10：測(cè)序得到的原始圖像數(shù)據(jù)經(jīng)base calling轉(zhuǎn)化為序列數(shù)據(jù)，我們稱之為Raw data，結(jié)果以FASTQ文件格式存儲(chǔ)，包含reads的序列以及堿基的測(cè)序質(zhì)量。在FASTQ格式文件中每個(gè)read由四行描述，如下：

@A80GVTABXX:4:1:2587:1979#ACAGTGAT/1

NTTTGATATGTGTGAGGACGTCTGCAGCGTCACCTTTATCGGCCATGGT

BTTMKZXUUUdddddddddddddddddddddddddddadddddd^WYYU

每個(gè)序列共有4行，第1行和第3行是序列名稱（有的fq文件為了節(jié)省存儲(chǔ)空間會(huì)省略第三行“＋”后面的序列名稱），由測(cè)序儀產(chǎn)生；第2行是序列；第4行是序列的測(cè)序質(zhì)量，每個(gè)字符對(duì)應(yīng)第2行每個(gè)堿基，第四行每個(gè)字符對(duì)應(yīng)的ASCII值減去64，即為該堿基的測(cè)序質(zhì)量值，比如c對(duì)應(yīng)的ASCII值為99，那么其對(duì)應(yīng)的堿基質(zhì)量值是35。

可以用記事本或者notepad ++打開；但是有時(shí)會(huì)出現(xiàn)FASTQ文件打不開的情況，這是什么原因呢？

有可能是因?yàn)槲募?，在這種情況下我們可以嘗試用pycharm讀取文件，或者抽取一部分?jǐn)?shù)據(jù)再打開。

Q11：將Clean Data比對(duì)到核糖體是為了看什么？

A11：受樣品質(zhì)量和物種的影響，實(shí)驗(yàn)方法去核糖體的效率可能不太穩(wěn)定，而核糖體的污染會(huì)影響后續(xù)的分析，因此首先使用短 reads 比對(duì)工具 bowtie 將 High quality clean reads 比對(duì)到核糖體數(shù)據(jù)庫，最多允許 5 個(gè)錯(cuò)配，去除比對(duì)上核糖體的 reads，將保留下來的數(shù)據(jù)用于后續(xù)的分析。如果比對(duì)到核糖體上的reads占比很低，則說明數(shù)據(jù)質(zhì)量比較好，可以用于后續(xù)分析。

今天對(duì)轉(zhuǎn)錄組的常見問題解答整理先分享到這里，如果您有其他疑惑，歡迎隨時(shí)聯(lián)系我們~

上一篇：喜訊丨華銀康集團(tuán)高通量實(shí)驗(yàn)室2022年四次“國(guó)考”全滿分通過！
下一篇：精彩回顧！華銀康感染綜合診斷中心重癥學(xué)術(shù)研討會(huì)成功舉辦

新聞

客戶中心

在線留言

申請(qǐng)單下載

集團(tuán)新聞

企業(yè)概況

新聞

服務(wù)領(lǐng)域

資源下載

人才發(fā)展

聯(lián)系我們

注冊(cè)登錄