ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

一文掌握二代测序NGS

2021-12-29 21:04:40  阅读:251  来源: 互联网

标签:RPKM 二代 测序 样本 基因 per reads NGS


0 (1).png

目录

一. RPKM,FPKM,TPM的区别
二. 二代测序中的barcode
三. De Novo sequencing & resequencing
四. depth & coverage
五. 高通量测序技术
六. Sanger测序
七. 三代测序技术
八. 外显子测序
九. small RNA测序
十. SNP、SNV、InDel、CNV、SV
十一. Duplication
十二. Read
十三. Contig/Scaffold
十四. gene fusion,基因融合
十五. Paired-end reads和single reads

一.RPKM,FPKM,TPM的区别

先说一个背景:
在运用NGS检测基因表达量时,如果直接用每个基因对应的reads数来统计表达量,常常会导致偏差。偏差主要来源于2个方面:
1) 测序深度;
2) 基因长度。
测序深度越深,基因长度越长,对于随机取样的NGS测序来说,越容易测到该基因的reads,即相应的reads数越多。
因此,基于一定标准,将基因表达量均一化之后再做描述,就能避免上述偏差,获得有意义的结果。
在此,介绍几个均一化之后的表达量的概念:

RPKM: Reads Per Kilobase per Million mapped reads (每千个碱基的转录每百万映射读取的reads)
FPKM: Fragments Per Kilobase per Million mapped fragments(每千个碱基的转录每百万映射读取的fragments)
TPM:Transcripts Per Kilobase per Million mapped reads (每千个碱基的转录每百万映射读取的Transcripts)
举一个简单例子:
表1. 各基因reads数。

基因名(长度)样本A样本B样本C
alpha(2kb)101230
beta(4kb)202560
gama(1kb)5815
theta(10kb)001

大家可以清楚地看到,样本C的4个基因read counts数目明显多於其他两个样本,説明其测序深度较高,基因beta的长度的基因alpha的两倍,也使得其read counts在三个样本中都高於alpha。接下来我们要做就是对这个矩阵进行標准化,分別计算RPKM, FPKM和TPM,为了使数值可读性更好,下面的计算中我们用10代表million。

我们先来説説RPKM怎么算。第一步先將测序深度標准化,计算方法很简单,先分別计算出每个样本的总reads数(这里以10为单位),然后將表中数据分別除以总reads数即可,这样就得到了reads per million. 如下表2:
表2. 各基因reads per million。

文章剩余内容查看<<<<<

 

标签:RPKM,二代,测序,样本,基因,per,reads,NGS
来源: https://blog.csdn.net/leroylee7/article/details/122224562

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有