aibiology

Artificial intelligence in biology

0%

链特异性文库

链的方向性

  • 正链和负链 基因组中的正链(forward strand)和负链(reverse strand)是有区别的,正链是参考基因组序列,负链是其反向互补序列。

  • 正义链和反义链 正义链(sense strand)和反义链(antisense strand)是针对基因转录和翻译过程来定义的;正义链是DNA 双链中携带编码蛋白信息的链,也称为编码链,序列与mRNA序列相同;反义链是与正义链互补的一条链, 与mRNA序列反向互补,但是反义链是转录中给mRNA当做模板的链,因此反义链也是模板链。

在基因组中,有的基因的正义链是正链,有的基因的正义链是负链。因此,在测序文库构建中,双链DNA中 的一条链对某些基因来说是正义链,对另外一些基因来说是反义链。

总结: 图片来源于北大生科院PPTstrand-info

1
2
3
4
$ 正义链(sense strand)     == 编码链(coding strand)       == 非模板链(non template strand)
$ 反义链(antisense strand) == 非编码链(non coding strand) == 模板链(template strand)

$ 正链上可以同时存在正义链(sense strand)和反义链(antisense strand), 负链亦然。

链特异性文库

strand * 普通的RNA-Seq建库方式: 第一步,进行RNA到cDNA的反转录,第二步,在反转录以后,普通的RNA-Seq就直接使用random primer进行第2条链合成,随后加adapter,扩增成文库。 这样构建出来的RNA-Seq库进行测序以后是分不清这个序列是来自于genome的那条链的,因为被测序的有可能是gene的foward strand,也有可能是reverse strand。

  • 链特异性RNA-Seq建库方式: 链特异性建库(以图中间的dUTP方法为例),首先利用随机引物合成RNA的一条cDNA链(反义链,RNA为正义链),在合成第二条链的时候用dUTP代替dTTP(正义链), 加adaptor后用UDGase处理,将有U的第二条cDNA降解掉。降解发生之后,双链的文库就只剩下了一条链(反义链)。而这条链的两头是接的不同序列的接头。 通过PCR扩增,最终只保留了第一条cDNA(反义链)上机测序。这样最后的insert DNA fragment都是来自于第一条cDNA(反义链),也就是dUTP叫fr-firststrand的原因(测第一条链的fr)。 dUTP测序中的pair-read中的read1(R1)和基因的方向相反,read2(R2)和基因的方向相同。测序是5'->3'进行的。因为read1测的是第一链5'端(反义链),所以read1和基因的方向相反(反义链)。因为read2测的是第一链的3'端(反义链),所以,read2和insert序列反向互补(正义链),和基因的方向相同。因此,dUTP方法是RF。 FR

在reads比对到参考基因组时,那些比对到基因方向(正义链方向)的正链reads就是正义链reads,但是那些比对到基因方向反方向(反义链方向)的正链reads就是反义链reads。那么同样,比对到基因方向的负链reads就是正义链reads,而比对到基因方向反方向(反义链方向)的负链reads就是反义链reads。从而最终将所有正义链reads和反义链reads区分开来。因此在确定基因表达水平时,可以避免基因反义链上的reads匹配的干扰,从而更加准确的检测基因转录表达水平。而且LncRNA的测序也离不开链特异性建库技术。

  • 链特异性文库的优点:1、明确reads链信息的来源,便于基因结构注释;2、更加准确地基因定量

针对链特异性文库的软件设置

RNA-Seq Strand

forward (transcript) reverse (rev comp of transcript)
TopHat/Cufflinks --library-type fr-secondstrand fr-firststrand
STAR 1st read strand 2nd read strand
Picard CollectRnaSeqMetrics STRAND_SPECIFICITY FIRST_READ_TRANSCRIPTION_STRAND SECOND_READ_TRANSCRIPTION_STRAND
htseq-count -s/--stranded yes reverse
subread featureCounts -s 1 2
RSEM --forward-prob 1 0
Salmon/Sailfish --libType SF/ISF SR/ISR
HISAT2 --rna-strandness FR (F for single-end) RF (R for single-end)
Library Kit Illumina ScriptSeq Illumina TruSeq Stranded Total RNA