当前位置:首页 > 行业动态 > 正文

HISAT2 Bowtie2 提取唯一比对 unique mapping reads

HISAT2和Bowtie2是两种常用的基因组比对工具,用于提取唯一比对的unique mapping reads。

HISAT2 Bowtie2 提取唯一比对 unique mapping reads

在生物信息学中,比对是分析RNA-seq数据的关键步骤之一,比对是将测序数据与参考基因组进行匹配的过程,以确定每个reads在基因组上的位置,HISAT2和Bowtie2是常用的比对工具,它们可以有效地将reads与参考基因组进行比对,在本篇文章中,我们将介绍如何使用HISAT2和Bowtie2提取唯一比对的unique mapping reads。

1、HISAT2简介

HISAT2是一个快速而准确的RNA-seq比对工具,它使用了一种称为k-mer的方法来加速比对过程,HISAT2支持多种比对模式,包括双末端比对、单末端比对和多重比对等,HISAT2还提供了丰富的参数选项,可以根据不同的需求进行调整。

2、Bowtie2简介

Bowtie2是一个高性能的比对工具,它可以将reads与参考基因组进行比对,并输出比对结果,Bowtie2支持多种比对模式,包括双末端比对、单末端比对和多重比对等,Bowtie2还提供了丰富的参数选项,可以根据不同的需求进行调整。

3、提取唯一比对的unique mapping reads

在使用HISAT2或Bowtie2进行比对后,我们可以使用一些工具来提取唯一比对的unique mapping reads,这些工具可以帮助我们筛选出只与参考基因组匹配一次的reads,从而减少冗余的比对结果。

3、1 使用Samtools提取unique mapping reads

Samtools是一个用于处理SAM/BAM文件的工具集,它提供了许多有用的功能,包括提取unique mapping reads,我们可以使用以下命令来提取unique mapping reads:

samtools view -b -f 4 input.bam > output.bam

input.bam是输入的SAM/BAM文件,output.bam是输出的SAM/BAM文件。-b选项表示只输出读取的碱基序列,-f 4选项表示只输出unique mapping reads。

3、2 使用Picard提取unique mapping reads

Picard是一个用于处理SAM/BAM文件的工具集,它提供了许多有用的功能,包括提取unique mapping reads,我们可以使用以下命令来提取unique mapping reads:

java -jar picard.jar ExtractIlluminaBases 
    --INPUT input.bam 
    --OUTPUT output.bam 
    --VALIDATION_STRINGENCY LENIENT 
    --MAX_RECORDS_IN_RAM 500000000 
    --MINIMUM_BASE_QUALITY 20 
    --EXCLUDE_INDELS true 
    --OVERWRITE 
    --CREATE_INDEX true 
    --VALIDATION_LEVEL SILENT 
    --ASSUME_SORTED true 
    --METRICS_FILE metrics.txt 
    --READ_GROUP_TAGS RG:Z:sample 
    --VALIDATION_REGIONS regions.bed 
    --FILTERING_MODE AUTOMATIC 
    --FILTERING_THRESHOLD 1000000 
    --FILTERING_QUERY_NAME "adapter" 
    --FILTERING_MULTIMAP_DISTANCE 1000000 
    --FILTERING_MULTIMAP_PROBABILITY 0.95 
    --FILTERING_NOT_FOUND_RATE 0.1 
    --FILTERING_DUPLICATE_RATE 0.1 
    --FILTERING_MISMATCHED_RATE 0.1 
    --FILTERING_LOW_QUALITY_BASES NONE 
    --FILTERING_ILLUMINACLIP TruSeq3-PE.fa:2:30:10 
    --FILTERING_INTERVAL 100 
    --FILTERING_ADAPTER_SHIFT 10 
    --FILTERING_ADAPTER_SIZE 3 
    --FILTERING_MAX_N_CONSECUTIVE_ADAPTERS 1 
    --FILTERING_MIN_LENGTH 36 
    --FILTERING_MAX_LENGTH 150 
    --FILTERING_MINIMUM_BASEQUALITY 20 
    --FILTERING_SKIP_STRANDED true 
    --FILTERING_FORCECARD true 
    --FILTERING_REMOVE_DUPLICATES true 
    --FILTERING_MAPQ 20 
    --FILTERING_DISCARD_SECONDARY true 
    --FILTERING_PRIMARY_ALIGNMENTS true 
    --FILTERING_OVERLAPPING_READS false 
    --FILTERING_INTERVALS file:intervals.list 
    --FILTERING_INTERVALS file:intervals.list 

input.bam是输入的SAM/BAM文件,output.bam是输出的SAM/BAM文件,其他选项可以根据需要进行设置。

4、相关问题与解答

4、1 Q: 什么是k-mer?

A: k-mer是指长度为k的连续DNA序列,在比对过程中,k-mer可以用于快速定位reads在参考基因组上的位置,如果一个read的长度为100bp,那么它的k-mer就是所有长度为100bp的连续DNA序列。

4、2 Q: 什么是unique mapping reads?

A: unique mapping reads是指在比对过程中只与参考基因组匹配一次的reads,这些reads不会与其他reads重叠,因此可以用于分析基因表达水平、剪接变体等。

4、3 Q: 为什么需要提取unique mapping reads?

A: unique mapping reads可以减少冗余的比对结果,从而提高分析的准确性和效率,如果不去除冗余的比对结果,可能会导致分析结果的误差和不确定性。

0