2013年3月23日土曜日

Sequence Read Archive (SRA)ファイルをfastqファイルに変換

論文中で使用したRNA-seqなどのNGSデータは、NCBIのホームページの「Gene Expression Omnibus (GEO)」にすべて登録されています。

しかし、このGEOに登録されているNGSデータは見慣れた「fastq」ファイルではなく、「Sequence Read Archive (SRA)」と呼ばれるファイルとして管理されています。

そのため、これらNGSデータを使用する際には、「sra」ファイルから「fastq」ファイルへ変換する必要があります。

ここでは、「sra→fastq」への変換方法の一例を紹介したいと思います。
変換ツールは、NCBIによって配布されている「SRA toolkit」を使用します。

〈SRA toolkitのダウンロード〉
(1)NCBIのサイトの上部にある検索欄のプルダウンメニューから「SRA」を選択し、検索欄には何も入れずに「Search」をクリック。

(2)Toolsの項目中にある「SRA software」をクリック。

(3)「1. NCBI SRA Toolkit latest release (February 20 2013, version 2.3.1 release) compiled binaries and md5 checksums*:」以下から、自分の使用しているOSに対応したSRA toolkitを選択し、ダウンロード。

〈SRA toolkitのインストール〉
(1)ダウンロードしたファイルを保存したディレクトリに移動。
$ cd Download/

$ ls
sratoolkit.2.3.1-ubuntu32.tar.gz

(2)ダウンロードしたファイルを解凍する。
$ tar zxvf sratoolkit.2.3.1-ubuntu32.tar.gz

(3)コンパイルされたプログラム(コマンド)に対して、パスを通す。
⇒SRA toolkitでは、すでにコンパイル済みにプログラムが「sratoolkit2.3.1-ubuntu32/bin」中に入っているので、そのディレクトリにパスを通すだけでOKです。
$ cd sratoolkit.2.3.1-ubuntu32/bin/ #パスを通したいファイルの所在を確認
$ ls

abi-dump                      ncbi               sra-stat
abi-dump.2                    nenctool           sra-stat.2
abi-dump.2.3.1                nenctool.2         sra-stat.2.3.1
abi-load                      nenctool.2.3.1     srf-load
abi-load.2                    pacbio-load        srf-load.2
abi-load.2.3.1                pacbio-load.2      srf-load.2.3.1
align-info                    pacbio-load.2.3.1  test-sra
align-info.2                  prefetch           test-sra.2
align-info.2.3.1              prefetch.2         test-sra.2.3.1
bam-load                      prefetch.2.3.1     vdb-config
bam-load.2                    rcexplain          vdb-config.2
bam-load.2.3.1                rcexplain.2        vdb-config.2.3.1
cg-load                       rcexplain.2.3.1    vdb-copy
cg-load.2                     refseq-load        vdb-copy.2
cg-load.2.3.1                 refseq-load.2      vdb-copy.2.3.1
configuration-assistant.perl  refseq-load.2.3.1  vdb-decrypt
fastq-dump                    sam-dump           vdb-decrypt.2
fastq-dump.2                  sam-dump.2         vdb-decrypt.2.3.1
fastq-dump.2.3.1              sam-dump.2.3.1     vdb-dump
fastq-load                    sff-dump           vdb-dump.2
fastq-load.2                  sff-dump.2         vdb-dump.2.3.1
fastq-load.2.3.1              sff-dump.2.3.1     vdb-encrypt
helicos-load                  sff-load           vdb-encrypt.2
helicos-load.2                sff-load.2         vdb-encrypt.2.3.1
helicos-load.2.3.1            sff-load.2.3.1     vdb-lock
illumina-dump                 sra-dbcc           vdb-lock.2
illumina-dump.2               sra-dbcc.2         vdb-lock.2.3.1
illumina-dump.2.3.1           sra-dbcc.2.3.1     vdb-passwd
illumina-load                 sra-kar            vdb-passwd.2
illumina-load.2               sra-kar.2          vdb-passwd.2.3.1
illumina-load.2.3.1           sra-kar.2.3.1      vdb-unlock
kar                           sra-pileup         vdb-unlock.2
kar.2                         sra-pileup.2       vdb-unlock.2.3.1
kar.2.3.1                     sra-pileup.2.3.1   vdb-validate
kdbmeta                       sra-sort           vdb-validate.2
kdbmeta.2                     sra-sort.2         vdb-validate.2.3.1
kdbmeta.2.3.1                 sra-sort.2.3.1


$ vi ~/.profile #viエディタを用いて、パスを通すディレクトリの所在を記述
赤文字で書いた部分を追加。(パスは任意にディレクトリに対して。)
export PATH="$PATH:/home/imamachi/file/samtools-0.1.19:/home/imamachi/Download/sratoolkit.2.3.1-ubuntu32/bin/"

$ source ~/.profile #上記の変更を適応

〈sra→fastqへの変換〉
(1)変換したいsraファイルのディレクトリへ移動後、下記のcommandを実行し、fastqファイルへの変換。
$ fastq-dump  ./SRR317197.sra -O ./sra_result
コマンドライン引数:  変換したいsraファイルの名前/ディレクトリの指定
-O: 変換したfastqファイルの保存先のディレクトリの指定

以上。

0 件のコメント:

コメントを投稿