論文中で使用したRNA-seqなどのNGSデータは、NCBIのホームページの「Gene Expression Omnibus (GEO)」にすべて登録されています。
しかし、このGEOに登録されているNGSデータは見慣れた「fastq」ファイルではなく、「Sequence Read Archive (SRA)」と呼ばれるファイルとして管理されています。
そのため、これらNGSデータを使用する際には、「sra」ファイルから「fastq」ファイルへ変換する必要があります。
ここでは、「sra→fastq」への変換方法の一例を紹介したいと思います。
変換ツールは、NCBIによって配布されている「SRA toolkit」を使用します。
〈SRA toolkitのダウンロード〉
(1)NCBIのサイトの上部にある検索欄のプルダウンメニューから「SRA」を選択し、検索欄には何も入れずに「Search」をクリック。
(2)Toolsの項目中にある「SRA software」をクリック。
(3)「1. NCBI SRA Toolkit latest release (February 20 2013, version 2.3.1 release) compiled binaries and md5 checksums*:」以下から、自分の使用しているOSに対応したSRA toolkitを選択し、ダウンロード。
〈SRA toolkitのインストール〉
(1)ダウンロードしたファイルを保存したディレクトリに移動。
$ cd Download/
$ ls
sratoolkit.2.3.1-ubuntu32.tar.gz
(2)ダウンロードしたファイルを解凍する。
$ tar zxvf sratoolkit.2.3.1-ubuntu32.tar.gz
(3)コンパイルされたプログラム(コマンド)に対して、パスを通す。
⇒SRA toolkitでは、すでにコンパイル済みにプログラムが「sratoolkit2.3.1-ubuntu32/bin」中に入っているので、そのディレクトリにパスを通すだけでOKです。
$ cd sratoolkit.2.3.1-ubuntu32/bin/ #パスを通したいファイルの所在を確認
$ ls
abi-dump ncbi sra-stat
abi-dump.2 nenctool sra-stat.2
abi-dump.2.3.1 nenctool.2 sra-stat.2.3.1
abi-load nenctool.2.3.1 srf-load
abi-load.2 pacbio-load srf-load.2
abi-load.2.3.1 pacbio-load.2 srf-load.2.3.1
align-info pacbio-load.2.3.1 test-sra
align-info.2 prefetch test-sra.2
align-info.2.3.1 prefetch.2 test-sra.2.3.1
bam-load prefetch.2.3.1 vdb-config
bam-load.2 rcexplain vdb-config.2
bam-load.2.3.1 rcexplain.2 vdb-config.2.3.1
cg-load rcexplain.2.3.1 vdb-copy
cg-load.2 refseq-load vdb-copy.2
cg-load.2.3.1 refseq-load.2 vdb-copy.2.3.1
configuration-assistant.perl refseq-load.2.3.1 vdb-decrypt
fastq-dump sam-dump vdb-decrypt.2
fastq-dump.2 sam-dump.2 vdb-decrypt.2.3.1
fastq-dump.2.3.1 sam-dump.2.3.1 vdb-dump
fastq-load sff-dump vdb-dump.2
fastq-load.2 sff-dump.2 vdb-dump.2.3.1
fastq-load.2.3.1 sff-dump.2.3.1 vdb-encrypt
helicos-load sff-load vdb-encrypt.2
helicos-load.2 sff-load.2 vdb-encrypt.2.3.1
helicos-load.2.3.1 sff-load.2.3.1 vdb-lock
illumina-dump sra-dbcc vdb-lock.2
illumina-dump.2 sra-dbcc.2 vdb-lock.2.3.1
illumina-dump.2.3.1 sra-dbcc.2.3.1 vdb-passwd
illumina-load sra-kar vdb-passwd.2
illumina-load.2 sra-kar.2 vdb-passwd.2.3.1
illumina-load.2.3.1 sra-kar.2.3.1 vdb-unlock
kar sra-pileup vdb-unlock.2
kar.2 sra-pileup.2 vdb-unlock.2.3.1
kar.2.3.1 sra-pileup.2.3.1 vdb-validate
kdbmeta sra-sort vdb-validate.2
kdbmeta.2 sra-sort.2 vdb-validate.2.3.1
kdbmeta.2.3.1 sra-sort.2.3.1
$ vi ~/.profile #viエディタを用いて、パスを通すディレクトリの所在を記述
赤文字で書いた部分を追加。(パスは任意にディレクトリに対して。)
export PATH="$PATH:/home/imamachi/file/samtools-0.1.19:/home/imamachi/Download/sratoolkit.2.3.1-ubuntu32/bin/"
$ source ~/.profile #上記の変更を適応
〈sra→fastqへの変換〉
(1)変換したいsraファイルのディレクトリへ移動後、下記のcommandを実行し、fastqファイルへの変換。
$ fastq-dump ./SRR317197.sra -O ./sra_result
⇒コマンドライン引数: 変換したいsraファイルの名前/ディレクトリの指定
⇒-O: 変換したfastqファイルの保存先のディレクトリの指定
以上。
0 件のコメント:
コメントを投稿