2013年5月26日日曜日

FASTX-toolkitをインストールする(Linux OS, Ubuntu)

FASTX-toolkitはFASTA・FASTQファイルの処理を行うことができるソフトウェアです。クオリティの高いリードを選抜したり、タグ配列の除去などに利用できます。

〈FASTX-toolkitのダウンロード〉
(1)下記のFASTX-toolkitのサイトへ移動。
http://hannonlab.cshl.edu/fastx_toolkit/index.html

(2)メニューの「Download & Installation」をクリック。
http://hannonlab.cshl.edu/fastx_toolkit/download.html

(3)「Download」の項にファイルが置いてあるので、
fastx_toolkit-0.0.13.2.tar.bz2
libgtextutils-0.6.1.tar.bz2
をそれぞれダウンロードする。

〈FASTX-toolkitのインストール〉
FASTX-toolkitには「libgtextutils-0.6」が必要となります。そこで、まずこのファイルをインストールしましょう。
#ファイルの解凍
$ bzip -d libgtextutils-0.6.1.tar.bz2
$ tar xvf libgtextutils-0.6.1.tar

#ディレクトリの移動
$ cd ./libgtextutils-0.6.1

#コンパイル(インストール)
$ ./configure
$ make
$ sudo make install


#ファイルの解凍
$ bzip -d libgtextutils-0.6.1 fastx_toolkit-0.0.13.2.tar.bz2
$ tar xvf libgtextutils-0.6.1 fastx_toolkit-0.0.13.2.tar

#ディレクトリの移動
cd ./fastx_toolkit-0.0.13.2

#コンパイル
$ ./configure
$ make

#パスを通す
$sudo cp ./bin/* /bin
⇒「*」は任意の文字列を表すメタ文字(ここでは、すべてのファイル名とマッチする)。

⇒今回はもともとパスの通っている「/bin」ディレクトリにファイルをコピペしましたが、もちろん「.profile」ファイルにパスを通す先のディレクトリの場所を書き加えてもOKです。

FASTX-toolkitのコマンドのうち、
・fasta_clipping_histogram
・The fastx_barcode_splitter
・The fastq_quality_boxplot
 の3つについては追加でPerlのモジュールやいくつかのソフトウェアをインストールする必要があります。個人的に、これら3つは今まで使ったことがないので、インストール方法については割愛します。

よくよくマニュアルをみてみると、「The fastx_barcode_splitter」を使ってFASTQファイルを分割できるようで、小さく分割したFASTQファイルを並列処理させる場合に使えそうですね。

〈参考文献〉
-FASTX-Toolkit_Command-line Usage
http://hannonlab.cshl.edu/fastx_toolkit/commandline.html

ディスクの容量に困ったらファイルを圧縮しておこう

大規模データを処理していると、あっという間にディスクの容量を食います。そのため、どうにかしてディスクの容量を抑える必要があります。昔解析したデータを順次消していくというのが手っ取り早い方法かも知れませんが、過去に解析したデータを残しておきたいケースもあると思います。

そこで、以下の圧縮率が高い「bzip2」形式での圧縮方法を紹介。

ディレクトリごと圧縮・解凍する方法
#圧縮
tar -cjvf dir.bz2.tar dir
c: アーカイブファイルの作成
j: bzip2形式の圧縮を同時に行う
v: 処理情報をprintする
f: アーカイブファイルを指定する
#解凍
tar jxvf dir.bz2.tar
-j: bzip2を通して処理を行う
x: 書庫からファイルを取り出す

また、圧縮や解凍をしつつ他の作業をしたい場合、「nohup」コマンドを利用すると便利です。このコマンドを先頭につけることにより、端末を閉じても、Linux OS自体をシャットダウンしない限り、裏でコマンドでの処理をし続けてくれます。

nohupを使うとさらに便利
nohup tar -cjvf dir.bz2.tar dir