2013年6月10日月曜日

blastclustを利用した冗長配列のクラスタリング

BlastclustはNCBIが提供するBlastアルゴリズムを利用した塩基配列もしくはアミノ酸配列のクラスタリングに利用されるソフトです。

近年の論文でもBlastclustは活用されており、例えばENCODEプロジェクトにおいてncRNAのTranscriptomeデータをクラスタリングする際に用いられたソフトでもあります。

主な使用方法としては、クラスタリングしたい配列データをFASTAファイルの形で用意して、Blastclustを実行させるだけです。もちろん、目的に応じてパラメータをいじくる必要はあります。

〈Blastclustのダウンロード〉
(1)下記のURLからBlastパッケージをダウンロードする
ftp://ftp.ncbi.nih.gov/blast/executables/release/2.2.26/

⇒自分が使っているOS向けのパッケージを選択。

⇒近年、「Blast」の機能を向上させた「Blast+」がリリースされていますが、Blast+のパッケージには「Blastclust」が入っていません(もしかしたら、別名で入っているのかな?)。そのため、現時点で最も最新の「Blast 2.2.26」をここではダウンロード先としています。

〈Blastclustのインストール〉
Blastのソフトウェアはすでにビルドされているので、ファイルの解凍とパスを通すだけで使用できるようになります。

ただ、そのままファイルを解凍してしまうと、カレントディレクトリにBlastのbinディレクトリなどの中身が出力されてしまうので、あらかじめBlast用のディレクトリを作成し、その中でファイルを解凍することをおすすめします。
# BLASTディレクトリの作成
$ mkdir BLAST

# ダウンロードしたblastパッケージをBLASTディレクトリに移動
$ mv ./blast-2.2.9-ia32-linux.tar.gz ./BLAST
⇒「BLASTディレクトリ」を作成した親ディレクトリ内に「blast-2.2.9-ia32-linux.tar.gz」ファイルがあることを想定しています。
# BLASTディレクトリに移動
$ cd ./BLAST

# ファイルの解凍
$ tar zxvf ./blast-2.2.9-ia32-linux.tar.gz
# ./profileのあるディレクトリに移動(Ubuntuのケース)
$ cd
$ pwd
/home/imamachi

# viエディタを用いた「./profile」の編集
$ vi .profile
export PATH="$PATH:/path/to/BLAST/bin"を追加
⇒geditなどのテキストエディタを用いて、編集してもよい。その場合、「.profile」は隠しファイルなので、Ubuntuのケースではホームフォルダからメニューバーの「表示」→「隠しファイルを表示する」にチェックを付けることで「.profile」を表示させる。

〈Blastclustの使用例〉
ここでは、遺伝子のisoformをクラスタリングしてみたいと思います。パラメータはENCODEプロジェクトで使用されたものをそのまま流用します。
$ blastclust -i /path/to/INPUT.fasta -o /path/to/OUTPUT.fasta \
-p F -L 0.4 -S 40

-i: 入力ファイルの指定(FASTA形式)
-o: 出力ファイルの指定
-p: 塩基配列なら「F」、アミノ酸配列なら「P」
-L: アライメントする配列の長さのカバー率(0.0-1.0(0%-100%の意味)の数字を指定できる。例えば、40%なら「0.4」と記述する)
-S:アライメントする配列の類似度(3以上の数字を指定した場合、identical residuesのパーセンテージを指定(3-100の範囲)) 
⇒各パラメータの詳しい計算方法については、下記のサイトを参照。

〈参考文献〉
-blastclust manual page
http://www.csc.fi/english/research/sciences/bioscience/programs/blast/blastclust

-バイオインフォマティクス blastclust (legacy blast)
http://bi.biopapyrus.net/app/blast/blastclust.html