近年の論文でもBlastclustは活用されており、例えばENCODEプロジェクトにおいてncRNAのTranscriptomeデータをクラスタリングする際に用いられたソフトでもあります。
主な使用方法としては、クラスタリングしたい配列データをFASTAファイルの形で用意して、Blastclustを実行させるだけです。もちろん、目的に応じてパラメータをいじくる必要はあります。
〈Blastclustのダウンロード〉
(1)下記のURLからBlastパッケージをダウンロードする
ftp://ftp.ncbi.nih.gov/blast/executables/release/2.2.26/
⇒自分が使っているOS向けのパッケージを選択。
⇒近年、「Blast」の機能を向上させた「Blast+」がリリースされていますが、Blast+のパッケージには「Blastclust」が入っていません(もしかしたら、別名で入っているのかな?)。そのため、現時点で最も最新の「Blast 2.2.26」をここではダウンロード先としています。
〈Blastclustのインストール〉
Blastのソフトウェアはすでにビルドされているので、ファイルの解凍とパスを通すだけで使用できるようになります。
ただ、そのままファイルを解凍してしまうと、カレントディレクトリにBlastのbinディレクトリなどの中身が出力されてしまうので、あらかじめBlast用のディレクトリを作成し、その中でファイルを解凍することをおすすめします。
# BLASTディレクトリの作成 $ mkdir BLAST # ダウンロードしたblastパッケージをBLASTディレクトリに移動 $ mv ./blast-2.2.9-ia32-linux.tar.gz ./BLAST⇒「BLASTディレクトリ」を作成した親ディレクトリ内に「blast-2.2.9-ia32-linux.tar.gz」ファイルがあることを想定しています。
# BLASTディレクトリに移動 $ cd ./BLAST # ファイルの解凍 $ tar zxvf ./blast-2.2.9-ia32-linux.tar.gz
# ./profileのあるディレクトリに移動(Ubuntuのケース) $ cd $ pwd /home/imamachi # viエディタを用いた「./profile」の編集 $ vi .profile export PATH="$PATH:/path/to/BLAST/bin"を追加⇒geditなどのテキストエディタを用いて、編集してもよい。その場合、「.profile」は隠しファイルなので、Ubuntuのケースではホームフォルダからメニューバーの「表示」→「隠しファイルを表示する」にチェックを付けることで「.profile」を表示させる。
〈Blastclustの使用例〉
ここでは、遺伝子のisoformをクラスタリングしてみたいと思います。パラメータはENCODEプロジェクトで使用されたものをそのまま流用します。
$ blastclust -i /path/to/INPUT.fasta -o /path/to/OUTPUT.fasta \ -p F -L 0.4 -S 40 -i: 入力ファイルの指定(FASTA形式) -o: 出力ファイルの指定 -p: 塩基配列なら「F」、アミノ酸配列なら「P」 -L: アライメントする配列の長さのカバー率(0.0-1.0(0%-100%の意味)の数字を指定できる。例えば、40%なら「0.4」と記述する) -S:アライメントする配列の類似度(3以上の数字を指定した場合、identical residuesのパーセンテージを指定(3-100の範囲))⇒各パラメータの詳しい計算方法については、下記のサイトを参照。
〈参考文献〉
-blastclust manual page
http://www.csc.fi/english/research/sciences/bioscience/programs/blast/blastclust
-バイオインフォマティクス blastclust (legacy blast)
http://bi.biopapyrus.net/app/blast/blastclust.html