2013年9月14日土曜日

WindowsとLinux間での改行コードの違いによる問題

改行コードの違いから、Perlなどのスクリプトで処理した時、予期せぬところに改行が入ったりすることがあります。

そこで、Linuxの改行コードに変換するcommandを紹介します。
dos2unix ファイル名
でLinuxの改行コードに変換可能です。データは上書きされます。

Illumina Adapter Sequences Letter: アダプター配列等の情報を探す(illumina)

fastqファイルのpreprocessingを段階で、アダプター配列を除去したい場合があると思います(small RNAのRNA-seqやCLIP-seqなど3'末端にリンカー配列を結合させたケースなど)。

しかし残念ながら、論文のMaterial&Methodsをみてもそのアダプターの配列が記載されていないことがあります。

アダプター配列がわからない場合、FastQCなどでリード中に高頻度で出現する配列をチェックして、それらの配列を除去するというのも1つの手ですが、単純にメーカーのサイトから配列情報を入手することも可能です。

Illuminaの場合、下記のサイトから「Illumina Adapter Sequences Letter」と呼ばれるアダプター配列等の配列情報が記載されたファイルをダウンロードできます。

http://support.illumina.com/downloads/illumina_adapter_sequences_letter.ilmn

このように、論文中に配列情報が記載されていなくてもサンプルプレップで使用したキットがわかっていればアダプター配列を特定することが可能です。

liftOver: ゲノム座標を異なるバージョンのゲノム座標に対応付けする

hg18のゲノム座標のデータを持っていて、hg19のゲノム座標に変換したい。そんな場面があるかと思います。

こういった異なるバージョン間でのゲノム座標の対応付けは、UCSCが提供している「liftOver」が便利です。

〈liftOverのダウンロード〉
(1)下記のURLからliftOverをダウンロード
・32bit版(Linux)
http://hgwdev.cse.ucsc.edu/~kent/exe/linux/liftOver.gz

・64bit版(Linux)
http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/liftOver

〈liftOverのインストール〉
(1)ダウンロードしたliftOverのファイル(32bit版では解凍する必要あり)に実行権限を与える
sudo chmod +x liftOver
(2)パスの通っているディレクトリ(e.g. /bin)に移動
sudo mv liftOver /bin
〈必要となるファイルの準備〉
・変換テーブル(例えば、「hg18⇒hg19」では、hg18ToHg19.over.chain)
(1)UCSC genome browserの「Downloads」から、特定の種(e.g. human)をクリックする。
例えば、http://hgdownload.soe.ucsc.edu/downloads.html#human

(2)移動先から、Inputファイルのゲノム座標のバージョンの場所まで移動
⇒下を見ていくと、例えば、「Mar. 2006 (hg18)」など各バージョンのデータが箇条書きになって並んでいるはず。

(3)「LiftOver files」をクリック。

(4)特定の変換テーブルを選択、クリックしデータをダウンロード。

・Bedファイル(変換したいゲノム座標の情報)
⇒各自で用意。

〈liftOver実行例〉
liftOver INPUT.bed hg18ToHg19.over.chain OUTPUT.bed ERROR.bed
コマンドライン引数が4つある。
・1つ目: 座標軸を変換したいインプットファイル(Bedファイル)の名前・ディレクトリを指定
・2つ目: 変換テーブルの名前・ディレクトリの指定
・3つ目: 変換後のアウトプットファイルの名前・ディレクトリの指定
・4つ目: 変換できなかったものの出力先

〈参考リンク〉
・NGS Surfer's Wiki - ゲノムのバージョンの違う情報を対応付ける
http://cell-innovation.nig.ac.jp/wiki/tiki-index.php?page=%E3%82%B2%E3%83%8E%E3%83%A0%E3%81%AE%E3%83%90%E3%83%BC%E3%82%B8%E3%83%A7%E3%83%B3%E3%81%AE%E9%81%95%E3%81%86%E6%83%85%E5%A0%B1%E3%82%92%E5%AF%BE%E5%BF%9C%E4%BB%98%E3%81%91%E3%82%8B