hg18のゲノム座標のデータを持っていて、hg19のゲノム座標に変換したい。そんな場面があるかと思います。
こういった異なるバージョン間でのゲノム座標の対応付けは、UCSCが提供している「liftOver」が便利です。
〈liftOverのダウンロード〉
(1)下記のURLからliftOverをダウンロード
・32bit版(Linux)
http://hgwdev.cse.ucsc.edu/~kent/exe/linux/liftOver.gz
・64bit版(Linux)
http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/liftOver
〈liftOverのインストール〉
(1)ダウンロードしたliftOverのファイル(32bit版では解凍する必要あり)に実行権限を与える
sudo chmod +x liftOver
(2)パスの通っているディレクトリ(e.g. /bin)に移動
sudo mv liftOver /bin
〈必要となるファイルの準備〉
・変換テーブル(例えば、「hg18⇒hg19」では、hg18ToHg19.over.chain)
(1)UCSC genome browserの「Downloads」から、特定の種(e.g. human)をクリックする。
例えば、
http://hgdownload.soe.ucsc.edu/downloads.html#human
(2)移動先から、Inputファイルのゲノム座標のバージョンの場所まで移動
⇒下を見ていくと、例えば、「Mar. 2006 (hg18)」など各バージョンのデータが箇条書きになって並んでいるはず。
(3)「LiftOver files」をクリック。
(4)特定の変換テーブルを選択、クリックしデータをダウンロード。
・Bedファイル(変換したいゲノム座標の情報)
⇒各自で用意。
〈liftOver実行例〉
liftOver INPUT.bed hg18ToHg19.over.chain OUTPUT.bed ERROR.bed
コマンドライン引数が4つある。
・1つ目: 座標軸を変換したいインプットファイル(Bedファイル)の名前・ディレクトリを指定
・2つ目: 変換テーブルの名前・ディレクトリの指定
・3つ目: 変換後のアウトプットファイルの名前・ディレクトリの指定
・4つ目: 変換できなかったものの出力先
〈参考リンク〉
・NGS Surfer's Wiki - ゲノムのバージョンの違う情報を対応付ける
http://cell-innovation.nig.ac.jp/wiki/tiki-index.php?page=%E3%82%B2%E3%83%8E%E3%83%A0%E3%81%AE%E3%83%90%E3%83%BC%E3%82%B8%E3%83%A7%E3%83%B3%E3%81%AE%E9%81%95%E3%81%86%E6%83%85%E5%A0%B1%E3%82%92%E5%AF%BE%E5%BF%9C%E4%BB%98%E3%81%91%E3%82%8B