2012年12月23日日曜日

RNA-seqのデータをUCSC genome browser上で視覚化する(2)

UCSC genome browser上で可視化できるデータのフォーマットとして、bedGraph, GTF, BED, WIG, bigwig, BAMが主なものとして挙げられます。
今回は、前回作成した「WIG」と呼ばれる形式のファイルを利用してRNA-seqのデータを可視化してみたいと思います。

〈主なステップ〉
1. Track linesの記述
2. データのアップロード
3. データの管理方法

1. Track linesの記述
まず注意しなければいけない点は、Tophatなどのマッピングソフトから得られた「BAMファイル」やGENCODEなどからダウンロードしてきた「GTFファイル」などをアップロードする前に、ファイルの冒頭(最初の一行目)に「Track lines」と呼ばれる一種の但し書きのようなものを書く必要があるということです。

これは、UCSC genome browser上にアップロードしたデータのファイル形式(BAM, GTFなど)、Genome browser上で表示させる時のTrackの名前・色などの基本情報を付与するためにあります。

では具体的にどのように記述すればよいか見て行きましょう。
まずは、Track linesの定義についてよく利用するものを中心に説明していきたいと思います。

〈Track lines〉
・track name="track_label"
 Genome browserのウインドウの右側に位置するラベル名を定義。
・description="center_label"
 Genome browserのウインドウの中央に位置するラベル名を定義。
 60文字以内という字数制限がある。
 空白はできるだけ使わずに「ハイフン"_"」を使ったほうが良い。
・type="track_type"
 アップロードするファイルの形式を定義。
 WIGファイルなら「Wiggle_0」、BEDファイルなら「bed」と記載。 
・visibility=number
 annotation trackのデフォルトの表示モードを定義。
 0-4の数字に表示モードが対応しており、
 「0 -hide」「1-dense」「2-full」「3-pack」「4-squish」となっている。
 定義しない場合では、「1-dense」が自動的に選択される。
・color=RRR,GGG,BBB
 annotation trackの色を定義。
 「コンマ","」で区切られた0-255の幅を持つRGB valuesによって色が定義されている。
 定義しない場合では、「0,0,0」(黒)が自動的に選択される。
 色の組み合わせを考えるときの参考として、
 MUDCUBE -COLOR SPHEREなどのサイトを活用するといいかも。
 (16進法による色の記述になっているので、RGB変換する必要あり。)
・colorByStrand=RRR,GGG,BBB,RRR,GGG,BBB
 Genome上の「+鎖」「-鎖」を区別して色分けできる。
 
2. データのアップロード
(1)UCSC genome browserのトップページから上のメニューの「Genome」、もしくは左側のメニューの「Genome Browser」をクリック
(2)「manage custom tracks」をクリック
(3)「add custom tracks」をクリック
(4)Paste URLs or data:にある「ファイルを選択」をクリックし、
アップロードしたいファイルを選択
(5)「Submit」をクリックし、ファイルをアップロード(しばらく時間がかかるので放置)
(6)アップロード終了後、「go to genome browser」をクリックすると、
アップロードしたcustom trackを確認できます。


〈具体例〉
NONCODE v3.0のlncRNA_humanの「BEDファイル」のデータをUCSC genome browser上で可視化してみよう。
■使用したデータ
http://www.noncode.org/NONCODERv3/datadownload/lncRNA_human.zip

例1:
まずは、最低限の情報として「track name」「description」「type」のみを1行目に記述したファイルを作成してみる。
track name="NONCODE_lncRNA_human" description="NONCODE" type="bed"
chr7 89010556 89010766 n123 1000 +
chr7 18847664 18847902 n125 1000 -
chr7 92600316 92600610 n127 1000 -
chr12 6619387 6619717 n1315 1000 +


例2:
例1と少し内容を追加して、アップロードしたトラックの違いを比較してみる。下記のように「visibility」「color」の記述を追加すると、デフォルトの表示モードがはじめから「Full」の状態になり、トラックに色がついていることが確認できる。
track name="NONCODE_lncRNA_human" description="NONCODE" type="bed" visibility=2 color=0,142,247
chr7 89010556 89010766 n123 1000 +
chr7 18847664 18847902 n125 1000 -
chr7 92600316 92600610 n127 1000 -
chr12 6619387 6619717 n1315 1000 +



〈参考〉
■UCSC genome browserへのアップロードに関する注意事項
http://genome.ucsc.edu/goldenPath/help/customTrack.html
■MUDCUBE -COLOR SPHERE
http://mudcu.be/sphere/
■RGB変換
http://www.kitaq.net/lib/rgb/



0 件のコメント:

コメントを投稿