2013年1月4日金曜日

UCSC genome browserからGTF, BED, FASTAなど様々な形式のファイルをダウンロードする(2)

前回に引き続き、UCSC genome browserの「Table browser」の活用についての説明です。
前回紹介したもの以外にも使えるデータや小技があるのでそれについて少し触れておきたいと思います。

Example1: 種間保存性の高い領域のピックアップ
Phastconsのデータをもとに、ヒトゲノム上における種間保存性の高い領域(哺乳類での比較)をBEDファイルでダウンロードしたいと思います。

(1)UCSC genome browserのトップページから、左側のメニューにある「Table browser」をクリック

(2)Table browserの各プルダウンメニューで以下を選択。
clade: Mammal
genome: Human
assembly: Feb. 2009 (GRCh37/hg19)
group: Comparative Genomics
track: Conservation
table: Mammal EI (phastConsElements46waysPlacental)
region: genome
output file: BED - browser extensible data
⇒オプションとして、Galaxyにチェックを入れるとGalaxyにデータが保存されます
file type returned: plain text / gzip compressed
⇒好みによるが、圧縮ファイルとして欲しい場合はgzipを選択

(3)「get output」をクリック

(4)Output refGene as BED
・「Incude custom track header」にチェックを入れると、custom trackとしてアップロードできるようにファイルを加工してくれる。「name」「description」「visibility」などの入力欄が用意されている。
・「Create one BED record per」で「Whole Gene」を選択

(5)「get BED」をクリック
⇒Google chromeだと、ブラウザ上でファイルが展開してしまうので、Galaxyを経由してファイルはダウンロードしてきたほうがよいかも。

(6)Output results to Galaxy as RefSeq Genesで「Send query to Galaxy」をクリック

(7)右側のヒストリーでジョブを確認。灰色は処理待ち、黄色は処理中、緑色は処理終了を表す。処理が終わったら、ジョブをクリックしてフロッピーディスクの形をした「ダウンロード」ボタンをクリックし、目的のファイルをダウンロード。


Example2: BEDファイル<=>GTFファイル相互変換
UCSC genome browserに登録されていないNONCODEGENCODEなどのデータ(BEDやGTFファイルとして各サイトで入手可)は必ずしも統一されておらず、そのままのファイル形式ではTophatなどのマッピングソフトで使用できないことがあります。

そこで、まずCustom trackとしてアップロードしたデータをTable browserを介してデータを変換することにより目的のファイル形式に変換します。(他にも良いやり方があるかもしれません。)

(1)UCSC genome browserのトップページから、左側のメニューにある「Table browser」をクリック

(2)Table browserの各プルダウンメニューで以下を選択。
clade: Mammal
genome: Human
assembly: Feb. 2009 (GRCh37/hg19)
group: Custom track
track: 任意のデータ
table: 任意のテーブル
region: genome
output file: BED - browser extensible data
⇒オプションとして、Galaxyにチェックを入れるとGalaxyにデータが保存されます
file type returned: plain text / gzip compressed
⇒好みによるが、圧縮ファイルとして欲しい場合はgzipを選択

(3)あとは上記と同様。