2012年12月27日木曜日

UCSC genome browserからGTF, BED, FASTAなど様々な形式のファイルをダウンロードする(1)

Tophatで使うGTFファイルがほしい、mRNAの3'UTRの配列情報が知りたい、mRNAのプロモーター領域の配列が知りたいなどなど…。そういった場面においてもUCSC genome browserは頼りになります。

今回は、そんなリクエストに答えてくれるUCSC genome browserの「Table browser」の機能について説明したいと思います。

以下では、hg19のHuman genome / NCBIのRefseqのデータをベースに、様々な形式のデータをダウンロードしてみたいと思います。

EXAMPLE1: BEDファイルの入手
(1)UCSC genome browserのトップページから、左側のメニューにある「Table browser」をクリック

(2)Table browserの各プルダウンメニューで以下を選択。
clade: Mammal
genome: Human
assembly: Feb. 2009 (GRCh37/hg19)
group: Genes and Gene Prediction Tracks
Track: Refseq Genes
table: refGene
region: genome
output format: BED - browser extensible data
⇒オプションとして、Galaxyにチェックを入れるとGalaxyにデータが保存されます
file type returned: plain text / gzip compressed
⇒好みによるが、圧縮ファイルとして欲しい場合はgzipを選択

(3)「get output」をクリック

(4)Output refGene as BED
・「Incude custom track header」にチェックを入れると、custom trackとしてアップロードできるようにファイルを加工してくれる。「name」「description」「visibility」などの入力欄が用意されている。
・「Create one BED record per」ではいくつかのオプションが選択できる。
1. Refseqに登録されているTranscriptの情報すべて(5'UTR, ORF, 3'UTR)がほしいケース
 ⇒「Whole Gene」を選択
2. 5'UTR, ORF, 3'UTRのいずれかの情報のみがほしいケース
 ⇒「5'UTR / ORF / 3'UTR Exons」を選択
3. Refseqに登録されているTranscriptの上流(プロモーター)の領域の情報がほしいケース
 ⇒「Upstrem by <number> bases」を選択
 <number>には、ほしい領域の範囲を指定する。

(5)「get BED」をクリック
⇒Google chromeだと、ブラウザ上でファイルが展開してしまうので、Galaxyを経由してファイルはダウンロードしてきたほうがよいかも。

(6)Output results to Galaxy as RefSeq Genesで「Send query to Galaxy」をクリック

(7)右側のヒストリーでジョブを確認。灰色は処理待ち、黄色は処理中、緑色は処理終了を表す。処理が終わったら、ジョブをクリックしてフロッピーディスクの形をした「ダウンロード」ボタンをクリックし、目的のファイルをダウンロード。

EXAMPLE2: GTFファイルの入手
(1)UCSC genome browserのトップページから、左側のメニューにある「Table browser」をクリック

(2)Table browserの各プルダウンメニューで以下を選択。
clade: Mammal
genome: Human
assembly: Feb. 2009 (GRCh37/hg19)
group: Genes and Gene Prediction Tracks
Track: Refseq Genes
table: refGene
region: genome
output format: GTF - gene transfer tormat
⇒オプションとして、Galaxyにチェックを入れるとGalaxyにデータが保存されます
file type returned: plain text / gzip compressed
⇒好みによるが、圧縮ファイルとして欲しい場合はgzipを選択

(3)「get output」をクリック
⇒後は上記と同様。

EXAMPLE3: FASTAファイルの入手
(1)UCSC genome browserのトップページから、左側のメニューにある「Table browser」をクリック

(2)Table browserの各プルダウンメニューで以下を選択。
clade: Mammal
genome: Human
assembly: Feb. 2009 (GRCh37/hg19)
group: Genes and Gene Prediction Tracks
Track: Refseq Genes
table: refGene
region: genome
output format: sequence
⇒オプションとして、Galaxyにチェックを入れるとGalaxyにデータが保存されます
file type returned: plain text / gzip compressed
⇒好みによるが、圧縮ファイルとして欲しい場合はgzipを選択

(3)「get output」をクリック
⇒Google chromeだと、ブラウザ上でファイルが展開してしまうので、Galaxyを経由してファイルはダウンロードしてきたほうがよいかも。

(4)「genomic」にチェックをつけて、「submit」をクリック

(5)Sequence Retrieval Region Optionsで配列として欲しい領域を選択できる
   ・Promoter/Upstream by <number> bases
   ・5' UTR Exons
   ・CDS Exons
   ・3' UTR Exons
   ・introns
   ・Downstream by <number> bases
  Sequence Formatting Options
   ・Exons in upper case, everything else in lower case
    Exonの領域だけ「大文字」で他の領域は「小文字」
   ・CDS in upper case, UTR in lower case
    CDSの領域(ORF領域)は「大文字」、UTRの領域は「小文字」
   ・All upper case
    すべて「大文字」
   ・All lower case
    すべて「小文字」

(6)「Send query to Galaxy」をクリック
⇒後は上記と同様。

基本的な使い方はこんな感じだと思います。あとは目的別に必要なデータをダウンロードしてくる際に使用したり、custom trackとしてアップロードしたファイルを異なるファイル形式でダウンロードしてくる際にも便利だと思います。

0 件のコメント:

コメントを投稿