アメリカ国立生物工学情報センター
アメリカ国立生物工学情報センター(あめりかこくりつ せいぶつこうがくじょうほうセンター、英: National Center for Biotechnology Information、NCBI)は、アメリカ合衆国の国立衛生研究所 (NIH) の下の国立医学図書館 (National Library of Medicine; NLM) の一部門として 1988年11月4日に設立された機関。本部はワシントンD.C.近郊のメリーランド州ベセスダ。 概要NCBIは、バイオテクノロジーや分子生物学に関連する一連のデータベースの構築及び運営、そして研究に用いられるソフトウェアの開発を行っており、バイオインフォマティクスにおける重要なリソースとなっている。主要なデータベースには、DNA配列データベースであるGenBankや、生物医学文献の書誌データベースであるPubMed、一塩基多型 (SNP) のデータベースである dbSNP、ESTのデータベースである dbEST、文献データベース MEDLINE、そしてNCBI Epigenomicsなどが含まれる。また、各研究者が発表したゲノムデータの再アノテーションをNCBIで独自に行っており、その結果をRefseqとして公開している。これらのデータベースはすべて、Entrez検索エンジンを通じてオンラインで利用でき、公開されているデータは基本的に無償で利用できる。また、BLASTによる相同性検索サービスの提供も行っている。 NCBIは、BLAST配列アラインメントプログラムの作者の一人でもあるデヴィッド・リップマン(David Lipman)によって率いられていた[1][2]。彼はまた、Stephen Altschul (別のBLAST共著者)、David Landsman、Eugene Koonin、John Wilbur、Teresa Przytycka、およびZhiyong Luが率いるグループを含む、学内研究プログラムも率いていた。リップマンは2017年5月にポストから身を引いた[3]。 GenBankNCBIは1992年以来、GenBank DNA配列データベースを管理運営している[4]。GenBankは、欧州分子生物学研究所 EMBL)や日本DNAデータバンク (DDBJ)のデータベース、そして一部の個々のラボと連携している[4]。 1992年以来、NCBIはGenBankに加えて、他のデータベースも提供しており、Gene、Online Mendelian Inheritance in Man、分子モデリングデータベース(the Molecular Modeling Database)(3Dタンパク質構造)、dbSNP(一塩基多型のデータベース)、リファレンス配列コレクション(the Reference Sequence Collection)、ヒトゲノムマップ、分類ブラウザー、アメリカ国立癌研究所による癌ゲノム解剖プロジェクト( the Cancer Genome Anatomy Project)、などを提供している。NCBIでは、生物の各系統に一意の識別子(分類ID番号)を割り当てている[5]。 NCBIには、WWWやFTPで使用できるソフトウェアツールがある。たとえば、配列類似性検索プログラムであるBLASTは、GenBank DNAデータベースに対する配列比較を15秒未満で行うことができる。 NCBI BookshelfNCBI Bookshelfは、生物医学の書籍に自由にオンライン上からアクセスとダウンロードができる書籍コレクションである[6]。書籍コレクションには、分子生物学、生化学、細胞生物学、遺伝学、微生物学、分子および細胞の視点から見た病状、研究方法、ウイルス学、などの幅広いトピックをカバーしている。一部の書籍については、以前に発行された書籍のオンライン版を収納しているが、Coffee Breakなどの他の書籍はNCBIスタッフが作成および編集している。書籍コレクションは、ピアレビューされた出版論文の要旨をコレクションしているEntrez PubMedリポジトリを補完するものであり、進化する研究分野に関する確立された展望と、報告された研究のさまざまな個々の部分を整理できるコンテキストを提供している[要出典]。 ローカルアライメント検索ツール(BLAST)BLASTは、DNAの塩基配列やタンパク質のアミノ酸配列について、配列間の類似性を計算するために使用されるアルゴリズムである[7]。同じ生物内または異なる生物内のクエリシーケンスに類似したシーケンスを見つける際に、BLASTは強力なツールである。NCBIではブラウザー上で実行できるBLASTサービスを展開しており、サーバー上でNCBIデータベースからクエリシーケンスを検索することで、任意のフォーマットで検索結果を取得することができる。BLASTへの入力シーケンスは、ほとんどがFASTAまたはGenbank形式であるが、出力はHTML(デフォルト)、XML、プレーンテキストなどのさまざまな形式で配信できる。NCBI BLASTの結果は、検出されたすべてのヒット、スコアリング関連データを持つヒットのシーケンスIDのテーブル、対象のシーケンスのアラインメント、およびこれらの類似のBLASTスコアで受信したヒットとともにグラフ形式で表示される[8]。 EntrezEntrez Global Query Cross-Database Search Systemは、塩基配列、タンパク質アミノ酸配列、タンパク質の構造、PubMed、分類法、完全ゲノム、OMIM、といった主要なNCBI上のデータベース対して使用される、データインデックスの作成・検索システムである[9]。1991年にEntrezの最初のバージョンが配布された。これは、PDBおよびGenBankのヌクレオチド配列、SWISS-PROTのタンパク質配列、翻訳されたGenBank、PIR、PRF、PDB、および関連する抄録とPubMedの引用から構成されている。Entrezは、異なるソースやデータベース、フォーマットに由来するデータを、統一的・効率的に取得できるように設計された情報モデルと検索システムを備えている[10]。 GeneGeneデータベースは、遺伝子に関する情報を特徴付けて整理するために、NCBIで実装されている。配列情報、タンパク質機能、構造、ゲノム上の位置、発現、および配列類似性に関する情報を蒐集している。一意のGeneIDが各遺伝子レコードに割り当てられており、改訂の経歴をたどることができる。既知または予測された遺伝子のレコードがここで確立され、マップ位置やヌクレオチド配列によって画定されている。Geneには、NCBIの他のデータベースとの統合の改善、分類範囲の拡大、Entrezシステムによって提供されるクエリと検索の拡張オプションなど、前身のLocusLinkに比べていくつかの利点がある[11]。 ProteinProteinデータベースは、NCBIリファレンスシーケンス(RefSeq)プロジェクト、GenBank、PDB、UniProtKB / SWISS-Protなどのさまざまなリソースから派生した個々のタンパク質シーケンスのテキストレコードを維持している。タンパク質レコードは、FASTAやXMLを含むさまざまな形式で存在し、他のNCBIリソースにリンクされている。タンパク質は、遺伝子、DNA / RNA配列、生物学的経路、発現と変動のデータ、文献などのデータと関連付けられているほか、BLASTで計算された各配列と類似なタンパク質に関する情報も提供します。NCBIの構造データベースには、NCBIによってインポートされた、PDBで実験的に決定された構造の3D座標セットが含まれている。タンパク質の保存ドメインに関するデータベース(CDD)には、タンパク質配列内の高度に保存されたドメインを特徴付けるシーケンスプロファイルが含まれている。また、SMARTやPfamなどの外部リソースからのレコードもある。BLASTに基づく配列間最大アラインメント情報を利用して作成されたタンパク質配列クラスター化をデータベース化した、Protein Clustersデータベースも存在する[12]。 PubchemNCBIのPubChemデータベースは、分子と生物学的アッセイに関する情報を纏めたデータベースである。PubChemは、Entrez情報検索システムによってアクセスと検索ができる[13]。 画像
脚注
関連項目外部リンク |