本書冒頭より抜粋

コンピュータやワールドワイドウェブ(以下WWW)は、急速に、また劇的に生物学の研究を変えています。今日、用語「パラダイムシフト」は、新しいビジネス傾向からコーラの新しい風味まで、あらゆることを表わす言葉として使用されています。しかし、生物科学は古典的感覚のパラダイムシフトの最中にあるといえるでしょう。理論生物学、および計算生物学は、生物科学の「端」に数十年もの間存在していました。しかしここ数年の、ゲノム解析によって生産された新しい生物データの洪水や、ゲノムデータの分析へのコンピュータ利用の必要性は、生物科学のすべての領域に影響し始めました。科学者が新しい仮説を示唆する情報を求めてデータベースを探索することからわかるように、これまで実験からスタートした研究室での研究は、コンピュータからスタートします。

最近の20年間で、パーソナルコンピュータ(以下PC)およびスーパーコンピュータの両方は、様々な分野の科学者にもアクセス可能になりました。PCは、高い斬新さのわりには計算力がないものから、10年前のスーパーコンピュータと同じくらい強力な機械へ発展しました。コンピュータは、作家のタイプライターや会計係の帳簿と入れ替わったように、実験機器の制御やデータの収集する役目を担うようになりました。それらは、データを格納する手段として研究所内のすべてのノートおよび書類に取って代わる可能性を持っています。コンピュータによるデータベースは、非電子的記憶データに比べると、はるかに容易なアクセスを可能にします。データの記憶、分析および表現における有用性を越えて、コンピュータは、数学的な解釈が可能なシステムを解析するのに有効です。そして、計算生物学や、最近注目されているバイオインフォマティクスの分野を発達させました。

バイオインフォマティクスは生物学データの管理に情報技術を応用させたものです。それは急速に発展する科学分野です。最近の20年間で、公のデータベースに生物学データを保存することはますます一般的になりました。また、これらのデータベースは指数関数的に成長し、生物学の文献も指数関数的に成長しています。最も熱心な研究者ですら、はコンピュータベースのツールの援助なしには、その分野の必要な情報で優位に立ち続けること不可能です。また、ウェブではどこからでも、効果的なツールを提供しているサイトのプログラムおよびデータベースと対話することができます。

バイオインフォマティクスはまず第一に生物の科学です。それは、完全でエレガントなアルゴリズムを発見したりするのではなく、実際的な質問に答えることを主としています。バイオインフォマティクス研究者はツールの構築者です。また、有用なツールを開発するためには、計算上の技術とともに、生物学の問題も理解していることが重要です。バイオインフォマティクスのアルゴリズムは、独特な方法でプログラミングおよびデータモデリングを統合するような、複雑で科学的な仮定を含む必要があります。

バイオインフォマティクスと計算生物学における研究は、生物学のシステムの特性を数学的あるいは物理的なモデルへ抽象化することや、データ分析用の新しいアルゴリズムの導入、データベースやそれらにアクセスするウェブツールの開発など、様々なことが含まれます。このような研究に従事するためには、生物学者は様々なオペレーティングシステム上で走るソフトウェアの使用にも慣れていなければなりません。本書は、バイオインフォマティクス研究の中で使用される最もポピュラーなツールの多くを紹介し説明します。さらに理解を助けるためにツールがどう使用されるか、またそれらがなぜ重要か、多くの補足情報および背景資料も含めました。私たちは、本書があなたの研究の中でコンピュータを生産的に使用する第一歩として役立つことを望んでいます。

対象とする読者

ほとんどの生物科学の学生や研究者はコンピュータをワープロやデータ収集、作図の道具としてだけでなく、それ以上のものとして使い始めています。しかし、彼らの多くは情報科学や計算理論の教育を受けていません。そのため、計算科学やバイオインフォマティクスは絶望的に複雑に見えるかもしれません。学生および同僚に書くことを勧められた本書は、決してバイオインフォマティクスのすべてにわたる聖書的な存在ではありません。これはバイオインフォマティクスで最も重要なトピックのうちのいくつかへの思慮深い入門書です。生物学のシーケンス情報、ゲノムおよび分子構造データベースに目的の情報を見つけるために必要な標準的な計算技術を紹介します。私たちは、遺伝子を識別し、遺伝子ファミリーを識別する特有のパターンを検知する方法について紹介します。また、系統発生的な関係モデル、分子構造、および生化学の特性について議論します。私たちはさらに、データを組織化し、データ分析プロセスに関して系統的に考え、かつデータ取り扱いの自動化に関して考え始めるツールとして、コンピュータを活用する方法についても議論します。

バイオインフォマティクスは高度なトピックです。したがって、このような導入の本でさえ、読者があるレベルの背景知識を持っていることを前提とします。本書を最大限に利用するためには、ある程度の分子生物学、化学および数学の教育、あるいは経験が必要です。大学の授業などで何度かプログラミングを行った経験があれば、さらに有用でしょう。

本書の構造

本書の構成は、はじめから終わりまで順番に読んでもよいし、あるいはスキップしたり、後のセクションを先に要約して読んでも構わないようにしました。本書は4部に分割されます。

T部 序章

1章
「コンピュータ時代の生物学」ではバイオインフォマティクス1つの学問としてとらえ、その歴史に簡単に触れ、本書がカバーする事項の簡潔なガイドとその理由を示します。

2章
「生物学的問題のコンピュータ的解法」では、バイオインフォマティクスと分子生物学の中心概念と、増大する生物学のデータをもたらした技術と研究のイニシアチブを紹介します。さらに、すべての生物学者が知っているべき、常に成長している基礎的な計算手法リストをカバーします。

U部 ワークステーション −システム環境−

3章
「ワークステーションのセットアップ」では、Unixを紹介し、PCにLinuxをインストールし、ソフトウェアを動かすための基礎を学びます。

4章
「Unixのファイルとディレクトリ」では、Unixのファイル管理システムに関して、ファイル階層や命名スキームについて、よく使われるディレクトリに関するコマンドについて、マルチユーザ環境での動作について、などを解説します。

5章
「Unixシステムで作業をする」では、ユーザが毎日遭遇するUnixコマンドを紹介します。ファイルの参照や編集、抽出などのためのコマンド、正規表現、シェルスクリプト、そして他のコンピュータとの通信などについて説明します。

V部 作業ツール群

6章
「生物学研究に役立つウェブ」は生物学の情報をウェブ上で見つけるテクニックについての章です。この章では検索エンジンと科学的な文献やソフトウェアの探索法、オンライン情報源の利用法、および公的な生物学データベースをカバーします。

7章
「シーケンス解析、ペアワイズアラインメント、データベースサーチ」では、分子進化のレビューから始まり、次に遺伝子の位置を予測、全体的および局所的なアラインメント、さらにはFASTAやBLASTなどのプログラムを用いたデータベースに対する局所的なアラインメントに基づいた検索など、ペアワイズシーケンス解析の基礎を扱います。最後にシーケンス分析用の多機能ツールについても紹介します。

8章
「多重シーケンスアラインメント、ツリー、プロフィール」では、関連する遺伝子あるいは蛋白質の研究の話題に移ります。それは、ClustalWやJalviewのような多重シーケンスアラインメントの使い方を示し、次に、系統発生的な解析のためのツールや、プロファイルやモチーフの構築について議論します。

9章
「蛋白質構造の可視化と構造解析」では、蛋白質の3次元構造解析とそれらの構造の特性の計算ツールをカバーします。この章は蛋白質化学のレビューから始まり、ウェブによる構造分類、アラインメント、分析、溶液の親和性と相互作用、物理化学的特性の計算などの蛋白質構造関連ツールを紹介します。最後に構造の最適化と蛋白質データベースに関する紹介も行います。

10章
「アミノ酸シーケンスからの蛋白質構造、機能の予測」では、アミノ酸シーケンスからの蛋白質の構造を決定するツールを示し、蛋白質シーケンスの特徴抽出、二次構造予測、三次構造予測について紹介します。そして、蛋白質モデリングのプロジェクト例で終わります。

11章
「ゲノムやプロテオーム解析のためのツール」では、これまで紹介したものをすべてつなげて使います。前章までで、1つのシーケンスや構造、あるいは1遺伝子からなる多重シーケンスの比較のためのツールと技術を紹介してきました。本章は、ゲノム中のすべての遺伝子の機能を統合的に解析するために活用できるデータやツールをいくつか紹介します。例えば、全ゲノムを順番に並べて、ウェブでゲノム情報にアクセスし、ゲノム全体のアノテーションや分析を行う方法、新しい技術とプロテオミクスなどについて説明します。

W部 データベースおよび可視化

12章
「Perlを用いてデータ解析を自動化する」では、山のようなデータの中から必要な情報だけを抽出するために、Perlのようなプログラミング言語がどのように役に立つかを紹介していきます。ここではPerlのプログラミングは教えませんが、言語の簡単な導入とプログラム例によって、プログラムを学習し始めるための道を示しています。

13章
「生物学データベースを構築する」はデータベース概念への入門です。ここでは、生物学の研究の中で使用されるデータベースのタイプ、それを作るためのデータベースツール、データベース言語(SQL言語)、データベースと連携するウェブベースのソフトウェア開発について説明していきます。

14章
「可視化とデータマイニング」では、結果の意味付けを行う計算ツール、および技術についてカバーします。章の前半は、バイオインフォマティクス的な研究から発生するデータを視覚化するためのプログラムを紹介します。ここでは、Graceやgnuplotのような数値データのための一般的な作図パッケージおよび統計パッケージから、TeXshadeのような形式でシーケンスおよび構造情報を示すために使われるプログラムまで紹介します。章の後半では、バイオインフォマティクスのアプリケーションという意味で、大きなデータ群の中からパターンを発見、解釈、評価する過程でのデータマイニングのためのツールを紹介します。


書籍についてのお問い合わせは以下までお願いします。

株式会社オライリー・ジャパン

〒160-0003 東京都新宿区本塩町7番地6 四谷ワイズビル
e-mail:japan@oreilly.com


書籍の購入方法トップページへ戻る