概要
遺伝子発現データのキュレーション
公共データベース
NCBIのGene Expression Omnibus(GEO)やEBIのArrayExpressといった公共データベースでは、大量の遺伝子発現データを収集して広く研究者が利用できるように公開しています。これらの公共データベースでは、一般的に論文の著者である研究者自身や研究室の技術補佐員などが遺伝子発現データを登録しています。遺伝子発現データを登録する際にその内容は厳密に管理されていないため、公共データベースの遺伝子発現データの“品質”には大きなばらつきがあります。特に、次のような問題が頻繁に起こりえます。
- サンプル情報の不正確な記述
- サンプルの取り違え
- 1つの実験、あるいは複数の実験でのサンプルの重複
- 統計的に低品質な遺伝子発現データ
- サンプルの並び順やグループ化の不備
- 患者特性や臨床的指標の欠落
NEBION社では公共データベースの遺伝子発現データをGENEVESTIGATORのデータベースに登録する前にキュレーターがキュレーションしています。キュレーターは、遺伝子発現データに対応する論文や補足情報、著者である研究者のウェブサイトなどを読み、必要なら著者に確認して遺伝子発現データの正確なサンプル情報を調査します。また、NEBION社ではキュレーションの過程で次のようなデータ処理を行います。その結果、異なる実験に由来する遺伝子発現データ同士を比較できるようになります。
- データの品質の管理
- データの正規化
- サンプル情報の語彙の統一
キュレーションの詳細についてはこちらをご参照ください。
データの正規化の詳細についてはこちらをご参照ください。
キュレーションについて解説したホワイトペーパーはこちらをご参照ください。
社内データベース
GENEVESTIGATOR Enterpriseでは、公共データベースに加えてユーザーが社内で独自に収集している遺伝子発現データも同様にキュレーションして1つのデータベースにまとめることができます。NEBION社では、社内の遺伝子発現データをキュレーションする際に公共データベースの遺伝子発現データをキュレーションする時と同じSOPを使用します。社内の遺伝子発現データをキュレーションする費用や期間は、遺伝子発現データの量やサンプル情報がどの程度付与されているかに依存しますので、個別にご相談下さい。
キュレーションした社内の遺伝子発現データは公共データベースのデータと統合してGENEVESTIGATOR Enterpriseのサーバーにアップロードされます。その結果、双方の遺伝子発現データを互いにシームレスに比較できます。
- Partek
- NGS/マイクロアレイデータ解析ソフトウェア