ディープ・ラーニングとiPS細胞の初期化の関係とは?

  • 投稿日:
  • by

直前のエントリーに、「ディープ・ラーニング」なる専門用語を持ち出して、「情報」と言う「次元」の「原理」にせまることができるのではないかと、期待を込めて書かせていただいたのであります。

今回は、このあたりについて、KAIがなにを考えているのか、もう少し丁寧にご説明したいと思うのであります。

実は、直前のエントリーでは、「山中教授のiPS細胞」のお話にもふれたのでありますが、この「iPS細胞」と「ディープ・ラーニング」との間には関係があるのではないか、こう思いついたのが、今回のKAIのアイデアであったのであります。

そこで、これをご説明するために、「ディープ・ラーニング」につきましてはのちほど議論することにして、まずは「iPS細胞」についての理解であります。

ご承知のように、「iPS細胞」とは、万能細胞の一種で、胚細胞を利用する以外の方法で人類が初めて生み出した人工の多能性幹細胞であります。具体的には、体細胞と呼ばれる、一旦ある特定の組織の役割を担う細胞に分化したものを、もとのなんの役割も持たない初期の状態に、「時間」を巻き戻した細胞を言うのであります。

この「時間」を巻き戻す役割を担う遺伝子が、Oct3/4(オクトスリーフォー)、Sox2(ソックスツー)、Klf4(ケーエルエフフォー)、c-Myc(シーミック)の4つで、ヤマナカファクター(山中因子)と呼ばれる遺伝子であります。

体細胞を初期化する方法は、未受精卵への「核移植」、ES細胞との「細胞融合」、「iPS細胞の作製」の3つがあります。 これらの方法で作られた細胞に共通しているのは、Oct3/4が再活性化していることです。 一方、Oct3/4が活性化するタイミングには違いがあり、核移植では4〜5時間、細胞融合では24〜48時間、iPS細胞の作製では10〜14日間であることがわかっています。このことからもOct3/4が体細胞の初期化に大きな関与をしていることがわかります。
第4回 初期化のしくみの謎
4つの山中因子のうち、初期化に特に重要な役割をしていると思われるのが、Oct3/4であります。

この遺伝子を体細胞の中に外部から注入することにより、体細胞にもとからあった遺伝子のOct3/4が2週間程度の時間を掛けて再活性化され、これが他の遺伝子に次々と働きかけて初期化するのではないかと、かように考えられているのであります。

そもそも、細胞とはなにかと申しあげますと、私たち生き物の、生命の基本単位となるものであります。

これが、精子と卵子のたった一つの受精卵と言う細胞から分割を繰り返し、最終的に私たち一人一人の体には、270種類の機能に分化して、体の組織や器官となって機能している、数十兆個(体重1キロあたり1兆個)の細胞に分かれているのであります。

この一つの細胞が、個別の機能を持つようになることを、細胞の「分化」と言うのでありますが、これがいかなるメカニズムで起きるのか、ごくごく簡単にご説明しますと、こうであります。

一つ一つの細胞は、そのなかに2万個以上の膨大な遺伝子をもっているのであります。しかも、一人の人間の数十兆個すべての細胞のなかにある遺伝子は、すべて同じ遺伝子のコピーであるのであります。

細胞のなかのこの膨大な遺伝子の大半は、通常はほとんどが機能していないのでありますが、細胞の種類によって、一部の機能する遺伝子の組み合わせが決まっているのであります。つまり、機能する遺伝子の組み合わせが、細胞の機能の種類を決定していると言うことであります。

でありますから、細胞の初期化とは、すべての遺伝子をリセットして機能しなくすることにほかならないと考えることができるのであります。

しかしであります。

一旦、時間をかけて遺伝子の組み合わせに基づく指示によって分化してしまったものを、もし遺伝子の機能をすべてリセットできたとしても、できあがってしまった細胞そのものの機能はリセットすることはできない、と考えられていたのであります。

これをくつがえして、実現したのがiPS細胞であったと言うわけであります。

と言うことで、山中因子のOct3/4は、細胞のなかにもとからあったOct3/4遺伝子を機能させ、これがなんらかの方法で、270種類ある分化のプロセスすべて(かどうかはわからないけれど)について、これを元の幹細胞のもう一つ前、いわゆる多能性幹細胞まで引き戻したのであります。

これが、ビデオを巻き戻すようにまったく逆のプロセスをたどって引き戻すのか、あるいは、これとまったく異なるプロセスを経由するのか、きわめて興味深い研究テーマであります。

そこで、この「初期化」について、直近のエントリーで言及しました、「情報」と言う「次元」を使ってこれを考えてみることにするのであります。

「情報」と言う「次元」にとって、「時間」を巻き戻すとは、「次元」の操作を意味しているのであります。

具体的には、「時間」を巻き戻すとは、「次元」を下げる操作になるのであります。でありますから、通常はこの反対で、「時間」の流れに沿って「次元」を上げる操作、すなわち細胞の「分化」が行われることになるのであります。

生命現象とは、そもそもこの「情報」の「次元」を、遺伝子レベルから細胞レベルへの転写をする働きに他ならないのであります。

かように考えますれば、実は「分化」した細胞には、なんらかの形で遺伝子から転写された「情報」が記憶されていて、この記憶をOct3/4と言う遺伝子が消去するのではないか、これが今回のKAIが思いついたアイデアであったのであります。

ここまでお話して、ようやくもう一つのキーワードであります「ディープ・ラーニング」のお話に移ることができるのでありますが、まずは「ディープ・ラーニング」とはなにかのご説明であります。

?しかし一部の研究者たちは、ここでも恐るべき執念を見せてニューラルネットの研究を続行し、やがて最新の神経科学の成果を導入することによって、2000年代半ばに再び復活を遂げた。そこでは「スパース・コーディング(Sparse Coding)」と呼ばれる手法が成功の鍵を握っていた。

?英語の「Sparse」とは「少量」を意味する形容詞だが、スパース・コーディングとは要するに、ニューラルネットに入力される大量の情報から、概念形成に寄与する「ほんの少量の、しかし本質的な情報」だけを抜き出してくる技術である。

?これによって隠れ層をより多層化しても、現実的な時間内で情報処理ができるようになった。この最新のニューラルネットでは、隠れ層の1層目から2層目、2層目から3層目へと情報が深部にまで伝達されるに伴い、たとえば何かの画像であれば、点から線、線から輪郭、輪郭から部分、部分から全体のイメージへと、概念がより高次元へと段階的に引き上げられる。

?あるいは「学習が徐々に深められる」と言ってもいいだろう。この点を指して「ディープ・ラーニング(深い学習)」と呼ぶのだ。

?冒頭でも紹介したように、ディープ・ラーニングはグーグルをはじめとした巨大IT企業が今、最優先課題として取り組んでいるAI技術である。最近では、グーグルがスタンフォード大学と共同開発したネットワーク型コンピュータが、ディープ・ラーニング技術を使ってユーチューブ上にある大量の動画から「猫」を抽出し、そのイメージ(概念)をぼんやりとコンピュータ画面上に表示することに成功した。

既に実用化され、目覚ましい成果を上げている
?そう言われてもピンとこないかもしれないが、ディープ・ラーニングはそうした研究室レベルを超えて、今や実際の製品にも応用され、目覚ましい成果を上げている。たとえばグーグルの音声検索や、アップルの音声アシスタント「Siri」などの音声認識技術にはディープ・ラーニングが導入されている。

?これらを実際に使われた方ならお分かりかと思うが、現在の音声認識技術は半年、いや数ヵ月の間にも目に見えて精度が上がっていく。これは、まさしくディープ・ラーニングの凄さを物語っている。
グーグルや百度が注力する「ディープ・ラーニング」とは何か?

「ディープ・ラーニング」を理解するポイントは、この記事の筆者、小林雅一氏ご指摘のとおり、「スパース・コーディング」と呼ばれる技術にあるのであります。

「スパース・コーディング」とは、これもこの引用のなかで小林氏がご説明されているとおりでありますが、もう少しこれが「意味」するところを補足させていただきますと、「コーディング」とは思い切りわかりやすく言えば「コード化」であります。

「コード化」とは、その対象とする「情報」の集合を「テーブル化」し、「情報」をその「テーブル」の「コード」で記述することにより、「情報」を抽象化する操作であります。

さらに、この「コード化」された「コード」の集合を再度「テーブル化」し、元の「コード」を新たに生成した「テーブル」の「コード」で記述する、これを何「次元」にも亘って繰り返した結果、最終的に抽出された「コード」と「テーブル」が、対象とする「情報」が持つ「抽象概念」と「概念テーブル」となるのであります。

この「概念テーブル」は、基本的に汎用性を持ち、概念分野が同じと思われる「情報」に広く適用できるのであります。

ここで、やっとさきほどまでの「iPS細胞」のお話と繋がるのでありますが、どちらも「情報」の「次元」を操作することによって、その「情報」が持つ「意味」の獲得をコントロールすることができるようになると言うことだったのであります。

と言うことで、寄り道はこれくらいにして、そろそろ本題に戻るとするのであります。 KAI