確率と情報の科学

カーネル多変量解析

非線形データ解析の新しい展開

生命情報科学やデータマイニングの分野では定評ある手法の基本的な考え方と設計法を明快に説明する.

カーネル多変量解析
このエントリーをはてなブックマークに追加
著者 赤穂 昭太郎
ジャンル 書籍 > 単行本 > 計算機科学
書籍 > 自然科学書
シリーズ 確率と情報の科学
刊行日 2008/11/27
ISBN 9784000069717
Cコード 3341
体裁 A5 ・ 上製 ・ カバー ・ 222頁
定価 本体3,500円+税
在庫 在庫あり
カーネル法によるデータ解析は今や生命情報科学やデータマイニングの分野では標準である.しかし文字列やグラフ解析など別分野に適応できるように自身で設計しようとすると容易ではない.本書は,カーネル法という多変量解析の底に流れる基本的な考え方を紹介して,読者自身が設計を行う際の道標になるような内容をめざす.

■著者からのメッセージ

 本書ではカーネル法と呼ばれるデータ解析の手法を解説する.カーネル法はサポートベクトルマシンの発明によって一躍注目されるようになった.しかしながら,その本質はもともと古くからあった手法の延長線上に位置づけられるので,カーネル法を形容するのにはむしろ温故知新という言葉がぴったりとくる.すなわち,カーネル法は基本的には伝統的な線形多変量解析と同じ土俵の上にあると考えることができる一方,従来できなかったような問題にも適用できる柔軟性を持ち合わせている.

 複雑な非線形データが与えられたとき,非線形のモデルを作ってそれにデータをあてはめる手法を開発するというのが素朴な考え方だが,大抵の場合,複雑な最適化問題に直面し,大規模なデータ解析をすることが困難になる.

 そこでカーネル法では,線形のモデルで非線形の問題を解くという逆転の発想をする.データを一旦高い次元の空間に移してから処理を行なうのだが,高次元の空間にはいわゆる次元の呪いという問題があり,従来の常識からすると,これは一見禁じ手のように見える操作である.カーネル法は,次元の呪いを受けないために,正則化と呼ばれる枠組を持ち出し,高次元の中で複雑になりすぎたモデルをなましてやる.

 正則化の導入は一方で計算を複雑にするという副作用を産んでしまうのだが,ここでまた逆転の発想が働く.カーネル法では与えられた問題の構造を精緻にモデル化した上でデータ解析手法を導くというのではなく,計算がやりやすいように,逆に手法に問題の方を合わせるのである.

(中略)

 カーネル法のもつさまざまな性質は,その主役であるカーネル関数と呼ばれるものに強く依存している.このカーネル関数を使うのにはもう一つの利点があり,文字列やグラフなど近年急速に重要度を増しつつある複雑な構造をもつデータに対して適用可能になるということがある.これらのデータに対して従来の多変量解析をそのまま使うことは難しい.しかしながら,カーネル関数というオブラートでくるんでやれば,たとえどんなに複雑な構造をもったデータでも,それとは関係なくデータ解析の手法を開発することができるのである.

 さて,データ解析をする際には,どのような問題に(対象),どのような理論に基づいて(仕組み),どのように適用するか(手法)という3つの要素がある.このうち本書では特に仕組みについて詳しく書いてある.データ解析のユーザという視点から見ると仕組みについて知ることはそれほど重要でないと思われるかもしれない.よく言われることは,車を運転するのに自動車が走る仕組みを知る必要はないということである.

 しかしながら,複雑なデータを対象とする際に,与えられたデータにどのような手法を使うかは自明ではなく,マニュアル的な手法では対処できないことも多い.データ解析のユーザも,解析手法の作り手になっていろいろ試行錯誤を繰り返す必要がある.このように,現代のデータ解析では,道具は単に使うだけでなく,作り出す必要もあるため,仕組みをきちんと押さえておくことが重要となる.
(本書「まえがき」より)

■著者からのメッセージ

 本書ではカーネル法と呼ばれるデータ解析の手法を解説する.カーネル法はサポートベクトルマシンの発明によって一躍注目されるようになった.しかしながら,その本質はもともと古くからあった手法の延長線上に位置づけられるので,カーネル法を形容するのにはむしろ温故知新という言葉がぴったりとくる.すなわち,カーネル法は基本的には伝統的な線形多変量解析と同じ土俵の上にあると考えることができる一方,従来できなかったような問題にも適用できる柔軟性を持ち合わせている.

 複雑な非線形データが与えられたとき,非線形のモデルを作ってそれにデータをあてはめる手法を開発するというのが素朴な考え方だが,大抵の場合,複雑な最適化問題に直面し,大規模なデータ解析をすることが困難になる.

 そこでカーネル法では,線形のモデルで非線形の問題を解くという逆転の発想をする.データを一旦高い次元の空間に移してから処理を行なうのだが,高次元の空間にはいわゆる次元の呪いという問題があり,従来の常識からすると,これは一見禁じ手のように見える操作である.カーネル法は,次元の呪いを受けないために,正則化と呼ばれる枠組を持ち出し,高次元の中で複雑になりすぎたモデルをなましてやる.

 正則化の導入は一方で計算を複雑にするという副作用を産んでしまうのだが,ここでまた逆転の発想が働く.カーネル法では与えられた問題の構造を精緻にモデル化した上でデータ解析手法を導くというのではなく,計算がやりやすいように,逆に手法に問題の方を合わせるのである.

(中略)

 カーネル法のもつさまざまな性質は,その主役であるカーネル関数と呼ばれるものに強く依存している.このカーネル関数を使うのにはもう一つの利点があり,文字列やグラフなど近年急速に重要度を増しつつある複雑な構造をもつデータに対して適用可能になるということがある.これらのデータに対して従来の多変量解析をそのまま使うことは難しい.しかしながら,カーネル関数というオブラートでくるんでやれば,たとえどんなに複雑な構造をもったデータでも,それとは関係なくデータ解析の手法を開発することができるのである.

 さて,データ解析をする際には,どのような問題に(対象),どのような理論に基づいて(仕組み),どのように適用するか(手法)という3つの要素がある.このうち本書では特に仕組みについて詳しく書いてある.データ解析のユーザという視点から見ると仕組みについて知ることはそれほど重要でないと思われるかもしれない.よく言われることは,車を運転するのに自動車が走る仕組みを知る必要はないということである.

 しかしながら,複雑なデータを対象とする際に,与えられたデータにどのような手法を使うかは自明ではなく,マニュアル的な手法では対処できないことも多い.データ解析のユーザも,解析手法の作り手になっていろいろ試行錯誤を繰り返す必要がある.このように,現代のデータ解析では,道具は単に使うだけでなく,作り出す必要もあるため,仕組みをきちんと押さえておくことが重要となる.
(本書「まえがき」より)
  第1章 現代の多変量解析とは
  第2章 カーネル多変量解析の仕組み
  第3章 固有値問題を用いたカーネル多変量解析
  第4章 凸計画問題を用いたカーネル多変量解析
  第5章 カーネルの設計
  第6章 カーネルの理論
  第7章 汎化と正則化の理論
* 詳細な目次は,こちら(PDF)からご覧になれます
赤穂昭太郎(あかほ しょうたろう)
1965年生まれ.1990年東京大学大学院工学系研究科計数工学専攻修士了.1990年通産省工業技術院電子技術総合研究所情報科学部研究員.2001年より独立行政法人産業技術総合研究所脳神経情報研究部門情報数理研究グループグループ長.博士(工学).赤穂昭太郎(あかほ しょうたろう)
1965年生まれ.1990年東京大学大学院工学系研究科計数工学専攻修士了.1990年通産省工業技術院電子技術総合研究所情報科学部研究員.2001年より独立行政法人産業技術総合研究所脳神経情報研究部門情報数理研究グループグループ長.博士(工学).
ページトップへ戻る