岡嶋裕史 『数式を使わないデータマイニング入門  隠れた法則を発見する』

 規定した法則の「事後検証」を指向している統計分析に対し、「未来予測」を指向するのがデータマイニングである。
 セブン-イレブン・ジャパンが最初に運用したPOSシステムに見られるように、CRM(Customer Relationship Management)をはじめとする企業の営業活動に援用され、「紙おむつとビール」といった伝説を生み出してきたことはよく知られている。半面、いかにデータウェアハウスを構築し、膨大な情報を蓄積できたとしても、それだけで私たちが望むような分析結果が得られるわけではない。
 本書では、解析作業の準備段階で異常値を除外する(クレンジングする)コツや、複数の属性にまたがる隠れた法則の見つけ方などを、日常の卑近な例をもとに説明。漠然とした情報群の中から、最終的な落としどころを探る「回帰分析」をはじめ、クラスタ分析や決定木分析、自己組織化マップといった「分類法」、連関規則の意味、ニューラルネットワークなど、データマイニングの主だったポイントを俯瞰することができる。
 同様の精度の結果が得られるのであれば、(決定木の)階層は少なくシンプルな方がよい」という思考経済の法則「オッカムの剃刀」や、複雑化したニューラルネットワークを検証する「交差妥当化」など、実用的なテクニックにも触れられている。
 
 一方、第10章「データマイニングと情報管理」、11章「監視社会とデータマイニング」で、著者はディヴィッド・ライアン『監視社会』を下敷きに、利用者の「利便性を向上させるために導入されたあらゆる情報システムは、そのまま監視システムである」(p.202)と警鐘を鳴らしている。
 詳細は2010/05/01のレビュー「大屋雄裕 『自由とは何か ――監視社会と「個人」の消滅』」と重複する内容なので省くが、監視カメラがあることで、必ず安全を守ってあげるなどとは明示されてもいないのに、あたかもそう思い込んでしまう現代人の「思考停止」の危険性が指摘されている。著者が言うように、まさにこれは“ディジタルデバイド”といった事象などとは「本質的に異なる」クリティカルな事態なのだ。
 
 ちなみに、本書でも末尾にジョージ・オーウェル1984年』が引用されているのが面白い。曰く、ビッグブラザーは、もうどこかでわれわれを見つめているかもしれないのだ――、と。