書誌情報[]
- タイトル
- 集合知プログラミング
- 責任表示
- Toby Segaran著 ; 當山仁健, 鴨澤眞夫訳
- 出版事項
- 東京 : オライリー・ジャパン / 東京 : オーム社 (発売), 2008.7
- 形態事項
- xxv, 361p ; 24cm
- ISBN
- 9784873113647
- 別タイトル
- Programming collective intelligence : building smart web 2.0 applications
- 著者標目
- Segaran, Toby ; 當山, 仁健 [トウヤマ, ヨシタケ] ; 鴨澤, 眞夫 [カモサワ, マサオ]
- 分類
- NDC8:007.64 , NDC9:007.64
- 件名
- BSH:プログラミング(コンピュータ) , BSH:アルゴリズム , BSH:協同
目次[]
1章 集合知への招待[]
1.1 集合知とは何か?
1.2 機械学習とは何か?
1.3 機械学習の限界
1.4 実生活における例
1.5 学習アルゴリズムのその他の使用
2章 推薦を行う[]
2.1 協調フィルタリング
2.2 嗜好の収集
2.3 似ているユーザを探し出す
2.4 アイテムを推薦する
2.5 似ている製品
2.6 del.icio.us のリンクを推薦するシステムを作る
2.7 アイテムベースのフィルタリング
2.8 MovieLensのデータセットを使う
2.9 ユーザベース VS アイテムベース
3章 グループを見つけ出す[]
3.1 教師あり学習 VS 教師なし学習
3.2 単語ベクトル
3.3 階層的クラスタリング
3.4 デンドログラムを描く
3.5 列のクラスタリング
3.6 K 平均法によるクラスタリング
3.7 嗜好のクラスタ
3.8 データを2次元で見る
3.9 クラスタについてその他のこと
4章 検索とランキング[]
4.1 検索エンジンとは?
4.2 シンプルなクローラ
4.3 インデックスの作成
4.4 問い合わせ
4.5 内容ベースの順位付け
4.6 インバウンドリンクの利用
4.7 クリックからの学習
5章 最適化[]
5.1 グループ旅行
5.2 解の表現
5.3 コスト関数
5.4 ランダムサーチ(無作為探索)
5.5 ヒルクライム
5.6 模擬アニーリング
5.7 遺伝アルゴリズム
5.8 実際のフライトを検索する
5.9 嗜好への最適化
5.10 ネットワークの可視化
5.11 さらなる可能性
6章 ドキュメントフィルタリング[]
6.1 スパムフィルタリング
6.2 ドキュメントと単語
6.3 分類器のトレーニング
6.4 確率を計算する
6.5 単純ベイズ分類器
6.6 フィッシャー法
6.7 トレーニング済みの分類器を保存する
6.8 Blogフィードをフィルタする
6.9 特徴の検出の改良
6.10 Akismetを利用する
6.11 その他の手法
7章 決定木によるモデリング[]
7.1 サインアップを予測する
7.2 決定木入門
7.3 ツリーのトレーニング
7.4 最高の分割を選ぶ
7.5 再帰的なツリー構築
7.6 決定木の表示
7.7 新しい観測を分類する
7.8 ツリーの刈り込み
7.9 欠落データへの対処
7.10 数値による帰結への対処
7.11 住宅価格のモデリング
7.12 "Hotness"のモデル化
7.13 決定木を使うべき場面
8章 価格モデルの構築[]
8.1 サンプルデータセットの構築
8.2 K近傍法
8.3 重み付け近傍法
8.4 クロス評価
8.5 異質な変数
8.6 縮尺の最適化
8.7 不均一な分布
8.8 実データの利用 eBay API
8.9 K近傍法はどこで使うべきか
9章 高度な分類手法:カーネルメソッドとSVM[]
9.1 matchmakerデータセット
9.2 このデータセットの難点
9.3 基礎的な線形分類
9.4 カテゴリーデータな特徴たち
9.5 データのスケーリング
9.6 カーネルメソッドを理解する
9.7 サポートベクトルマシン
9.8 LIBSVMを使う
9.9 Facebookでのマッチ
10章 特徴を発見する[]
10.1 ニュースのコーパス
10.2 これまでのアプローチ
10.3 非負値行列因子分解
10.4 結果を表示する
10.5 株式市場のデータを使用する
11章 進化する知性[]
11.1 遺伝的プログラミングとは?
11.2 ツリー構造のプログラム
11.3 最初の集団を作る
11.4 解決法をテストする
11.5 プログラムの突然変異
11.6 交叉(Crossover)
11.7 環境を作り上げる
11.8 シンプルなゲーム
11.9 さらなる可能性
12章 アルゴリズムのまとめ[]
紹介[]
本書は現在注目を集めている「集合知」をテーマにした書籍です。
機械学習のアルゴリズムと統計を使ってウェブのユーザが生み出した膨大なデータを分析、解釈する方法を、基礎から分かりやすく解説します。
本書で紹介するのは「購入・レンタルした商品の情報を利用した推薦システム」、「膨大なデータから類似したアイテムを発見し、クラスタリングする方法」など。
del.icio.us、eBayなどが公開しているWeb APIを使用した解説も本書の大きな特徴です。
本書のサンプルコードは可読性に優れたPythonを使用していますが、他の言語のプログラマでも理解しやすいようにアルゴリズムを解説しています。
日本語版ではYahoo!日本語形態素解析Webサービスを利用した日本語テキスト処理について加筆しました。