テキストアナリティクス 第4巻
テキストデータマネジメント
前処理から分析へ
⼤規模テキストデータの分析に必須の基本知識と⼿法を網羅的に解説。この1冊で活用法の全貌がわかる。
日々更新・蓄積される膨大なテキストを扱うためには、データ管理が必須となる。本書は、⼤規模なテキストデータを利活⽤する上で必要となる基本知識と⼿法を網羅的に解説する。データ抽出と格納、その各種表現⽅法と重みの計算法や索引付け、そして分析の実例まで、この1冊で大規模テキストデータの活用法の全貌がわかる。
◆第5章掲載プログラムコードとデータ
☞ZIPファイル[401KB]
はじめに
第1章テキストデータマネジメントシステム
1. 1 テキストデータマネジメントの重要性
1. 2 用語の定義
1. 3 テキストデータマネジメントシステムの概要
1. 4 テキストアナリティクスの流れとツール
1. 5 テキストアナリティクスの例
1. 6 本書で想定するPython 実行環境
第2章テキストデータの表現・格納・収集
2. 1 テキストデータの表現
2. 2 テキストベースのさまざまなフォーマット
2. 3 テキストデータの格納
2. 4 テキストデータの収集
2. 5 リンクトオープンデータの情報源
2. 6 データクリーニング
第3章テキストデータからの特徴量抽出
3. 1 形態素解析
3. 2 語の特徴量
3. 3 文書の特徴量
3. 4 文の特徴量
3. 5 メタデータ
3. 6 グラフの特徴量抽出
第4章テキストアナリティクスの方法論
4. 1 テキストの分類
4. 2 テキストのクラスタリング
4. 3 文の類似度
4. 4 リンク解析
4. 5 システムの評価
第5章テキストアナリティクスの実例
5. 1 BigQuery+Python によるテキストアナリティクス
5. 2 クラスタ型計算機を活用した大規模テキストアナリティクス
付録BigQuery の利用準備
参考文献
索引
第1章テキストデータマネジメントシステム
1. 1 テキストデータマネジメントの重要性
1. 2 用語の定義
1. 3 テキストデータマネジメントシステムの概要
1. 4 テキストアナリティクスの流れとツール
1. 5 テキストアナリティクスの例
1. 6 本書で想定するPython 実行環境
第2章テキストデータの表現・格納・収集
2. 1 テキストデータの表現
2. 2 テキストベースのさまざまなフォーマット
2. 3 テキストデータの格納
2. 4 テキストデータの収集
2. 5 リンクトオープンデータの情報源
2. 6 データクリーニング
第3章テキストデータからの特徴量抽出
3. 1 形態素解析
3. 2 語の特徴量
3. 3 文書の特徴量
3. 4 文の特徴量
3. 5 メタデータ
3. 6 グラフの特徴量抽出
第4章テキストアナリティクスの方法論
4. 1 テキストの分類
4. 2 テキストのクラスタリング
4. 3 文の類似度
4. 4 リンク解析
4. 5 システムの評価
第5章テキストアナリティクスの実例
5. 1 BigQuery+Python によるテキストアナリティクス
5. 2 クラスタ型計算機を活用した大規模テキストアナリティクス
付録BigQuery の利用準備
参考文献
索引
波多野賢治(2.6節,3.1~3.4節,4.1節,4.5節執筆)
同志社大学文化情報学部教授
天笠俊之(1.1~1.5節,2.1~2.4節,4.1節,4.2節執筆)
筑波大学計算科学研究センター教授
鈴木優(1.6節,2.4~2.6節,3.2節,3.3節,3.5節,4.1節,4.3節執筆)
岐阜大学工学部准教授
宮崎純(2.3節,3.6節,4.4節,5.2節執筆)
東京工業大学情報理工学院教授
楠和馬(5.1節,付録執筆)
同志社大学大学院文化情報学研究科博士課程(後期課程)
同志社大学文化情報学部教授
天笠俊之(1.1~1.5節,2.1~2.4節,4.1節,4.2節執筆)
筑波大学計算科学研究センター教授
鈴木優(1.6節,2.4~2.6節,3.2節,3.3節,3.5節,4.1節,4.3節執筆)
岐阜大学工学部准教授
宮崎純(2.3節,3.6節,4.4節,5.2節執筆)
東京工業大学情報理工学院教授
楠和馬(5.1節,付録執筆)
同志社大学大学院文化情報学研究科博士課程(後期課程)