Python クローリング&スクレイピング 書影

Python クローリング&スクレイピング

データ収集・解析のための実践開発ガイド

加藤 耕太(著)

内容紹介

Pythonによるクローリング・スクレイピングの入門から実践までを解説した書籍です。基本的なクローリングやAPIを活用したデータ収集、HTMLやXMLの解析から、データ取得後の分析や機械学習前の処理まで解説。データの収集・解析、活用がしっかりと基本から学べます。Webサービスの開発やデータサイエンスや機械学習分野で実用したい人はもちろん、基礎から解説しているのでPython初心者でもつまずかずに学習できます。多数のライブラリ、強力なフレームワークを活用して高効率に開発できます。

技術評論社のページ(サンプルコード・修正情報もこちら)

書籍情報

大型本
400ページ
出版社
技術評論社
ISBN-10
4774183679
ISBN-13
978-4774183671
発売日
2016/12/16

販売サイト

著者ブログ

書籍紹介

レビュー記事

レビューを書いていただきました。ありがとうございます。

目次

第1章 クローリング・スクレイピングとは何か

  1. 1.1.本書が取り扱う領域
  2. 1.2.Wgetによるクローリング
  3. 1.3.Unixコマンドによるスクレイピング
  4. 1.4.gihyo.jpのスクレイピング
  5. 1.5.まとめ

第2章 Pythonではじめるクローリング・スクレイピング

  1. 2.1.Pythonを使うメリット
  2. 2.2.Pythonのインストールと実行
  3. 2.3.Pythonの基礎知識Webページを取得する
  4. 2.4.Webページを取得する
  5. 2.5.Webページからデータを抜き出す
  6. 2.6.データを保存する
  7. 2.7.Pythonによるスクレイピングの流れ
  8. 2.8.まとめ

第3章 強力なライブラリの活用

  1. 3.1.ライブラリのインストール
  2. 3.2.Webページを簡単に取得する
  3. 3.3.HTMLのスクレイピング
  4. 3.4.RSSのスクレイピング
  5. 3.5.データベースに保存する
  6. 3.6.クローラーとURL
  7. 3.7.Pythonによるクローラーの作成
  8. 3.8.まとめ

第4章 実用のためのメソッド

  1. 4.1.クローラーの分類
  2. 4.2.クローラー作成にあたっての注意
  3. 4.3.繰り返しの実行を前提とした設計
  4. 4.4.クロール先の変化に対応する
  5. 4.5.まとめ

第5章 クローリング・スクレイピングの実践とデータの活用

  1. 5.1.データセットの取得と活用
  2. 5.2.APIによるデータの収集と活用
  3. 5.3.時系列データの収集と活用
  4. 5.4.オープンデータの収集と活用
  5. 5.5.Webページの自動操作
  6. 5.6.JavaScriptを使ったページのスクレイピング
  7. 5.7.取得したデータの活用
  8. 5.8.まとめ

第6章 フレームワーク Scrapy

  1. 6.1.Scrapyの概要
  2. 6.2.Spiderの作成と実行
  3. 6.3.実践的なクローリング
  4. 6.4.抜き出したデータの処理
  5. 6.5.Scrapyの設定
  6. 6.6.Scrapyの拡張
  7. 6.7.クローリングによるデータの収集と活用
  8. 6.8.画像の収集と活用
  9. 6.9.まとめ

第7章 クローラーの継続的な運用・管理

  1. 7.1.クローラーをサーバーで動かす
  2. 7.2.クローラーの定期的な実行
  3. 7.3.クローリングとスクレイピングの分離
  4. 7.4.クローリングの高速化・非同期化
  5. 7.5.クラウドを活用する
  6. 7.6.まとめ

Appendix Vagrantによる開発環境の構築