Python クローリング&スクレイピング 書影

増補
改訂版
Python クローリング&スクレイピング

データ収集・解析のための実践開発ガイド

加藤 耕太(著)

内容紹介

Pythonによるクローリング・スクレイピングの入門から実践までを解説した書籍です。2017年の初版から内容をアップデート、新ライブラリの解説などを追加した増補改訂版です。基本的なクローリングやAPIを活用したデータ収集、HTMLやXMLの解析から、データ取得後の分析や機械学習などの処理まで解説。データの収集・解析、活用がしっかりと基本から学べます。Webサービスの開発やデータサイエンスや機械学習分野で実用したい人はもちろん、基礎から解説しているのでPython初心者でもつまずかずに学習できます。多数のライブラリ、強力なフレームワークを活用して高効率に開発できます。

書籍情報

大型本
440ページ
出版社
技術評論社
ISBN-10
4297107384
ISBN-13
978-4297107383
発売日
2019/08/10

販売サイト

著者ブログ

書籍紹介

書評

書籍を紹介していただきました。ありがとうございます。

目次

1. クローリング・スクレイピングとは何か

  1. 1-1.本書が取り扱う領域
  2. 1-2.Wgetによるクローリング
  3. 1-3.スクレイピングに役立つUnixコマンド
  4. 1-4.gihyo.jpのスクレイピング
  5. 1-5.まとめ

2. Pythonではじめるクローリング・スクレイピング

  1. 2-1.Pythonを使うメリット
  2. 2-2.Pythonのインストールと実行
  3. 2-3.Pythonの基礎知識
  4. 2-4.Webページを取得する
  5. 2-5.Webページからデータを抜き出す
  6. 2-6.データをファイルに保存する
  7. 2-7.Pythonによるスクレイピングの流れ
  8. 2-8.URLの基礎知識
  9. 2-9.まとめ

3. ライブラリによる高度なクローリング・スクレイピング

  1. 3-1.HTMLのスクレイピング
  2. 3-2.XMLのスクレイピング
  3. 3-3.データベースに保存する
  4. 3-4.クローラーとURL
  5. 3-5.Pythonによるクローラーの作成
  6. 3-6.まとめ

4. 実用のためのメソッド

  1. 4-1.クローラーの特性
  2. 4-2.収集したデータの利用に関する注意
  3. 4-3.クロール先の負荷に関する注意
  4. 4-4.繰り返しの実行を前提とした設計
  5. 4-5.まとめ

5. クローリング・スクレイピングの実践とデータの活用

  1. 5-1.データセットの取得と活用
  2. 5-2.APIによるデータの収集と活用
  3. 5-3.時系列データの収集と活用
  4. 5-4.オープンデータの収集と活用
  5. 5-5.Webページの自動操作
  6. 5-6.JavaScriptを使ったページのスクレイピング
  7. 5-7.取得したデータの活用
  8. 5-8.まとめ

6. フレームワーク Scrapy

  1. 6-1.Scrapyの概要
  2. 6-2.Spiderの作成と実行
  3. 6-3.実践的なクローリング
  4. 6-4.抜き出したデータの処理
  5. 6-5.Scrapyの設定
  6. 6-6.Scrapyの拡張
  7. 6-7.クローリングによるデータの収集と活用
  8. 6-8.画像の収集と活用
  9. 6-9.まとめ

7. クローラーの継続的な運用・管理

  1. 7-1.クローラーをサーバーで動かす
  2. 7-2.クローラーの定期的な実行
  3. 7-3.クローリングとスクレイピングの分離
  4. 7-4.クローリングの高速化・非同期化
  5. 7-5.クラウドを活用する
  6. 7-6.まとめ

Appendix Vagrantによる開発環境の構築