本書適合Python程序員閱讀。
" />
Python 3網絡爬蟲開發實戰
27推薦 收藏
52.1K閱讀
圖靈原創

Python 3網絡爬蟲開發實戰

崔慶才 (作者)
上市銷售
本書介紹了如何利用Python 3開發網絡爬蟲,書中首先介紹了環境配置和基礎知識,然后討論了urllib、requests、正則表達式、Beautiful Soup、XPath、pyquery、數據存儲、Ajax數據爬取等內容,接著通過多個案例介紹了不同場景下如何實現數據爬取,最后介紹了pyspider框架、Scrapy框架和分布式爬蟲。
本書適合Python程序員閱讀。

收藏本書能做什么?

有情況的時候會收到通知,比如電子書發布等。

PS:也會在圖靈社區電報頻道更新

出版信息

  • 書  名Python 3網絡爬蟲開發實戰
  • 系列書名圖靈原創
  • 執行編輯關于本書的內容有任何問題,請聯系 王軍花
  • 出版日期2018-04-16
  • 書  號978-7-115-48034-7
  • 定  價99.00 元
  • 頁  數594
  • 印刷方式單色
  • 開  本16開
  • 出版狀態上市銷售

所屬分類

同系列書

  • Linux就是這個范兒

    趙鑫磊   Jie Zhang(張潔)  

    本書內容源自淘寶技術大學的培訓實戰。由來自阿里巴巴集團的資深Linux系統專家趙鑫磊和同樣來自阿里巴巴集團的支...

  • Go語言編程

    本書以介紹Go語言特性為主,示例則盡量采用作者開發團隊平常的實踐,內容涉及內存管理(堆和棧)、錯誤處理、OOP...

  • 一個64位操作系統的設計與實現

    田宇  

    本書講述了一個64位多核操作系統的自制過程。此操作系統自制過程是先從虛擬平臺構筑起一個基礎框架,隨后再將基礎框...

  • 翻譯漫談——怎樣翻譯更地道

    余晟  

    翻譯是一門非常強調實踐并依賴練習的手藝活,這本書是作者從翻譯“票友”出發,走“野路”逐漸成長為翻譯“熟手”的經...

  • 推薦系統實踐

    項亮   陳義   王益  

    本書從數據出發,一步步地介紹在得到什么數據的時候可以設計怎樣的推薦系統。面向廣大的推薦系統開發人員,以實戰為基...

本書特色

案例豐富,注重實戰
博客文章過百萬的靜覓大神力作
全面介紹了數據采集、數據存儲、動態網站爬取、App爬取、驗證碼破解、模擬登錄、代理使用、爬蟲框架、分布式爬取等知識
涉及的庫或工具:urllib、requests、Beautiful Soup、XPath、pyquery、redis-py、PyMongo、PyMySQL、Selenium、Splash、Charles、mitmproxy、mitmdump、Appium、pyspider、Scrapy、Scrapy-Redis、Scrapy-Splash、Docker、Bloom Filter、Gerapy等

目錄

序 一 閱讀
序 二 閱讀
前 言 閱讀
第1章 開發環境配置
第2章 爬蟲基礎 閱讀
第3章 基本庫的使用
第4章 解析庫的使用
第5章 數據存儲
第6章 Ajax數據爬取
第7章 動態渲染頁面爬取
第8章 驗證碼的識別
第9章 代理的使用
第10章 模擬登錄 
第11章 App的爬取
第12章 pyspider框架的使用
第13章 Scrapy框架的使用
第14章 分布式爬蟲
第15章 分布式爬蟲的部署

作者介紹

崔慶才,北京航空航天大學碩士,靜覓博客(https://cuiqingcai.com/)博主,爬蟲博文訪問量已過百萬,喜歡鉆研,熱愛生活,樂于分享。歡迎關注個人微信公眾號“進擊的Coder”。

大家也喜歡

  • Python數據科學與機器學習:從入門到實踐

    【美】弗蘭克?凱恩(Frank Kane)   陳光欣   譯

    本書介紹了使用Python進行數據分析和高效的機器學習,首先從一節Python速成課開始,然后回顧統計學和概率...

  • 深入理解Python特性

    [德]達恩·巴德爾(Dan Bader)   孫波翔   譯

    本書致力于幫助Python開發人員挖掘這門語言及相關程序庫的優秀特性,避免重復勞動,同時寫出簡潔、流暢、易讀、...

  • 精通特征工程

    愛麗絲·鄭   阿曼達·卡薩麗   陳光欣   譯

    本書介紹大量特征工程技術,闡明特征工程的基本原則。主要內容包括:機器學習流程中 的基本概念,數值型數據的基礎...

  • Django企業開發實戰:高效Python Web框架指南

    胡陽  

    本書以從零開發一個博客系統為例,介紹Django在日常工作中的應用。 本書共分為四部分。第一部分介紹編碼之前...

  • Python科學計算最佳實踐:SciPy指南

    [澳]胡安?努內茲-伊格萊西亞斯   [美]斯特凡?范德瓦爾特   [澳]哈麗雅特?達士諾   陳光欣   譯

    本書旨在介紹開源的Python算法庫和數學工具包SciPy。近年來,基于NumPy和SciPy的完整生態系統迅...

  • 沒電子版
    置頂 崔慶才  發表于 2018-03-12 15:50:13
    推薦
    • 請問為什么沒有電子版呢,海外黨沒辦法拿到實體書

      Jason_zhou  發表于 2018-04-13 23:30:26
    • 第11章里,在mac下使用brew install mitmproxy后,其python解析器用的不是常用的anaconda或者系統的python,那么有辦法更換其python解析器或者如何安裝mitmproxy對應的python版本的模塊?比如想在mitmproxy的腳本中使用pymongo,如何安裝其pymongo包

      凡星  發表于 2018-05-10 18:00:30
    • 最后發現應該在一個虛擬環境下安裝比較合適:
      conda env list
      conda create --name mitmproxy python=3.5
      source activate mitmproxy
      pip install mitmproxy==2
      pip install pymongo

      目前好像pymongo與mitmproxy3有沖突

      凡星  發表于 2018-05-11 09:09:49
    • @Jason_zhou 應該還是為了保護版權吧

      那句諾言  發表于 2018-05-17 09:17:04
    • 第217頁中的表5-3中 $in 和 $nin 你寫的含義是“在范圍內”,"不在范圍內"。我覺得應該把這兩個含義改為“包含”,“不包含"

      小牛頭  發表于 2018-08-10 10:11:56
    • @Jason_zhou 電子版容易被盜版

      自由之翼ncl  發表于 2018-09-07 22:59:03
  • 書中不少內容已經過期了,估計作者只是拿以前的項目加到了書中。
    1. Selenium 爬淘寶,沒有考慮搜索結果展示方式——大圖樣式或者是條目樣式,對應的展示方式不同,樣式也有變。而示例中搜索關鍵字 iPad 默認不再是大圖模式展示搜索結果,而改為了條目模式。
    2. 對于 8.3 節中的點觸驗證碼識別表示懷疑。主要原因是所給示例中的驗證碼相對簡單,目前所見的驗證碼不僅有背景圖片,關鍵是圖片中的字加入了干擾——字體傾斜、扭曲。
    3. 第 9.2 節代理池維護,要抓取的3個公共代理網站有2個失效,第2個網站早就關了,第3個現在做成了付費模式。
    4. 書名《Python 3網絡爬蟲開發實戰》名不符實,到第9章為止,能算的上實戰的只有:貓眼電影排行,Ajax爬今日頭條,Selenium爬淘寶商品,代理爬取微信公眾號。至于利用Regex分析網頁,這個真算不上實戰,沒有人用urllib獲取網頁,同樣也沒人用re解析頁面結構。驗證碼識別其實講的不錯,《Python網絡數據采集》一書就是這部分講的淺而且不接地氣兒。本書后半部分還有可能4、5個實戰項目。

    至于本書后半部分,由于沒有讀完,不好做評論。我想這本書主要問題是前邊基礎太多了,基礎占比太大,有辱實戰之名。前邊開發環境配置和爬蟲基礎,另外數據庫介紹部分等等也都是基礎,尤其是 5.3.2 Redis 存儲完全就是在貼文檔。或許我讀得技術書不算多,但我理解的實戰就是類似于《Bootstrap實戰》,每一章自開頭到結尾就是一個項目的開發過程;至于Boostrap是什么,基本語法怎么用,根本沒有這些,全書都是Bootstrap應用和定制化。
    從內容范圍上看,基本該說的都說了,范圍要遠大于爬蟲新手書《Python網絡數據采集》。本書更類似于《Python編程:從入門到實踐》這樣,從基礎到項目的教學。
    laggard  發表于 2018-08-20 01:54:53
    推薦
  • 請問電子版有嗎?
    Jenson  發表于 2018-03-01 13:22:18
    推薦
  • (?????)っ 需要電子版哦
    Bence Zhu  發表于 2018-04-14 19:09:31
    推薦
  • 都已經2018年了,沒有電子版真說不過去。
    isLishude  發表于 2018-04-15 13:56:54
    推薦
  • 出個電子版吧。。。
    LokiSharp  發表于 2018-04-17 09:22:55
    推薦
  • 我就要電子版!書都是電子版,不然不好搬。。。
    學好IT吊打小學僧  發表于 2018-07-17 10:18:52
    推薦
  • 都8012年了,沒有電子版說不過去呀
    學好IT吊打小學僧  發表于 2018-08-27 18:42:05
    推薦
  • lxml安裝后無法import到etree模塊
    查了后才發現我用 的是3.7版本的python
    其實雖然網上說的是python 3.5之后的lxml中不再有etree,但是其實這種說法是有問題的,雖然新版本無法直接from lxml import etree這樣,但是它只不過是換了一個辦法引出etree模塊而已!??正確的引用方法是:

    from lxml import html
    text=```xxx```//測試的html文本
    etree = html.etree
    htmlDiv = etree.HTML(text)
    title = htmls.xpath("//meta[1]/@content")
    print(title)
    1
    2
    3
    4
    5
    6

    shaoyan  發表于 2019-01-08 09:26:24
    推薦
  • 在mysql關系型數據存儲章節中,插入數據前要使用cursor.execute(‘use 數據庫名’)語句吧數據庫加載,不然會報錯,無法找到數據庫,這個沒有用過數據庫的人估計一頭霧水
    shaoyan  發表于 2019-01-08 09:33:36
    推薦
  • 作者作為一個北航研三(2019年畢業)的大佬,不得不說真是我輩之楷模,尤其是暑假期間去微軟亞研院小冰組實習,獲得了當時的院長的極力推薦,前幾年看過他的博客,可謂是一步一個腳印,從山東大學計算機系保研到北航計算機系,師從現今最熱門的深度學習方向,在今年這種悲慘的計算機汪洋大海中,作者依然能夠迎風破浪,走向人生巔峰,不得不說,像大佬這樣的人物,實在是應該好好向他學習,學習!
    敲代碼的小哥  發表于 2019-03-13 20:23:55
    推薦
  • 你好 第一個問題是 在github網站上 標題都對應不了相關的章節,如何找到代碼????
    第二個問題是 phantomjs 已經停止開發, 用什么代替比較好????
    AronWater  發表于 2018-09-16 17:10:45
    推薦
    • 無頭Chrome (Chrome Headless)

      列公子  發表于 2019-02-28 17:57:32
  • selenium停止了對phantomjs的支持
    CarreyKing  發表于 2018-11-04 13:29:42
    推薦
  • 這本書真的是水,小白可以看看,有點編程經驗的人不要看了。
    就Scrapy這一章來說,寫的跟官方文檔一模一樣,https://scrapy-chs.readthedocs.io/zh_CN,其實每個模塊,例如pyQuery,BQ,等都是官方文檔的簡單copy。
    hanshanjie  發表于 2019-02-22 15:08:08
    推薦
  • windows下mitmdunmp無法導入pymongo模塊,好像其他的模塊都不能導入,怎么解決?
    ps:win10,python3.7(anaconda),mitmdump4.04
    蒙奇D路飛  發表于 2019-05-11 21:44:25
    推薦
打羽毛球的作文