请选择 进入手机版 | 继续访问电脑版

#楼主# 2020-9-12

跳转到指定楼层
抓取图书信息的网站地址为www.packtpub.com/all
展示内容如下:

我们的目的很简单——获取当前页每本书的名字和价格。

审查元素可以看出页面结构如下:

可以通过查找"book-block-title"定位标题,这里用到find_all()方法,这样就可以找到所有书的标题,它们构成了一个列表。然后循环查找书的价格。注意到书的价格独立于任何标签之外,所以运用到了上篇文章讲到的正则表达式匹配进行查找。
注:这里遇到了一个问题,我用NOTEPAD运行我写的代码时,报UnicodeEncodeError错误,用了很多方法未果。然后用Python自带的IDLE运行程序,一次通过,知道是编码问题,但不知道怎么解决,暂且放下。而且发现爬取信息的时候很慢,以为是BeautifulSoup问题,结果加入时间模块检测,发现是网页打开占去了大部分时间,爬取信息还是蛮快的。

下面是示例代码:

[Python]  
  1. import urllib.request
  2. import datetime
  3. import re
  4. from bs4 import BeautifulSoup
  5. starttime = datetime.datetime.now()
  6. url = "https://www.packtpub.com/all"
  7. page = urllib.request.urlopen(url)
  8. soup_packtpage = BeautifulSoup(page)
  9. page.close()
  10. endtime = datetime.datetime.now()
  11. print (endtime - starttime)
  12. starttime = datetime.datetime.now()
  13. all_book_title = soup_packtpage.find_all("div", class_="book-block-title")
  14. price_regexp = re.compile(u"\s+£\s\d+\.\d+")
  15. for book_title in all_book_title:
  16.         print("Book's name is " + book_title.string.strip())
  17.         book_price = book_title.find_next(text=price_regexp)
  18.         print("Book's price is "+ book_price.strip())
  19.         print("\n")
  20. endtime = datetime.datetime.now()
  21. print (endtime - starttime)
复制代码

输出:


关于图书的信息还有很多,比如图书大概内容,图书的ISBN号,图书页数等,这些需要跳转到另一个页面去获取。目前初学了一点BeautifulSoup,暂时只能做这么多。以后学多了,能爬取的信息就更多了。
转播转播 分享淘帖
回复

使用道具

成为第一个回答人

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则