用美丽的汤刮图像
大家好,大家好
我正在尝试从chegg.com网站上抓取问题并保存它
作为html文件
当网站包含图像时。
图像链接可以是内部AS
Https://media.cheggcdn.com/media/eb7...0307/phpDbKTCI
查看问题链接
Https://www.chegg.com/homework-help/...t2-u-q69085812
或外部AS
//d2vlcm61l7u1fs.cloudfront.net/media%2Fb2b%2Fb2b8dcb5-ae0d-4ad1-9156-eda0dd651978%2FphpX4CpFQ.png
查看问题链接
Https://www.chegg.com/homework-help/...s-ch-q10531553
,
因此,当它是外部时,图像不会出现在抓取过程中
错误控制台
获取file://d2vlcm61l7u1fs.cloudfront.net/media%2F078%2F078e768f-d236-48fa-aff9-3365467e00d3%2FphpjRcT9F.png Net::ERR_INVALID_URL
……
我的代码
选择 | 换行 | 行号
- url=''
- headers = {
- 'authority': 'www.chegg.com',
- ....
- ...
- }
- a = scraper.get(url, headers=headers)
- b =r.content
- soup = BeautifulSoup(b, "html.parser")
- c= soup.find("div", {"class": "rKMzl"})
- with open("d.html", "w", encoding = 'utf-8') as file:
- file.write(str(c))
如有任何建议,我将不胜感激