用美丽的汤刮图像

大家好,大家好
我正在尝试从chegg.com网站上抓取问题并保存它
作为html文件
当网站包含图像时。
图像链接可以是内部AS
Https://media.cheggcdn.com/media/eb7...0307/phpDbKTCI
查看问题链接
Https://www.chegg.com/homework-help/...t2-u-q69085812
或外部AS
//d2vlcm61l7u1fs.cloudfront.net/media%2Fb2b%2Fb2b8dcb5-ae0d-4ad1-9156-eda0dd651978%2FphpX4CpFQ.png
查看问题链接
Https://www.chegg.com/homework-help/...s-ch-q10531553

因此,当它是外部时,图像不会出现在抓取过程中
错误控制台
获取file://d2vlcm61l7u1fs.cloudfront.net/media%2F078%2F078e768f-d236-48fa-aff9-3365467e00d3%2FphpjRcT9F.png Net::ERR_INVALID_URL
……
我的代码

选择 | 换行 | 行号
  1. url=''
  2.     headers = {
  3.         'authority': 'www.chegg.com',
  4.        ....
  5. ...
  6.     }
  7. a = scraper.get(url, headers=headers)
  8. b =r.content
  9. soup = BeautifulSoup(b, "html.parser")
  10. c= soup.find("div", {"class": "rKMzl"})
  11. with open("d.html", "w", encoding = 'utf-8') as file:
  12.  
  13.  
  14.        file.write(str(c))
  15.  
  16.  

如有任何建议,我将不胜感激

# 回答1


文件://可能是查看本地存储的一种方式。在有效的URL中可能需要使用类似HTTPS的协议才能访问图像。

标签: python

添加新评论