本站资源收集于互联网,不提供软件存储服务,每天免费更新优质的软件以及学习资源!

如何去除爬取网站数据中的转义字符?

网络教程 app 1℃

如何去除爬取网站数据中的转义字符

如何去除爬取网站数据中的转义字符?

针对问题中出现的 “” 和 “

” 等转义字符,可以通过以下方法将其去除:

1.使用正则表达式:

import rehtml = "<p style="width: 100%;">(.*)</p>"dr = re.pile(r'<[^>]+>’, re.s) contant =re.findall(findcontant1, item)if len(contant) <= 0: contant = re.findall(findcontant2, item)contant = dr.sub(”, str(contant))

2.使用beautifulsoup进行解析:

from bs4 import BeautifulSoupimport rehtml = "<p style="width: 100%;">(.*)</p>"soup = BeautifulSoup(html, "html.parser")contant = soup.find(‘p’).text

经过上述处理,即可去除转义字符,获得干净的文本内容。

以上就是如何去除爬取网站数据中的转义字符?的详细内容,更多请关注范的资源库其它相关文章!

转载请注明:范的资源库 » 如何去除爬取网站数据中的转义字符?

喜欢 (0)