使用BeautifulSoup删除某些标记,同时保留其内容

亲爱的大家,
我有以下HTML代码:

中心银行
加利福尼亚州洛杉矶
索尔兹伯里 银行和信托公司
康涅狄格州莱克维尔

将内容保存在内部时,我应该如何删除"字体"标签?
理想情况下,我想得到:

中心银行
加利福尼亚州洛杉矶 索尔兹伯里
银行和信托公司
康涅狄格州莱克维尔

谢谢你.
杰基

# 回答1


在9月6日,17:11," Jackie Wang" 这听起来确实像是编辑练习.如果你很舒服
学习一个新工具,我可以推荐XSLT作为此类工作.这是
样式表:


变换">









这只是描述了两件事:首先,您要识别
字体元素并包括其内容,而不是每个元素的开始
和最终标签;其次,文档的所有其他部分都应该是
复制.
您可以使用许多XSL处理器应用样式表.这
XSLTPROC程序通常可以在安装LibxSLT的地方提供,并且
虽然我敢肯定其他人会告诉大家他们
最喜欢的库和工具,这是我在Python中使用我的方式:
#xsltools:http://www.python.org/pypi/xsltools
#libxml2Dom:http://www.python.org/pypi/libxml2dom
导入xsltools.xsloutput
导入libxml2 dom
#如果S是文档文本...
d = libxml2dom.parsestring(s)
#将上述样式表保存到某个地方的文件,然后...
proc = xsltools.xsloutput.processor(["/tmp/not font.xsl"])
#获取结果文档
d2 = proc.get_result(d)
无论如何,这只是许多人可以处理这种选择的一种选择
问题.
保罗
# 回答2


[适当修复主题]
杰基·王(Jackie Wang)写道:
在与HTML合作的许多其他商品中,lxml.html中的元素
具有专门用于此目的的" .drop_tag()"方法. http://codespeak.net/lxml/
Stefan
# 回答3


杰基·王(Jackie Wang)写道:
请参阅"美丽的套件"文档.找到带有Findall的字体标签,
列出列表,然后适当使用"提取"和"替换".
约翰·纳格(John Nagle)

标签: python

添加新评论