libxml2dom-解析恶意html

嗨……我使用与libxml2dom快速测试===============进口libxml2domaa = libxml2dom.parseString (foo)ff = libxml2dom.toString (aa)打印ff===============----------------------------------当我开始,foo是:< html ><身体>< /身体>< / html >< html ><身体>. .. .. .< /身体>< / html >-------------------------------当我打印ff:< html ><身体>< /身体>< / html >-------------------------------所以就好像parseString只读取初始"html"树.我综述了多达我可以找到关于libxml2dom试图找出我可以让它读/解析/处理html树节点.我知道,html是诽谤/紧张的,但我似乎无法找到任何应用程序(整洁/ beautifulsoup)可以"知道"的html树把哪一个/删除! !从技术上讲,两个html树是有效的,只是他们都不应该在文件! ! !想法/意见感激谢谢

# 回答1

8月26日17:28,"布鲁斯"< bedoug…@earthlink.netwrote:也许有一些可能性libxml2直接从阅读文件描述符,并停止解析第一个文档后,离开描述符开放;目前,这不是由libxml2dom支持,然而.另一种可能性是文本libxml2,直到可以返回一个格式良好的文档,我做的一部分libxml2dom.xmpp模块,但是我真的不支持此功能公共API.再次,改进libxml2dom可能发生如果我找到时间去做他们.保罗
# 回答2

布鲁斯写道:分割字符串"< html"和他们解析每个部分的吗?Stefan

标签: python

添加新评论