libxml2dom-解析恶意html
嗨……我使用与libxml2dom快速测试===============进口libxml2domaa = libxml2dom.parseString (foo)ff = libxml2dom.toString (aa)打印ff===============----------------------------------当我开始,foo是:< html ><身体>< /身体>< / html >< html ><身体>. .. .. .< /身体>< / html >-------------------------------当我打印ff:< html ><身体>< /身体>< / html >-------------------------------所以就好像parseString只读取初始"html"树.我综述了多达我可以找到关于libxml2dom试图找出我可以让它读/解析/处理html树节点.我知道,html是诽谤/紧张的,但我似乎无法找到任何应用程序(整洁/ beautifulsoup)可以"知道"的html树把哪一个/删除! !从技术上讲,两个html树是有效的,只是他们都不应该在文件! ! !想法/意见感激谢谢