с помощью etree.HTML(page) получаю контейнер, в котором содержится дерево страницы page и все ее содержимое. Можно ли с помощью lxml, ну, Cleaner там или еще что, удалить весь текстовый контент странички и оставить только дерево.
Например, так:
Было:
<html> <head> <title>Менеджер таблиц</title> <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/> <link rel="stylesheet" type="text/css" href="css/table.css" /> <script type="text/javascript" src="js/table.js"></script> </head> <body> <div id="create_table"> <p><b>Создание таблицы:</b></p> <!-- Создание таблицы --> <form name="createTable"> <p>Имя таблицы:</p> <input type="text" name="tableName" value=""/> <table class="tableCreation"> <thead> <tr> <td>PK</td> <td>Имя поля</td> <td>Тип поля</td> <td>Уникальное</td> <td>Не пустое</td> <td>Добавить</td> <td>Удалить</td> </tr> </thead> .....
<html> <head> <title></title> <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/> <link rel="stylesheet" type="text/css" href="css/table.css" /> <script type="text/javascript" src="js/table.js"></script> </head> <body> <div id="create_table"> <p><b></b></p> <form name="createTable"> <p></p> <input type="text" name="tableName" value=""/> <table class="tableCreation"> <thead> <tr> <td></td> <td></td> <td></td> <td></td> <td></td> <td></td> <td></td> </tr> </thead> ......
То есть, атрибуты тегов можно оставить, а все остальное убрать.
P.S. Если кто знает, как это сделать не с lxml, то тоже прошу в студию.