Добрый день форумчане!!!! Мне просто необходим ваш совет. Уже ноли в кровь сбил в поисках по нету и чтению инглиш документации.
Но так ничего и не понял :(
есть такая прекрасная библиотека html5lib (только создатели пожалели сил и времени на документирование).
есть задача парсить html страницы вытянутые с помощью curl (вытягивать из них ссылки, элементы и их содержимое)
пробовал с помощью beautifilsoup - все получается.
по совету интернет общественности переключился на html5lib и завис.
все бы хорошо, можно использовать данную библиотеку для создания дерева beautifulsoup и работать как и раньше. Вот только моя натура не дает мне покоя. Создатель html5lib недвусмысленно напоминает, что дерево данного типа не будет поддерживаться в дальнейшем, посему вариантом остается lxml.
Вот тут вся и проблема!!! Как решать задачи парсинга html связкой html5lib и lxml. Так ничего внятного из документации по тому же lxml я не понял. Мот у кого есть рабочие примеры??? Или посоветуйте может что-то революционно-продвинутое.
Главный момент здесь - html5lib :)