Найти - Пользователи
Полная версия: удаление вики-разметки
Начало » Python для новичков » удаление вики-разметки
1
ktr
Добрый день!
Уже давно пытаюсь решить такую проблему: мне нужно удалить вики-разметку из некоторых статей Википедии. Статьи принадлежат к определенной предметной области, математика и информатика, следовательно, в них много формул и т.п.. Знаю, что есть много библиотек для Python, работающих с вики-разметкой, но никак не могу разобраться, какая именно мне подойдет. Часть из них работает с дампами Википедии, это не совсем то, что надо, так как у меня статей в разы меньше (около 10 000). Другие не работают с Юникодом. Для временного использования написала несколько регулярок, которые находят самые очевидные теги типа <math> … </math> или ‘'’ . Но все равно, на выходе остается много мусора, а часть нужного текста пропадает.
Очень прошу совета! Может быть, кто-нибудь сталкивался с этой задачкой?
Singularity
А какие теги в wiki разметке? можно все удалить что между <> регуляркой
ktr
Singularity, есть всякие {{ | }}, { | | } и подобные штуки, бывают еще вложенные. Вот сейчас у меня есть какое-то количество регулярок… Но результат их работы меня не устраивает.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB