Добрый день!
Уже давно пытаюсь решить такую проблему: мне нужно удалить вики-разметку из некоторых статей Википедии. Статьи принадлежат к определенной предметной области, математика и информатика, следовательно, в них много формул и т.п.. Знаю, что есть много библиотек для Python, работающих с вики-разметкой, но никак не могу разобраться, какая именно мне подойдет. Часть из них работает с дампами Википедии, это не совсем то, что надо, так как у меня статей в разы меньше (около 10 000). Другие не работают с Юникодом. Для временного использования написала несколько регулярок, которые находят самые очевидные теги типа <math> … </math> или ‘'’ . Но все равно, на выходе остается много мусора, а часть нужного текста пропадает.
Очень прошу совета! Может быть, кто-нибудь сталкивался с этой задачкой?