Уведомления

Группа в Telegram: @pythonsu

#1 Сен. 1, 2012 13:11:00

ktr
От:
Зарегистрирован: 2010-04-19
Сообщения: 4
Репутация: +  0  -
Профиль   Отправить e-mail  

удаление вики-разметки

Добрый день!
Уже давно пытаюсь решить такую проблему: мне нужно удалить вики-разметку из некоторых статей Википедии. Статьи принадлежат к определенной предметной области, математика и информатика, следовательно, в них много формул и т.п.. Знаю, что есть много библиотек для Python, работающих с вики-разметкой, но никак не могу разобраться, какая именно мне подойдет. Часть из них работает с дампами Википедии, это не совсем то, что надо, так как у меня статей в разы меньше (около 10 000). Другие не работают с Юникодом. Для временного использования написала несколько регулярок, которые находят самые очевидные теги типа <math> … </math> или ‘'’ . Но все равно, на выходе остается много мусора, а часть нужного текста пропадает.
Очень прошу совета! Может быть, кто-нибудь сталкивался с этой задачкой?



Офлайн

#2 Сен. 1, 2012 20:03:30

Singularity
Зарегистрирован: 2011-07-28
Сообщения: 1387
Репутация: +  75  -
Профиль   Отправить e-mail  

удаление вики-разметки

А какие теги в wiki разметке? можно все удалить что между <> регуляркой

Офлайн

#3 Сен. 2, 2012 10:26:54

ktr
От:
Зарегистрирован: 2010-04-19
Сообщения: 4
Репутация: +  0  -
Профиль   Отправить e-mail  

удаление вики-разметки

Singularity, есть всякие {{ | }}, { | | } и подобные штуки, бывают еще вложенные. Вот сейчас у меня есть какое-то количество регулярок… Но результат их работы меня не устраивает.



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version