Найти - Пользователи
Полная версия: Опять текст между тегами...
Начало » Python для новичков » Опять текст между тегами...
1
Yana1990
Здравствуйте форумчане. Суть такова = есть html файл. В этом файле помимо всего прочего есть повторяющие парные значения
data-some=“тут набор цифр”
и затем идёт парой к нему
name-other=“тут две строки кириллицей” (могут быть символы разного регистра)

Задача такая.
Вынуть из этого файла парные значения. То есть значения из каждой data-some и каждой name-other, от кавычки до кавычки.

Со строками мало опыта. Как лучше сделать? Работать с файлом как с html или как с текстом. Я так понимаю что если как с html то надо что-то думать с beautifulsoup, а если как с текстом, то нужно использовать регулярные выражения. Что в том что в этом опыта мало…
Может есть какие то проще варианты?
doza_and
Yana1990
Может есть какие то проще варианты?
bs внутри все равно lxml использует насколько я помню.

На мой взгляд самый простой вариант с регулярными выражениями проще уж некуда.
 re.findall(r'data-some="(\d+)"',txt)
re.findall(r'data-some="([А-Яа-я \n]+)"',txt,flags=re.M)
Но с ними нет гарантии что вытащится то что надо во всех мыслимых случаях например наличие кавычек в вашей кириллице всякими спец буквами типа ио если кодировка utf, надо правильно кодировку указать при чтении и т.п..
Я рекомендую начать с изучения регулярных выражений.

Есть еще https://habr.com/ru/post/239081/
Это в тех случаях когда регулярки не справились и готового парсера под заданный синтаксис нет.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB