Форум сайта python.su
Здравствуйте форумчане. Суть такова = есть html файл. В этом файле помимо всего прочего есть повторяющие парные значения
data-some=“тут набор цифр”
и затем идёт парой к нему
name-other=“тут две строки кириллицей” (могут быть символы разного регистра)
Задача такая.
Вынуть из этого файла парные значения. То есть значения из каждой data-some и каждой name-other, от кавычки до кавычки.
Со строками мало опыта. Как лучше сделать? Работать с файлом как с html или как с текстом. Я так понимаю что если как с html то надо что-то думать с beautifulsoup, а если как с текстом, то нужно использовать регулярные выражения. Что в том что в этом опыта мало…
Может есть какие то проще варианты?
Отредактировано Yana1990 (Ноя. 19, 2019 00:27:03)
Офлайн
Yana1990bs внутри все равно lxml использует насколько я помню.
Может есть какие то проще варианты?
re.findall(r'data-some="(\d+)"',txt) re.findall(r'data-some="([А-Яа-я \n]+)"',txt,flags=re.M)
Отредактировано doza_and (Ноя. 19, 2019 06:15:02)
Офлайн