import xml.dom.minidom dom = xml.dom.minidom.parse('feed1.xml') rel = [] for release in dom.getElementsByTagName('title'): title = release.toxml() title = title.replace('<title type="html"><![CDATA', '') title = title.replace('></title>', '') rel.append(title) for x in rel: print(x, '\n')
Таким макаром получаю из фида заголовки раздач, например:
[Помни / Память / Мементо / Memento (Кристофер Нолан /Christopher Nolan) [2000, США, Триллер, криминал, детектив, BDRip 1080p] [10th Anniversary Special Edition] Dub+MVO+DVO+AVO+Ukr+Orig(Eng)+Sub(Rus,Eng) [21.78 GB]]]
[Цыплёнок с черносливом / Poulet aux prunes / Chicken with plums (Венсан Паронно / Vincent Paronnaud, Маржан Сатрапи / Marjane Satrapi) [2011, Франция, Германия, Бельгия, драма, BDRip 1080p] Sub (rus, fre (forced)) + original (fre) [6.56 GB]]]
[Застрял в тебе / Stuck on You (Бобби Фаррелли, Питер Фаррелли / Bobby Farrelly, Peter Farrelly) [2003 г., США, комедия, драма, HDTV 1080i] DUB + DVO + original eng + sub rus, eng [9.6 GB]]]
Собственно теперь хотелось бы разобрать эти заголовки, например выдернуть названия, режиссёра, размер, и т.д.
Правила создания раздач довольно строгие, поэтому для себя вижу банальный вариант - пробежаться циклом по каждому символу, нужные куда-нибудь записать, и сделать срез от, например, [ до (
В общем, прошу дать наводку, куда копать.
ps Пытаюсь читать талмуд Фридла по регуляркам, но как-то туго пока понимание приходит.
