Форум сайта python.su
есть страничка - http://www.job.ru/topmanagers/
на ней список подразделов - единственный мультиселект
пытаюсь вычленить названия разделов средствами питона
вопрос как вычленить то что в теге:
<select multiple=“multiple” name=“jobSpecializations” id=“jobSpecializations” class=“w300” size=“6”>
…
</select>
делаю так:
import urllib2
import re
req = urllib2.Request("http://www.job.ru/topmanagers/", None, {'User-agent': 'Mozilla/5.0'})
page = urllib2.urlopen(req).read()
#print page
sr = re.findall(r'<select multiple="multiple".*>(.*)</select>',page, re.DOTALL|re.MULTILINE)
print sr
Отредактировано (Март 6, 2009 00:42:39)
Офлайн
re.findall(r'<select multiple="multiple"[^>]*?>(.+)</')
Отредактировано (Март 6, 2009 04:55:10)
Офлайн
Ваш пример вытягивает немного больше - до 2-го селекта.
Седня открыл для себя что есть такое понятие как ‘жадное\не жадное’ оказывается все было из-за этого, пришел к такому:
sr = re.findall(r'<select multiple="multiple".*?>(.+?)</select>',page, re.DOTALL|re.MULTILINE)
Отредактировано (Март 6, 2009 15:52:57)
Офлайн
да, просто проверялось для одного)
Офлайн