#!/usr/bin/python
#coding=utf-8
import gspread, urllib, re
from bs4 import BeautifulSoup
a_pattern = '[0-9]\\s[0-9]*[0-9]\\b вакансий' # для поиска значения количества вакансий,
list2 = []
list = ['IT', 'Продажа', 'Образование', 'Начало карьеры', 'Туризм', 'Стажировка', 'Маркетинг']
urllist = ['https://rabota.yandex.ru/search?job_industry=275',
'https://rabota.yandex.ru/search?job_industry=386',
'https://rabota.yandex.ru/search?job_industry=106',
'https://rabota.yandex.ru/search?experience=NO_EXPERIENCE',
'https://rabota.yandex.ru/search?job_industry=298',
'https://rabota.yandex.ru/search?text=%D1%81%D1%82%D0%B0%D0%B6%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0',
'https://rabota.yandex.ru/search?job_industry=420']
#yandex
for items in list:
for url in urllist:
f = urllib.urlopen(url)
soup = BeautifulSoup(f)
i = soup.find_all('div', 'search-results__heading-content search-results__heading-content_type_vacancies')
result = re.search(a_pattern, str(i))
list2.append(result.group(0)) # список с количеством вакансии
print list2
#hh
s_pattern = ["href='?enable_snippets=true&clusters=true&area=2&specialization=14&from=cluster_professionalArea'",
"href='?enable_snippets=true&clusters=true&area=2&specialization=17&from=cluster_professionalArea'",
"href='?enable_snippets=true&clusters=true&area=2&specialization=14&from=cluster_professionalArea'",
"href='?enable_snippets=true&clusters=true&area=2&specialization=15&from=cluster_professionalArea'",
"href='?enable_snippets=true&clusters=true&area=2&specialization=22&from=cluster_professionalArea'",
"href='?enable_snippets=true&clusters=true&area=2&employment=probation&from=cluster_employment'"]
j = 0
for items in list:
j = j + 1
url = 'http://hh.ru/search/vacancy?clusters=true&enable_snippets=true&area=2'
f = urllib.urlopen(url)
soup = BeautifulSoup(f)
i = soup.find('a', 'href')
В связи с повышением курса доллара и переезда хочется автоматизировать процесс, каждый день сканируются вакансии с ресурсов и записываются в гугл таблицу, пока проблема с регэкспом, а именно:
<div class="search-results__heading-content search-results__heading-content_type_vacancies">5 217 вакансий <span class="where">в Санкт-Петербурге и Ленинградской области</span>
<div class="search-results__heading-filter">в отрасли: IT, интернет, связь, телеком</div></div>
тысячный разряд отделен пробелом, пробовал парсить по поисковым словам, работало, но результат совсем другой, нежели по сферам, заодно спрошу как можно вытянуть из hh сочетание сферы+значение:
<a class="clusters-value" href="?enable_snippets=true&clusters=true&area=2&specialization=17&from=cluster_professionalArea"><span class="clusters-value__name" data-qa="serp__cluster-item-title">Продажи</span>
<span class="clusters-value__count" data-qa="serp__cluster-item-number">9082</span></a>