Уведомления

Группа в Telegram: @pythonsu
  • Начало
  • » Data Mining
  • » Инструменты для парсинга сайтов и анализа данных [RSS Feed]

#1 Июль 9, 2015 17:57:24

pyhton
Зарегистрирован: 2013-12-13
Сообщения: 64
Репутация: +  -2  -
Профиль   Отправить e-mail  

Инструменты для парсинга сайтов и анализа данных

Главный инструмент - это наверно все-таки инспектор и консоль браузера. А питон - это то куда потом вставляешь полученные оттуда селекторы.

Офлайн

#2 Июль 9, 2015 17:58:40

pyhton
Зарегистрирован: 2013-12-13
Сообщения: 64
Репутация: +  -2  -
Профиль   Отправить e-mail  

Инструменты для парсинга сайтов и анализа данных

lorien
Где это может быть важно?
Там где чудаки на букву м не придумали установку бинарных зависимостей, XBMC, например.

Офлайн

#3 Авг. 12, 2015 23:51:24

lorien
От:
Зарегистрирован: 2006-08-20
Сообщения: 755
Репутация: +  37  -
Профиль   Адрес электронной почты  

Инструменты для парсинга сайтов и анализа данных

Решил завести на github репозиторий со список web scraping библиотек для разных языков. Для начала перенёс туда список из этого топика.
Репозиторий: https://github.com/lorien/web-scraping
Список для python: https://github.com/lorien/web-scraping/blob/master/python.md




Grab - фреймворк для парсинга сайтов | github:web-scraping - список python библиотек для парсинга сайтов

Офлайн

#4 Сен. 8, 2021 14:34:19

pif-paf
Зарегистрирован: 2021-09-08
Сообщения: 1
Репутация: +  0  -
Профиль   Отправить e-mail  

Инструменты для парсинга сайтов и анализа данных

Помогите есть такая проблема как получить данные из www.instagram.com/direct/inbox у выбранного пользователя нужное слово я тут побывал и не могу заставить получить данные с поля сообщения
слово Привет

browser.find_element_by_xpath(
'//*/section/div/div/div/div/div/div/div/div/div/div/div').click()
time.sleep(random.randrange(2,6))

url = browser.find_element_by_xpath('//*/section/div/div/div/div/div')

r = requests.get(url)
soup = BeautifulSoup(r.content, ‘html.parser’)
for x in (soup.find_all(string=re.compile('Привет', flags=re.I))):
print(x)

Прикреплённый файлы:
attachment Безымянный.jpg (18,0 KБ)

Офлайн

  • Начало
  • » Data Mining
  • » Инструменты для парсинга сайтов и анализа данных[RSS Feed]

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version