Найти - Пользователи
Полная версия: Инструменты для парсинга сайтов и анализа данных
Начало » Data Mining » Инструменты для парсинга сайтов и анализа данных
1 2 3
pyhton
Главный инструмент - это наверно все-таки инспектор и консоль браузера. А питон - это то куда потом вставляешь полученные оттуда селекторы.
pyhton
lorien
Где это может быть важно?
Там где чудаки на букву м не придумали установку бинарных зависимостей, XBMC, например.
lorien
Решил завести на github репозиторий со список web scraping библиотек для разных языков. Для начала перенёс туда список из этого топика.
Репозиторий: https://github.com/lorien/web-scraping
Список для python: https://github.com/lorien/web-scraping/blob/master/python.md
pif-paf
Помогите есть такая проблема как получить данные из www.instagram.com/direct/inbox у выбранного пользователя нужное слово я тут побывал и не могу заставить получить данные с поля сообщения
слово Привет

browser.find_element_by_xpath(
'//*/section/div/div/div/div/div/div/div/div/div/div/div').click()
time.sleep(random.randrange(2,6))

url = browser.find_element_by_xpath('//*/section/div/div/div/div/div')

r = requests.get(url)
soup = BeautifulSoup(r.content, ‘html.parser’)
for x in (soup.find_all(string=re.compile('Привет', flags=re.I))):
print(x)
work2crowd
Большое спасибо за подборку
benchase
Web scraping and data analysis are powerful techniques in data mining, allowing you to extract valuable insights from vast amounts of online information. Several tools can help with this, including Python libraries like BeautifulSoup, Scrapy, and Selenium for web scraping. BeautifulSoup is great for beginners as it simplifies navigating and extracting HTML data, while Scrapy is more advanced and efficient for large-scale projects. Selenium, on the other hand, is useful when you need to interact with dynamic websites, like clicking buttons or scrolling, before scraping data.

____ _________________________
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB