Найти - Пользователи
Полная версия: Парсинг сайта часть 2
Начало » Python для новичков » Парсинг сайта часть 2
1
Stepe
Добрый день.
Я уже создовал тему парсинга сайта, благодаря вашим подсказкам я все таки смог выгрузить погоду с сайта, но теперь возникла еще более ужасная проблемма, выгрузить время с того же сайта. как это сделать не могу понять вообще вот мой код которым стараюсь это выгрузить.
import urllib
import urllib.request as req
import requests
from bs4 import BeautifulSoup
url = "http://rp5.ru/%D0%9F%D0%BE%D0%B3%D0%BE%D0%B4%D0%B0_%D0%B2_%D0%9A%D1%80%D0%B0%D1%81%D0%BD%D0%BE%D0%B4%D0%B0%D1%80%D0%B5,_%D0%9A%D1%80%D0%B0%D1%81%D0%BD%D0%BE%D0%B4%D0%B0%D1%80%D1%81%D0%BA%D0%B8%D0%B9_%D0%BA%D1%80%D0%B0%D0%B9"
proxy=req.ProxyHandler({'http':r'http://@10.5.45.250:3128'})
auth = req.HTTPBasicAuthHandler()
opener = req.build_opener(proxy, auth, req.HTTPHandler)
req.install_opener(opener)
conn = req.urlopen(url)
soup = BeautifulSoup(conn.read(),from_encoding="utf-8")
test = soup.findAll(name = 'td' , attrs = {'class': 'd underlineRow'})
for t in soup.findAll(name = 'td' , attrs = {'class': 'd underlineRow'}):
    print(t)

А вот код html который выгрузить не получается…

[code html] <td colspan="2" class="d underlineRow">16:00</td><td colspan="2" class="n2 underlineRow">22:00</td><td colspan="2" class="n underlineRow">04:00</td><td colspan="2" class="d2 underlineRow">10:00</td><td colspan="2" class="d2 underlineRow">16:00</td><td colspan="2" class="n2 underlineRow">22:00</td><td colspan="2" class="n underlineRow">04:00</td><td colspan="2" class="d2 underlineRow">10:00</td><td colspan="2" class="d2 underlineRow">16:00</td><td colspan="2" class="n2 underlineRow">22:00</td><td colspan="2" class="n underlineRow">04:00</td><td colspan="2" class="d2 underlineRow">10:00</td><td colspan="2" class="d2 underlineRow">16:00</td><td colspan="2" class="n2 underlineRow">22:00</td><td colspan="2" class="n underlineRow">04:00</td><td colspan="2" class="d2 underlineRow">10:00</td><td colspan="2" class="d2 underlineRow">16:00</td><td colspan="2" class="n2 underlineRow">22:00</td><td colspan="2" class="n underlineRow">04:00</td><td colspan="2" class="d2 underlineRow">10:00</td><td colspan="2" class="d2 underlineRow">16:00</td><td colspan="2" class="n2 underlineRow">22:00</td><td colspan="2" class="n underlineRow">04:00</td>

[/code]

Выгрузить надо только время…. Помогите пожалуйста.
Singularity
Stepe
что ты хочешь получить ?
Stepe
Singularity
что ты хочешь получить ?
Хочу получить время. например 16:00
я имею время которое расположенное в тэги <td colspan=“2” class=“d underlineRow”>16:00</td>
zahar
может быть так:
list = ('<td colspan="2" class="d underlineRow">16:00</td><td colspan="2" class="n2 underlineRow">22:00</td><td colspan="2" ')
x = re.findall('[0-9]+:[0-9]+', list)
s0rg
lxml + xpath
Nixxx
zahar
0-9]+:
Тогда уже
re.findall(r'<td .*? class=".*?underlineRow.*?">(\d+\:\d+)', list)
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB