DjangoBB LoFi version

Полная версия: Автозаполнение при парселе

Начало » Python для новичков » Автозаполнение при парселе

1 2 3

malkir

Июль 14, 2015 21:28:24

Доброго времени суток! Это мой первый опыт знакомства с Python поэтому не судите строго! Есть сайт http://booking.uz.gov.ua/ при попытки парсить его приходят пустые поля так как там для построения таблицы нужно заполнить поля поиска. Вот собственно вопрос: чем можно и можно ли вообще заполнить поля для последующего парсела страницы? Или есть альтернативный способ парсела подобной страницы? Заранее спасибо.

py.user.next

Июль 15, 2015 00:14:28

malkir
Вот собственно вопрос: чем можно и можно ли вообще заполнить поля для последующего парсела страницы?

Поставь Wireshark, заполни и посмотри, что отправляется.

malkir

Июль 15, 2015 10:50:58

Установил, попытался увидеть что отправляется, не выходит

. К сайту у меня только пользовательский доступ, и как мне эта программа поможет перед парселом заполнить форму для поиска?

py.user.next

Июль 15, 2015 11:32:31

malkir
и как мне эта программа поможет перед парселом заполнить форму для поиска?

Форма просто собирает введённые данные и составляет запрос с ними для отправки на сервер. Задача скрипта заключается в том, чтобы сразу составить запрос. А для этого надо узнать его структуру, которую обычно видно через сниффер.

Budulianin

Июль 15, 2015 12:51:20

py.user.next
Поставь wireshark, заполни и посмотри, что отправляется.

Wireshark это overhead, достаточно просто в консоли браузера посмотреть запросы.

malkir

Июль 15, 2015 13:01:36

Угу вроде получил структуру

. Теперь чем я могу их задать при парселе? Всмысле чтобы была построенна таблица сначала нужно используя эту структуру задать параметры для поиска. А как это сделать? Я так понимаю нужно сделать отдельный скрипт который будет это делать или можно все в один скрипт поместить? И чем эможно такое заполнение реализовать?

py.user.next

Июль 15, 2015 14:57:19

Budulianin
Wireshark это overhead, достаточно просто в консоли браузера посмотреть запросы.

Браузеры все разные, а Wireshark - не только один, но и показывает всё.

malkir
чем я могу их задать при парселе?

Не парселе, а парсинге.

malkir
чтобы была построенна таблица сначала нужно используя эту структуру задать параметры для поиска. А как это сделать?

Вот позадавай их разные, и посмотри, что отправляется при этом.
Там пост-запрос, в котором передаются переменные, поэтому надо сделать словарь и применить к нему urlencode().

>>> import urllib.parse
>>> 
>>> urllib.parse.urlencode({'a': 'b', 'c': 'd'})
'c=d&a=b'
>>>

Потом эти данные передаются в пост-запросе через urlopen() в аргументе data.

python.org. urlencode()
python.org. urlopen()

Budulianin

Июль 15, 2015 16:25:07

py.user.next
Браузеры все разные, а Wireshark - не только один, но и показывает всё.

Да в любом браузере есть возможность запросы просмотреть)
Если бы нужно было ВСЁ, тогда wireshark и нужно использовать.
А тут всего ничего, поэтому overhead.

malkir

Июль 15, 2015 19:18:53

ммм что-то не выходит

.
Как только не пробовал уже, что-то в коде вроде, может подскажете что?

from bs4 import BeautifulSoup
from urllib.parse import urlencode
import urllib.request
def getSerch():
    baseurl='http://booking.uz.gov.ua/'
    wert = {'station_id_from': '2200001', 'station_id_till': '2208536',
                             'station_from': 'Киів', 'station_till': 'Миколаів Пас',
                             'date_dep': '21.08.2015', 'time_dep': '00:00', 'time_dep_till': '',
                             'another_ec': '0', 'search': ''}
    
    return (baseurl, urlencode(wert))
def get_html(url):
    response = urllib.request.urlopen(url)
    return response.read()
def parse(html):
    soup = BeautifulSoup(html)
    table = soup.find('table', class_='vToolsDataTable')
    ''' projects = []
    for row in table.find_all('tr'):
	    cols = row.find_all ('td')		
	    projects.append( {
		'title': cols[0].a.text
		})
    for project in projects:
	    print (project)'''
    print (table)
def main():
    parse (get_html('http://booking.uz.gov.ua/'))
if __name__=='__main__':
    main()

py.user.next

Июль 16, 2015 01:18:21

Budulianin
Да в любом браузере есть возможность запросы просмотреть)

Как ты узнал, что в любом браузере тебе показывают всё?
Их надо не только смотреть, но и вырезать из приложения. У Firefox'а для этого ничего не приспособлено. (Элементарное копирование поля не предусмотрено.)

Когда Wireshark показывает, это не только гарантирует верность и полноту данных, но и предоставляет удобный интерфейс для работы с ними.

malkir
может подскажете что?

Нет пост-запроса. Когда запускаешь скрипт, смотри так же через сниффер, что отправляется, равно ли оно тому же, что отправляет браузер.