Форум сайта python.su
Здравствуйте, уважаемые форумчане. Возникла проблема следующего характера: Scrapy добавляет в базу данных всего 40 строк, после чего останавливается. Не пойму - то ли дело в настройках, то ли в самом скрипте (но счетчиков в нем нет). Помогите найти причину этой остановки.
Паук парсит изначальную страницу, ищет в ней url-каталогов, передает в парсинг каталогов и ищет url необходимых страниц. На той необходимой странице он ищет информацию, которая записывается в словарь, а потом в базу данных. Скрипт работает только на 40 строк, а потом останавливается. Останавливается сам. Тестировал на разных компьютерах, на разных базах - 40 строк.
База данных - MySQL. Модуль для работы с ней - peewee. Тестировал на двух разных базах - 40 строк.
Настройки:
options = { 'CONCURRENT_ITEMS': 250, 'USER_AGENT': 'Googlebot/2.1 (+http://www.google.com/bot.html)', 'CONCURRENT_REQUESTS': 30, 'DOWNLOAD_DELAY': 0.5, 'COOKIES_ENABLED': False, 'CLOSESPIDER_PAGECOUNT': 1000, 'CLOSESPIDER_TIMEOUT': 3600, }
2014-02-14 20:14:12+0600 [auto] INFO: Crawled 53 pages (at 53 pages/min), scraped 0 items (at 0 items/min) 2014-02-14 20:15:12+0600 [auto] INFO: Crawled 71 pages (at 18 pages/min), scraped 0 items (at 0 items/min) 2014-02-14 20:15:21+0600 [auto] INFO: Closing spider (finished) 2014-02-14 20:15:21+0600 [auto] INFO: Dumping Scrapy stats: {'downloader/request_bytes': 57078, 'downloader/request_count': 75, 'downloader/request_method_count/GET': 75, 'downloader/response_bytes': 2058372, 'downloader/response_count': 75, 'downloader/response_status_count/200': 75, 'finish_reason': 'finished', 'finish_time': datetime.datetime(2014, 2, 14, 14, 15, 21, 192000), 'request_depth_max': 2, 'response_received_count': 75, 'scheduler/dequeued': 75, 'scheduler/dequeued/memory': 75, 'scheduler/enqueued': 75, 'scheduler/enqueued/memory': 75, 'start_time': datetime.datetime(2014, 2, 14, 14, 13, 12, 8000)} 2014-02-14 20:15:21+0600 [auto] INFO: Spider closed (finished)
Отредактировано Razor (Фев. 16, 2014 03:34:45)
Офлайн
Razorа должно быть сколько ?
Тестировал на разных компьютерах, на разных базах - 40 строк.
Отредактировано py.user.next (Фев. 15, 2014 21:34:18)
Офлайн
py.user.next
а должно быть сколько ?
Офлайн
Razorда, меньше сорока там ~35
Я точно не знаю. Там на первой странице - около 30 ссылок.
mysql> SELECT make, model, km, date_of_auction FROM spiderbase;
+------------+-------------------------------+---------+-----------------+
| make | model | km | date_of_auction |
+------------+-------------------------------+---------+-----------------+
| Proton | Saga 1.3 | 0 | Feb 19 2014 |
| Volvo | S60 Drive | 0 | Feb 19 2014 |
| Toyota | Vigo Smart Cab 2.5 G D4D | 0 | Feb 19 2014 |
| Benz | 280 SLK AMG | 0 | Feb 19 2014 |
| Toyota | Vigo Singlelong 2.7 J VVT-I | 0 | Feb 19 2014 |
| Isuzu | D-Max Cab 4 3.0 i-TEQ VSG | 0 | Feb 19 2014 |
| Toyota | Camry 2.0 G VVT-I | 0 | Feb 19 2014 |
| Honda | City 1.5 | 0 | Feb 19 2014 |
| Isuzu | D-Max Cab 4 3.0 DDi VGS | 0 | Feb 19 2014 |
| Honda | City 1.5 | 0 | Feb 19 2014 |
| Honda | Click 125 I | 9,019 | Feb 26 2014 |
| Yamaha | Fino 115 | 10,073 | Feb 26 2014 |
| Yamaha | Fino 115 | 10,476 | Feb 26 2014 |
| Yamaha | Fino 115 | 8,525 | Feb 26 2014 |
| Honda | Scoopy-I | 4,385 | Feb 26 2014 |
| Yamaha | Fino 115 | 8,146 | Feb 26 2014 |
| Honda | Click 125 I | 5,355 | Feb 26 2014 |
| Honda | Wave 110 I | 13,397 | Feb 26 2014 |
| Honda | Scoopy-I | 8,830 | Feb 26 2014 |
| Yamaha | Fino 115 | 21,145 | Feb 26 2014 |
| Toyota | Vigo Singlelong 2.5 J D4D | 165,505 | Feb 19 2014 |
| Toyota | Commuter | 311,173 | Feb 19 2014 |
| Ford | Focus 2.0 Sport | 263,157 | Feb 19 2014 |
| Toyota | Crown Royal Saloon 3.0 | 111,417 | Feb 19 2014 |
| Toyota | Corolla Altis 1.6 E VVT-I | 254,574 | Feb 19 2014 |
| Toyota | Corolla Altis 1.6 J VVT-I | 158,395 | Feb 19 2014 |
| Toyota | Soluna Vios 1.5 J VVT-I | 157,280 | Feb 19 2014 |
| Toyota | Corolla Altis 1.6 G VVT-I | 49,457 | Feb 19 2014 |
| Mazda | BT50 Freestyle Cab Hi-Racer | 106,763 | Feb 21 2014 |
| Toyota | Soluna Vios 1.5 J VVT-I | 247,700 | Feb 19 2014 |
| Honda | Civic 2.0 I-VTEC | 103,412 | Feb 21 2014 |
| Isuzu | D-Max Space Cab 2.5 Hilender | 35,220 | Feb 21 2014 |
| Isuzu | D-Max Space Cab 2.5 Hilender | 71,920 | Feb 21 2014 |
| Isuzu | D-Max Space Cab 2.5 SLX | 183,278 | Feb 21 2014 |
| Mitsubishi | Strada Mega Cab 2.8 GLX | 306,805 | Feb 21 2014 |
| Toyota | Soluna Vios 1.5 E VVT-I | 174,710 | Feb 21 2014 |
| Toyota | Tiger Cab 2.5 E D4D | 226,278 | Feb 21 2014 |
| Toyota | Vigo Double Cab 3.0G Prerunne | 34,421 | Feb 19 2014 |
| Isuzu | D-Max Space Cab 2.5 SLX | 123,898 | Feb 21 2014 |
| Honda | Jazz 1.5 I-DSI | 229,204 | Feb 21 2014 |
+------------+-------------------------------+---------+-----------------+
40 rows in set (0.00 sec)
mysql>
Отредактировано py.user.next (Фев. 16, 2014 01:43:03)
Офлайн
py.user.next
так ты вручную пройдись и посмотри
Офлайн
Razor
79 элементов
Razorне переходит на вторую страницу
И не пойму где ошибка.
Отредактировано py.user.next (Фев. 16, 2014 03:20:03)
Офлайн
py.user.next
не переходит на вторую страницу
с первой страницы машины есть в базе, а со второй нет
Офлайн