Уведомления

Группа в Telegram: @pythonsu

#1 Май 17, 2020 14:59:15

smoboom
Зарегистрирован: 2020-05-17
Сообщения: 1
Репутация: +  0  -
Профиль   Отправить e-mail  

Как спарсить title c сайтов используя python?

Я новичок в python и ни как не могу понять как реализовать следующую задачу.
Есть txt файл с доменами(около 10 000 доменов), сохранены в верхнем регистре. Нужно:
- адреса доменов перенести в нижний регистр
- добавить вначале домена строку 'http/', чтобы домен потом вставить в requests
- сделать цикл, чтобы парсер собрал title с каждого домена(сайта)
- записать все в файл таблицу с двумя полями | url сайта | title сайта |

Офлайн

#2 Май 17, 2020 17:12:04

PEHDOM
Зарегистрирован: 2016-11-28
Сообщения: 2196
Репутация: +  294  -
Профиль   Отправить e-mail  

Как спарсить title c сайтов используя python?

smoboom
Есть txt файл с доменами(около 10 000 доменов), сохранены в верхнем регистре
открытие и чтение из файла
https://pythonworld.ru/tipy-dannyx-v-python/fajly-rabota-s-fajlami.html
smoboom
адреса доменов перенести в нижний регистр
работа со сторками, там есть метод lower() который переводитс строку в нижний регистр
https://pythonworld.ru/tipy-dannyx-v-python/stroki-funkcii-i-metody-strok.html
smoboom
- добавить вначале домена строку ‘http/’, чтобы домен потом вставить в requests
ну строки можно просто сложить , смотрите предыдущую ссылку а можно с помошью форматирования или f строк https://pyneng.readthedocs.io/ru/latest/book/04_data_structures/4b_string_format.html
smoboom
сделать цикл, чтобы парсер собрал title с каждого домена(сайта)
все про циклы https://pythonworld.ru/osnovy/cikly-for-i-while-operatory-break-i-continue-volshebnoe-slovo-else.html
как парсить http://pythonicway.com/python-examples/python-terminal-examples/20-python-html-parser
smoboom
записать все в файл таблицу с двумя полями | url сайта | title сайта |
csv сойдет? https://python-scripts.com/import-csv-python



==============================
Помещайте код в теги:
[code python][/code]
Бериегите свое и чужое время.

Отредактировано PEHDOM (Май 17, 2020 17:19:37)

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version