Найти - Пользователи
Полная версия: Как спарсить title c сайтов используя python?
Начало » Центр помощи » Как спарсить title c сайтов используя python?
1
smoboom
Я новичок в python и ни как не могу понять как реализовать следующую задачу.
Есть txt файл с доменами(около 10 000 доменов), сохранены в верхнем регистре. Нужно:
- адреса доменов перенести в нижний регистр
- добавить вначале домена строку 'http/', чтобы домен потом вставить в requests
- сделать цикл, чтобы парсер собрал title с каждого домена(сайта)
- записать все в файл таблицу с двумя полями | url сайта | title сайта |
PEHDOM
smoboom
Есть txt файл с доменами(около 10 000 доменов), сохранены в верхнем регистре
открытие и чтение из файла
https://pythonworld.ru/tipy-dannyx-v-python/fajly-rabota-s-fajlami.html
smoboom
адреса доменов перенести в нижний регистр
работа со сторками, там есть метод lower() который переводитс строку в нижний регистр
https://pythonworld.ru/tipy-dannyx-v-python/stroki-funkcii-i-metody-strok.html
smoboom
- добавить вначале домена строку ‘http/’, чтобы домен потом вставить в requests
ну строки можно просто сложить , смотрите предыдущую ссылку а можно с помошью форматирования или f строк https://pyneng.readthedocs.io/ru/latest/book/04_data_structures/4b_string_format.html
smoboom
сделать цикл, чтобы парсер собрал title с каждого домена(сайта)
все про циклы https://pythonworld.ru/osnovy/cikly-for-i-while-operatory-break-i-continue-volshebnoe-slovo-else.html
как парсить http://pythonicway.com/python-examples/python-terminal-examples/20-python-html-parser
smoboom
записать все в файл таблицу с двумя полями | url сайта | title сайта |
csv сойдет? https://python-scripts.com/import-csv-python
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB