Форум сайта python.su
Здравствуйте Решил посмотреть как делать парсинг сайтов и столкнулся сразу с кучей проблем.
Главная, как всегда, кодировка,.
Какимто чудом импортировал модуль sys с перезагрузкой, и пишет что модуль sys has no attribute ‘setdefaultencoding’ . Как же так, удивился я, кругом все пишут, а он где делся???
Покажу весь, чё там греха таить
# !/usr/bin/env python3 # -*- coding: utf-8 -*- #c:\Python34\python.exe -m pip install beautifulsoup4 ## установка библиотеки beautifulsoup4 для парсинга сайтов import imp import sys imp.reload(sys) sys.setdefaultencoding('utf-8') import csv import urllib.request from bs4 import BeautifulSoup def get_html(url): response = urllib.request.urlopen(url) return response.read() def parse(html): soup = BeautifulSoup(html) table = soup.find('div', class_ = 'main') print(table.prettify()) def main(): parse(get_html('http://web4myself.ru')) if __name__ == '__main__': main()
Офлайн
Это костыль от второго питона.
Офлайн
ShamanА как быть в моём случае? не может символ \u2014 енкодировать
Это костыль от второго питона.
Офлайн