Anastasia2644
Янв. 12, 2017 09:40:55
Уважаемые программисты! Я начинающая в парсинге данных с сайта. Столкнулась с проблемой выхода спарсенных данных в csv формат. Подскажите, пожалуйста, где и какой именно код нужно прописать,чтобы сформировалась таблица в Excel. (Нужно ли создавать новый отдельный документ?как вообще работать с csv?)
Документ прикреплен. Задача заключалась в изъятии заголовка и e - mail австралийских организаций.
ZerG
Янв. 12, 2017 10:05:42
import bs4 as bs
import csv
import urllib.request
page = 0
pages = []
with open('output.csv', 'wt') as cf:
cwrite = csv.writer(cf)
for i in range(5, 6):
url = 'https://probonoaustralia.com.au/search-not-for-profits/?pages=' + str(i) + '&q=&type=organisation'
one = urllib.request.urlopen(url).read()
two = bs.BeautifulSoup(one, 'lxml')
for url in two.find_all('a', class_='postTitle'):
page_url = url.get('href')
pages.append(page_url)
op_sub_page = urllib.request.urlopen(page_url).read()
subpage = bs.BeautifulSoup(op_sub_page, 'lxml')
email = [a.text for a in subpage.select("a[href^=mailto:]")]
email = email[0]
cwrite.writerow((url.text, email[4:]))
print(pages)
page = page + 1
print("this is %s page" % page)
Как то так - если долго не разбираться
ZerG
Янв. 12, 2017 10:34:59
Всегда приятно помочь ищущему…