vic57
Я попробую снова так как вижу что никто даже не прочитал вопрос а только фразу: код почти идеальный.
Извиняюсь если обидела какую-то хакер-душу.
Так вот попытка номер 2:
У меня есть страницы html.
На каждой из них есть данные о песне(имя певца, текст песни, название песни)
Я написала код который извлекает эту инфу и сохраняет её в словари(следовательно json)
Но!!!! На некоторых страницах есть пустые теги поэтому некоторые value в словаре пустые.
Я думаю что смогла бы и написать код на проверку но где его поместить
Вот кусочек моего кода
,,,,,,,
def lyrics(soup):
lyrics = soup.findAll("div", { "id" : "content_h" })
lyric_text = re.sub('[<;>/\-]', " ", str(lyrics)).split()
lyric_text = ([word for word in lyric_text if word != 'br'])[4:-2]
return(' '.join(lyric_text))
такие функции сверху есть и для певца, песни. И потом следует эта генеральная (и еще одна которая проходиться циклом по всем url)
def extract_song(soup):
title={'song':song_name(soup)}
title['lyrics']=lyrics(soup)
title['singer']=singer_name(soup)
title['url']=song_url(song_name(soup),singer_name(soup))
return title