Python-сообщество

gedat · Июль 4, 2022 11:13:44

Есть содержимое вида

             </td> <td class="oc_7 oc_8"><span class="officers_ban"><em></em></span></td></tr><tr><td class="oc_1">
                Значение
            </td> <td align="center" class="oc_2"><span class="icons_rankgeneral icon_rank_100"></span></td> <td align="center" class="oc_3"><span>Значение</span></td> <td align="center" class="oc_4"><span class="officers_role OFFICER"></span></td> <td align="center" class="oc_5">
                Значение
            </td> <td align="center" class="oc_6">
                Значение

И мне нужно оттуда достать значения. Чем это лучше всего сделать? И можно пример для этого?) Значения находятся на отдельной пустой строке

Есть что-то вроде “вырезать строчку которая идет между <td class=”oc_1“> и </td>” ? Или чем лучше сделать

Не изучал язык python, просто пишу для работы мини скрипты
Мой основной язык C#

Отредактировано gedat (Июль 4, 2022 11:14:20)

py.user.next · Июль 4, 2022 11:38:06

Если Значение2 не надо, то можно так

  
>>> import re
>>> 
>>> text = """\
...              </td> <td class="oc_7 oc_8"><span class="officers_ban"><em></em></span></td></tr><tr><td class="oc_1">
...                 Значение1
...             </td> <td align="center" class="oc_2"><span class="icons_rankgeneral icon_rank_100"></span></td> <td align="center" class="oc_3"><span>Значение2</span></td> <td align="center" class="oc_4"><span class="officers_role OFFICER"></span></td> <td align="center" class="oc_5">
...                 Значение3
...             </td> <td align="center" class="oc_6">
...                 Значение4
... """
>>> 
>>> pat = r'class="oc_\d+">\n +(.+?)\n'
>>> out = re.findall(pat, text)
>>> out
['Значение1', 'Значение3', 'Значение4']
>>>

А вообще, лучше это чистить в несколько проходов от лишних символов и ещё расставлять метки, по которым потом можно определять нужные места для последующих проходов. Тогда оно чистится точно и без ошибок и всё проще и проще становится добраться до нужных данных.

Areostar · Июль 4, 2022 12:26:39

scripy или чтото на подобе.

погуглите по теме парсинг сайтов на python

Python-сообщество

Уведомления

#1 Июль 4, 2022 11:13:44

Чем лучше всего достать содержимое?

#2 Июль 4, 2022 11:38:06

Чем лучше всего достать содержимое?

#3 Июль 4, 2022 12:26:39

Чем лучше всего достать содержимое?

Board footer