Python-сообщество

PaRaDokS · Сен. 7, 2012 20:16:44

Доброго времени суток, есть такая задача)

Имеется переменная с текстом, мне нужно из текста получить все строки схожие на эту - “/images/content/57_17_6_19524_256”, в примере меняются только цифры)

Как это сделать?

fata1ex · Сен. 7, 2012 20:42:38

С помощью регулярных выражений.

'/images/content/[0-9_]*'

Есть еще grep, но, боюсь, у вас Windows.

EBFE · Сен. 7, 2012 21:04:02

fata1ex
Есть еще grep, но, боюсь, у вас Windows.

C:\Users\EBFE>findstr /R "<=[0-9]*" spc.hst
X in {0,3,6},Y in {0,2,4},minimize(X+Y#<=7,R).
X in {0,3,6},Y in {0,2,4},minimize(X#+Y#<=7,R).

C:\Users\EBFE>findstr /N /R "<=[0-9]*" spc.hst
16:X in {0,3,6},Y in {0,2,4},minimize(X+Y#<=7,R).
17:X in {0,3,6},Y in {0,2,4},minimize(X#+Y#<=7,R).

В принципе, для большенства задач вполне хватает.

Можно кстати и “нормальный” grep поставить

C:\Users\EBFE>grep --version
GNU grep 2.5.4

Copyright (C) 2009 Free Software Foundation, Inc.
License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html>
This is free software: you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.

Отредактировано EBFE (Сен. 7, 2012 21:06:32)

odnochlen · Сен. 7, 2012 22:16:52

Можно, но не кроссплатформенно (в смысое на винде его искаропки нет) и лишняя зависимость.

Отредактировано odnochlen (Сен. 7, 2012 22:17:21)

plusplus · Окт. 1, 2012 07:42:53

Можно еще с помощью xpath модуля lxml, что-то вроде: ‘//img[contains(@src,“/images/content”)’. Нужно полностью хтмл-код видеть, чтобы точно написать xpath-выражение.

WorldCount · Ноя. 18, 2012 01:29:27

PaRaDokS
Доброго времени суток, есть такая задача)

Имеется переменная с текстом, мне нужно из текста получить все строки схожие на эту - “/images/content/57_17_6_19524_256”, в примере меняются только цифры)

Как это сделать?

import re
string = "sdfksdjfklsdkl /images/content/57_17_6_19524_256 sdfsdlfkl;sd/images/content/16_17_8_12535_277sdflsdklfksdl;fkl;sdkfl;"
pattern = ur"(/\S{6}/\S{7}/\d{2}_\d{2}_\d{1}_\d{5}_\d{3})"
result = re.findall(pattern, string)
print result

Выведет:

['/images/content/57_17_6_19524_256', '/images/content/16_17_8_12535_277']

Пи.Ся > Регулярка не ахти какая, но думаю знающие люди поправят

- ReDesinG -

Отредактировано WorldCount (Ноя. 18, 2012 01:30:17)

py.user.next · Ноя. 19, 2012 04:11:08

WorldCount

pattern = ur"(/\S{6}/\S{7}/\d{2}_\d{2}_\d{1}_\d{5}_\d{3})"

pattern = ur"/images/content/\d{2}_\d{2}_\d_\d{5}_\d{3}"

Python-сообщество

Уведомления

#1 Сен. 7, 2012 20:16:44

Парсинг текста

#2 Сен. 7, 2012 20:42:38

Парсинг текста

#3 Сен. 7, 2012 21:04:02

Парсинг текста

#4 Сен. 7, 2012 22:16:52

Парсинг текста

#5 Окт. 1, 2012 07:42:53

Парсинг текста

#6 Ноя. 18, 2012 01:29:27

Парсинг текста

#7 Ноя. 19, 2012 04:11:08

Парсинг текста

Board footer