Ctrl →

user555 · Июнь 20, 2024 22:32:04

Уважаемые господа!
Прошу у Вас помощи в решении вопроса, связанного с проведение расчётов.
Постараюсь объяснить простыми словами, если конечно смогу (((
Предполагаю что мой код вызовет у Вас уныние, поэтому сразу прошу прощения. Я хотел было выполнить расчёты в MS ms excel, но он как оказалось не может работать с такими большими таблицами!
Суть моих расчётов заключается в получении значений величины времени для каждого сетевого пакета, следующего от сервера port1 = 443 к клиенту port2 = 53023 в пределах которого значение sequence number будет находиться в окне клиента.
Например, берем пакет № 646700, в нем sequence number = 617352158, а из пакета № 646699 извлекаем значение окна клиента и считаем, до какого времени значение sequence number (передаваемых данных) сервером не превысит окно клиента, получаем значение времени, записываем в файл, берем следующий пакета с данными 646701 и т.д.
Интересуют только значение времени для пакетов, следующих от сервера к клиенту. Также в датафрейме присутствует изменение окна клиента, которое нужно учитывать.

П.С. Остальные значение NUMBJ, NUMBI, NUMBJ - NUMBI, WST не так важны, их можно и не рассматривать.

Код я конечно составил, но он выполняется он очень-очень медленно!

Имеется датафрейм data.csv, полученный экспортом из wireshark
“No.”,“Time”,“port1”,“port2”,“Seq”,“Ack”,“CWS”
“1”,“0.000000”,“53023”,“443”,“0”,“0”,“64240”
“2”,“0.039781”,“443”,“53023”,“0”,“1”,“64240”
“3”,“0.040341”,“53023”,“443”,“1”,“1”,“131840”
“4”,“0.048941”,“53023”,“443”,“1”,“1”,“131840”
…
“646699”,“384.921299”,“53023”,“443”,“678”,“617352158”,“4232192”
“646700”,“384.921432”,“443”,“53023”,“617352158”,“678”,“64128”
“646701”,“384.921432”,“443”,“53023”,“617353518”,“678”,“64128”
“646702”,“384.921432”,“443”,“53023”,“617354878”,“678”,“64128”
“646703”,“384.921432”,“443”,“53023”,“617356238”,“678”,“64128”
“646704”,“384.921432”,“443”,“53023”,“617357598”,“678”,“64128”
“646705”,“384.921749”,“53023”,“443”,“678”,“617358958”,“4232192”
“646706”,“384.921921”,“443”,“53023”,“617358958”,“678”,“64128”
…
“11200490”,“4052.560404”,“53023”,“443”,“678”,“2166491223”,“8464640”
“11200491”,“4052.560461”,“443”,“53023”,“2166491223”,“678”,“64128”
“11200492”,“4052.560461”,“443”,“53023”,“2166492583”,“678”,“64128”
“11200493”,“4052.560461”,“443”,“53023”,“2166493943”,“678”,“64128”
“11200494”,“4052.560544”,“53023”,“443”,“678”,“2166494291”,“8464640”
“11200495”,“4052.615866”,“53023”,“443”,“678”,“2166494291”,“0”

Код:

 data = pd.read_csv("data.csv", delimiter=",")
WST = 64240
SEQT = 0
for i in range(1,11200495):
    PI = data.at[i, "port1"]
    WSI = data.at[i, "CWS"]
    TI = data.at[i, "Time"]
    SEQI = data.at[i, "Seq"]
    NUMBI = data.at[i, "No."]
    j = i
    if SEQI + 1000000 < SEQT and PI == 443:
        SEQT = SEQI
    if SEQI > SEQT and PI == 443:
        SEQT = SEQI
        Buffer = WST
        while Buffer > 0:
            j = j + 1
            PJ = data.at[j, "port1"]
            WSJ = data.at[j, "CWS"]
            TJ = data.at[j, "Time"]
            SEQJ = data.at[j, "Seq"]
            NUMBJ = data.at[j, "No."]
            if PJ == 443 and SEQJ > SEQT and Buffer > 0:
                SEQ = SEQJ - SEQI
                Buffer = WST - SEQ
                T = TJ - TI
            if PJ == 53023:
                WST = WSJ
        PJ = data.at[j - 1, "port1"]
        TJ = data.at[j - 1, "Time"]
        T = TJ - TI
        NUMBJ = data.at[j - 1, "No."]
        print(round(T, 5), NUMBJ, NUMBI, NUMBJ - NUMBI, WST, file=open("log.txt", "a"))
    if PI == 53023:
        WST = WSI

Еще не могу понять, как учесть тот момент, что sequence number имеет значения от 0 до 2^32 и в пределах датафрейма несколько раз начинается снова начинается от 0:
Пример:
“4476457”,“1613.231656”,“443”,“53023”,“4294963577”,“678”,“64128”
“4476458”,“1613.231764”,“53023”,“443”,“678”,“4294964937”,“8464640”
“4476459”,“1613.231858”,“443”,“53023”,“4294964937”,“678”,“64128”
“4476460”,“1613.231858”,“443”,“53023”,“4294966297”,“678”,“64128”
“4476461”,“1613.231858”,“443”,“53023”,“361”,“678”,“64128”
“4476462”,“1613.232032”,“53023”,“443”,“678”,“1721”,“8464640”
“4476463”,“1613.232248”,“443”,“53023”,“1721”,“678”,“64128”
“4476464”,“1613.232248”,“443”,“53023”,“3081”,“678”,“64128”
“4476465”,“1613.232248”,“443”,“53023”,“4441”,“678”,“64128”

Моя безуспешная попытка переопределить значение результата не принесла, как только цикл доходит до этого значения - ошибка

     if SEQI + 1000000 < SEQT and PI == 443:
        SEQT = SEQI

Заранее спасибо за помощь!

xam1816 · Июнь 21, 2024 12:29:01

user555
Например, берем пакет № 646700, в нем sequence number = 617352158, а из пакета № 646699 извлекаем значение окна клиента и считаем, до какого времени значение sequence number (передаваемых данных) сервером не превысит окно клиента, получаем значение времени, записываем в файл, берем следующий пакета с данными 646701 и т.д.
Интересуют только значение времени для пакетов, следующих от сервера к клиенту. Также в датафрейме присутствует изменение окна клиента, которое нужно учитывать.

Руками сделайте что вам нужно и здесь покажите, т.е какие данные были на входе и что получилось на выходе, если были какие-то расчеты, указать что с чем складывалось, вычиталось и тд.

user555 · Июнь 21, 2024 22:47:14

xam1816

Постараюсь более подробно объяснить. Буду премного благодарен, если поможете.
Если Вы понимаете стек tcp вам будет проще . Слова которые я употребляю, как “пакеты”, будут тождественны словам “строки”.
Значения ACK меня вообще не интересуют, оно не рассматриваются, присутствуют в датафрейме избыточно.

К примеру я беру первую строку в цикле i (i=1)
“No.”,“Time”,“port1”,“port2”,“Seq”,“Ack”,“CWS”
“1”,“0.000000”,“53023”,“443”,“0”,“0”,“64240”
И если в этой строке значение port1=53023 я извлекаю только значение CWS, которое будет является текущим значение CWS для всех дальнейших расчетов, больше данная строка нас не интересует.

     if PI == 53023:
        WST = WSI

Далее я беру 2-ю строку в цикле i
“No.”,“Time”,“port1”,“port2”,“Seq”,“Ack”,“CWS”
“2”,“0.039781”,“443”,“53023”,“0”,“1”,“64240”
В строке 2 значение port1=443, для этой строки мне нужно посчитать значение времени в пределах которого seq (количество переданных данных) для i-ых пакетов, которые следуют после 2-го не превысит значение CWS, которое я получил из первой строки. Только особенность такова, что значение CWS может изменятся как в большую, так и в меньшую сторону.

В расчёте для второго пакета я беру пакеты с номерами 3, 4, 5, 6, 7 пакет и т.д. пока поле seq в i-ом пакете не превысит значение CWS из 1-ой строки, считаю только пакеты которые идут от сервера, т.е port1=443, в пакетах которые идут от клиента port1=53023 я извлекаю CWS (если меняется, а оно меняется и в строке 3 оно уже 131840)
Пример:
“3”,“0.040341”,“53023”,“443”,“1”,“1”,“131840”

т.е уже начиная с третьей строки (т.к. CWS изменилось с 64240 на 131840) во вложенном цикле i=2 (для второго пакета) я ищу такой пакет, в котором seq=seqi-seq2 будет не больше CWS (т.е 131840), т.к в пакете 2 seq=0.

для пакета 2 это будет 151 пакет, пакет 153 мне не подходит.
В 151-ом пакете seq=131088, 131840-131088=752, а в 153 пакете seq=132448, 131840-132448=-608 (уже отрицательное значение)

т.е значение T будет равно время 151-го пакета (0.535183) минус время 2-го пакета (0.039781) = 0,495402
Это значение T (округлённое) найденного для 2-го пакета я записываю в файл log.txt

Пример датафремйма.
“No.”,“Time”,“port1”,“port2”,“Seq”,“Ack”,“CWS”
“145”,“0.534418”,“443”,“53023”,“124288”,“678”,“64128”
“146”,“0.534659”,“53023”,“443”,“678”,“125648”,“131840”
“147”,“0.535183”,“443”,“53023”,“125648”,“678”,“64128”
“148”,“0.535183”,“443”,“53023”,“127008”,“678”,“64128”
“149”,“0.535183”,“443”,“53023”,“128368”,“678”,“64128”
“150”,“0.535183”,“443”,“53023”,“129728”,“678”,“64128”
“151”,“0.535183”,“443”,“53023”,“131088”,“678”,“64128”
“152”,“0.535602”,“53023”,“443”,“678”,“132448”,“131840”
“153”,“0.535907”,“443”,“53023”,“132448”,“678”,“64128”
“154”,“0.535907”,“443”,“53023”,“133808”,“678”,“64128”

print(round(T, 5), NUMBJ, NUMBI, NUMBJ - NUMBI, WST, file=open("log.txt", "a"))

Примечание: Значения NUMBJ, NUMBI, NUMBJ - NUMBI, WST можно не рассматривать я их использовал в качестве вспомогательных, что бы понять как выполняются расчеты.

Далее я беру 3-ю строку
“No.”,“Time”,“port1”,“port2”,“Seq”,“Ack”,“CWS”
“3”,“0.040341”,“53023”,“443”,“1”,“1”,“131840”
Обновляю CWS на значение 131840
Беру 4-ю строку
“No.”,“Time”,“port1”,“port2”,“Seq”,“Ack”,“CWS”
“4”,“0.048941”,“53023”,“443”,“1”,“1”,“131840”
Обновляю CWS на значение 131840
Беру 5-ю строку
“No.”,“Time”,“port1”,“port2”,“Seq”,“Ack”,“CWS”
“5”,“0.119585”,“443”,“53023”,“1”,“416”,“64128”
Для 5-й строки выполняю вычисление, аналогичные для 2-й строки
T будет равно времени 151-го пакета (0.535183) минус время 5-го пакета (0.119585) = 0,415598
Т.к. seq в 5-м пакете = 1
значение T (округлённое) найденного пакета 5 я записываю в файл log.txt
Беру 6-ю строку
“No.”,“Time”,“port1”,“port2”,“Seq”,“Ack”,“CWS”
“6”,“0.122722”,“443”,“53023”,“1”,“416”,“64128”
T будет равно время 151-го пакета (0.535183) минус время 6-го пакета (0.122722) = 0,412461
значение T (округлённое) найденного пакета 6 я записываю в файл log.txt
Беру 7-ю строку
“No.”,“Time”,“port1”,“port2”,“Seq”,“Ack”,“CWS”
“7”,“0.123536”,“443”,“53023”,“1361”,“416”,“64128”
seq7=1361, а CWS=131840 (на данный момент), значит мне нужно найти seqi, в котором seq будет не больше seq7+CWS или не больше значения 133 201 (131840 + 1361)
T будет равно время 151-го пакета (0.535183) - время 7-го пакета (0.122722) = 0,412461
значение T (округлённое) найденного пакета 7 я записываю в файл log.txt

И так для всех пакетов (строк) со значениями port1=443.

Ситуация осложняется тем, что поле seq принимает значения от 0 до 2^32-1 (4294967295) и в какой-то момент времени происходит следующее:

“No.”,“Time”,“port1”,“port2”,“Seq”,“Ack”,“CWS”
“4476458”,“1613.231764”,“53023”,“443”,“678”,“4294964937”,“8464640”
“4476459”,“1613.231858”,“443”,“53023”,“4294964937”,“678”,“64128”
“4476460”,“1613.231858”,“443”,“53023”,“4294966297”,“678”,“64128”
“4476461”,“1613.231858”,“443”,“53023”,“361”,“678”,“64128”
“4476462”,“1613.232032”,“53023”,“443”,“678”,“1721”,“8464640”
“4476463”,“1613.232248”,“443”,“53023”,“1721”,“678”,“64128”
“4476464”,“1613.232248”,“443”,“53023”,“3081”,“678”,“64128”
“4476465”,“1613.232248”,“443”,“53023”,“4441”,“678”,“64128”

т.е значение переданных данных становиться больше 4294967295 и отсчёт снова ведется от 0 т.е. 4294966297 становиться 361, но в реальности это как бы 4294966658.
И так происходит несколько раз.
Тут я вообще не понимаю, как сделать.

user555 · Июнь 21, 2024 23:29:36

Датафрейм большой 11 млн. строк
У меня выполняется очень медленно. Присутствуют ошибки в расчетах.
Так, согласно моему алгоритму, для 2-го пакета (строки) я бы получил время от 152 пакета (строки).
т.к. у меня:

         PJ = data.at[j - 1, "port1"]
        TJ = data.at[j - 1, "Time"]
        T = TJ - TI

Пример датафремйма.
“No.”,“Time”,“port1”,“port2”,“Seq”,“Ack”,“CWS”
“149”,“0.535183”,“443”,“53023”,“128368”,“678”,“64128”
“150”,“0.535183”,“443”,“53023”,“129728”,“678”,“64128”
“151”,“0.535183”,“443”,“53023”,“131088”,“678”,“64128”
“152”,“0.535602”,“53023”,“443”,“678”,“132448”,“131840”
“153”,“0.535907”,“443”,“53023”,“132448”,“678”,“64128”
А мне необходимо получить время для пакетов, у которых port1=443

Rodegast · Июнь 22, 2024 13:12:24

> Датафрейм большой 11 млн. строк. У меня выполняется очень медленно

А ты как хотел? Я бы это в Postgres загружал и там бы рассчитывал. Ну а тебе проще будет посмотреть в сторону какого нибудь pandas или numpy.

С дураками и сектантами не спорю, истину не ищу.
Ели кому-то правда не нравится, то заранее извиняюсь.

py.user.next · Июнь 23, 2024 05:20:04

user555
Постараюсь объяснить простыми словами, если конечно смогу (((

Надо объяснять всё простыми словами. Даже самые сложные программы записываются простыми словами изначально.

user555
Суть моих расчётов заключается в получении значений величины времени для каждого сетевого пакета, следующего от сервера port1 = 443 к клиенту port2 = 53023 в пределах которого значение sequence number будет находиться в окне клиента.
Например, берем пакет № 646700, в нем sequence number = 617352158, а из пакета № 646699 извлекаем значение окна клиента и считаем, до какого времени значение sequence number (передаваемых данных) сервером не превысит окно клиента, получаем значение времени, записываем в файл, берем следующий пакета с данными 646701 и т.д.

Получить нужно что? Что значит “значений величины времени для каждого сетевого пакета”? Времени чего?

Что значит “из пакета № 646699 извлекаем значение окна клиента”? Какого окна? Что значит “значение окна”?

Дальше данные надо писать так

"No.","Time","port1","port2","Seq","Ack","CWS"
"1","0.000000","53023","443","0","0","64240"

Или вот так

No.  Time      port1  port2  Seq  Ack  CWS
  1  0.000000  53023  443    0    0    64240

Потом надо вообще написать небольшой пример данных от одного до десяти и на этом искусственном примере объяснить, какие поля нужно брать и с какими полями нужно сравнивать. Естественно, никаких непонятных слов типа “окно” или “время” не должно быть, все слова должны быть ясными.

И всё это должно быть без единой строчки кода.

Отредактировано py.user.next (Июнь 23, 2024 05:21:20)

xam1816 · Июнь 23, 2024 11:30:26

user555
Датафрейм большой 11 млн. строк
У меня выполняется очень медленно. Присутствуют ошибки в расчетах.

можно взять библиотеку pandas, а потом делать выборки из датафрейма по условию.

TCP поверхностно знаю
Я правильно понимаю следующее?

Seq - это последовательный номер байта в пакете при передаче от одного порта к другому
CWS - это количество байт которые могут быть переданы без проверки (окно)
Ack - это число которое будет передано в следующем байте для проверки

Если взять два последовательных номера байта от одного порта к другому, то между ними будет количество байт, и нужно понять, попали они в окно, или нет?

И интересно узнать для себя, какую проблему решает ваша задача, т.е. что она дает

Отредактировано xam1816 (Июнь 23, 2024 13:00:34)

user555 · Июнь 23, 2024 17:33:01

Для удобства понимания упрощу 1 0.01 2 0.02 3 0.03 4 0.04 5 0.05 6 0.06 7 0.07 8 0.08 9 0.09 10 0.10 11 0.11 12 0.12 13 0.13

user555 · Июнь 23, 2024 17:44:09

xam1816
Seq - это последовательный номер байта в пакете при передаче от одного порта к другому
CWS - это количество байт которые могут быть переданы без проверки (окно)
Ack - это число которое будет передано в следующем байте для проверки

В целом верно.

xam1816
И интересно узнать для себя, какую проблему решает ваша задача, т.е. что она дает

Конечная цель получить отметки времени и визуально отобразить.
Затем оценить, возможно ли внедрить ложный сегмент с данными, если учитывать, что “человек посредине” тоже затратит время на перехват, модификацию пакета и отправку его обратно, плюс задержка сети.
Будет ли ложный пакет с данными ко времени прибытия “актуален” или к тому времени отправитель задействует (передаст реальные данные) всё окно получателя и пакет будет отброшен сетевой подсистемой.

П.С. У меня в целом всё считается, только для расчёта 11 млн. строк у меня затрачивается около 48 часов.
Еще не могу:
1. Обойти особенность изменения диапазона seq, приходиться разделять датафрейм на три части и считать их, а потом объединять.
2. Когда нахожу строку, в которой значение SEQ превышает CWS я беру прошлую строку, а она может быть с port1=53023, а мне необходимо взять последнюю строку где port1=443. Получается незначительная погрешность.

Отредактировано user555 (Июнь 23, 2024 18:00:16)

Прикреплённый файлы:
Figure_2.png (77,5 KБ)

user555 · Июнь 23, 2024 20:18:50

Rodegast
> Датафрейм большой 11 млн. строк. У меня выполняется очень медленноА ты как хотел? Я бы это в Postgres загружал и там бы рассчитывал. Ну а тебе проще будет посмотреть в сторону какого нибудь pandas или numpy.

Хотелось бы чуть-чуть побыстрее!

Python-сообщество

Уведомления

#1 Июнь 20, 2024 22:32:04

Оптимизация скорости выполнения расчётов

#2 Июнь 21, 2024 12:29:01

Оптимизация скорости выполнения расчётов

#3 Июнь 21, 2024 22:47:14

Оптимизация скорости выполнения расчётов

#4 Июнь 21, 2024 23:29:36

Оптимизация скорости выполнения расчётов

#5 Июнь 22, 2024 13:12:24

Оптимизация скорости выполнения расчётов

#6 Июнь 23, 2024 05:20:04

Оптимизация скорости выполнения расчётов

#7 Июнь 23, 2024 11:30:26

Оптимизация скорости выполнения расчётов

#8 Июнь 23, 2024 17:33:01

Оптимизация скорости выполнения расчётов

#9 Июнь 23, 2024 17:44:09

Оптимизация скорости выполнения расчётов

#10 Июнь 23, 2024 20:18:50

Оптимизация скорости выполнения расчётов

Board footer