Python-сообщество

VI93 · Июнь 3, 2014 17:11:22

Добрый день!

В результате эксперимента, у меня есть набор папок с названиями соединений ( l1, l2 ….l400.), а внутри 20 опытов out_1.txt, out_2 txt.

Вот пример одного из файлов.
#################################################################
# If you used AutoDock Vina in your work, please cite: #
# #
# O. Trott, A. J. Olson, #
# AutoDock Vina: improving the speed and accuracy of docking #
# with a new scoring function, efficient optimization and #
# multithreading, Journal of Computational Chemistry 31 (2010) #
# 455-461 #
# #
# DOI 10.1002/jcc.21334 #
# #
# Please see http://vina.scripps.edu for more information. #
#################################################################

WARNING: The search space volume > 27000 Angstrom^3 (See FAQ)
Detected 8 CPUs
Reading input … done.
Setting up the scoring function … done.
Analyzing the binding site … done.
Using random seed: 860926674
Performing search … done.
Refining results … done.

mode | affinity | dist from best mode
| (kcal/mol) | rmsd l.b.| rmsd u.b.
—–+————+———-+———-
1 -6.4 0.000 0.000
2 -6.1 6.309 8.934
3 -6.1 1.729 2.296
4 -6.1 1.989 2.961
5 -6.1 3.648 5.529
6 -6.0 3.120 6.341
7 -5.9 14.781 17.105
8 -5.9 3.491 6.179
9 -5.9 5.144 9.369
Writing output … done.

нужно определить минимальное значение энергии, среднее, и наиболее часто встречающееся для каждого файла.. а потом усреднить по этим 20 файлам. И так с каждым соединением?

Выходной файл в виде
l1 max average common
l2 ……

Подскажите, как лучше это реализовать. Я совсем новичок в Phytone, а обработку хочется упростить.

Отредактировано VI93 (Июнь 3, 2014 17:12:01)

doza_and · Июнь 3, 2014 20:46:19

import glob
import numpy as np
for i in glob.glob("*.txt"):
    data = np.loadtxt(i,comments="W",skiprows=26)
    print(np.max(data[:,3]))

VI93 · Июнь 4, 2014 14:01:30

Спасибо! очень помогло
А не подскажете функцию для определения наиболее встречающегося числа в numpy?

doza_and · Июнь 4, 2014 20:28:02

VI93
для определения наиболее встречающегося числа в numpy

Думаю оно вам не нужно. Такую статистику используют редко и практически всегда не к месту. В нормальном массиве экспериментальных данных при высокой точности все плавающие числа уникальны. Считайте медиану эксцесс и т.д.

Отредактировано doza_and (Июнь 4, 2014 20:29:37)

Python-сообщество

Уведомления

#1 Июнь 3, 2014 17:11:22

Анализ данных

#2 Июнь 3, 2014 20:46:19

Анализ данных

#3 Июнь 4, 2014 14:01:30

Анализ данных

#4 Июнь 4, 2014 20:28:02

Анализ данных

Board footer