Python-сообщество

thom_otis · Июнь 29, 2015 12:06:05

Задача немного биоинформатическая. Если надо, то распишу всё по-русски
Помогите написать скрипт работающий примерно по следующему плану:
1. For each file in the set (archive, probably):
Open input nucleotide sequence (embl format is desirable, but fasta format is possible);

Calculate the observable frequency for all possible words based on input word size (e.g. number of all possible words for word size = 3 (triplet) is 64). Obs. Frequency = Obs Count/Total count [Сompseq is work in a similar way, but not support a batch processing].

Shift the reading frame by 1 nucleotide and repeat the previous step (number of shifts = word size - 1). The file with frequencies for each file in the set save as name_of_the_file(id of a contig).dic(+word size). It looks sth like this (word size = 2):

2. Make a summary file, something like this (example for word size = 2):

ih · Июнь 29, 2015 16:45:16

Давай українською краще.

FishHook · Июнь 29, 2015 19:16:15

ih
Давай українською краще.

и тема будет немедленно заблокирована
зачем вы даёте такие советы?

ih · Июнь 29, 2015 20:22:02

FishHook
а чому вона буде заблокована?

py.user.next · Июнь 30, 2015 00:31:17

thom_otis
Задача немного биоинформатическая.

Никто не знает, что такое нуклеотид, цепочка, слово. Для программиста это просто буквы и цифры, с которыми надо что-то сделать.

Приведи входной файл, выходной файл и описание, как из входного получился выходной.

Python-сообщество

Уведомления

#1 Июнь 29, 2015 12:06:05

Script To Calculate Word Frequency For Many Sequences

#2 Июнь 29, 2015 16:45:16

Script To Calculate Word Frequency For Many Sequences

#3 Июнь 29, 2015 19:16:15

Script To Calculate Word Frequency For Many Sequences

#4 Июнь 29, 2015 20:22:02

Script To Calculate Word Frequency For Many Sequences

#5 Июнь 30, 2015 00:31:17

Script To Calculate Word Frequency For Many Sequences

Board footer