Уведомления

Группа в Telegram: @pythonsu

#1 Июнь 29, 2015 12:06:05

thom_otis
Зарегистрирован: 2015-06-29
Сообщения: 1
Репутация: +  0  -
Профиль   Отправить e-mail  

Script To Calculate Word Frequency For Many Sequences

Задача немного биоинформатическая. Если надо, то распишу всё по-русски
Помогите написать скрипт работающий примерно по следующему плану:
1. For each file in the set (archive, probably):
Open input nucleotide sequence (embl format is desirable, but fasta format is possible);

Calculate the observable frequency for all possible words based on input word size (e.g. number of all possible words for word size = 3 (triplet) is 64). Obs. Frequency = Obs Count/Total count [Сompseq is work in a similar way, but not support a batch processing].

Shift the reading frame by 1 nucleotide and repeat the previous step (number of shifts = word size - 1). The file with frequencies for each file in the set save as name_of_the_file(id of a contig).dic(+word size). It looks sth like this (word size = 2):


2. Make a summary file, something like this (example for word size = 2):

Офлайн

#2 Июнь 29, 2015 16:45:16

ih
Зарегистрирован: 2015-05-31
Сообщения: 31
Репутация: +  -6  -
Профиль   Отправить e-mail  

Script To Calculate Word Frequency For Many Sequences

Давай українською краще.

Офлайн

#3 Июнь 29, 2015 19:16:15

FishHook
От:
Зарегистрирован: 2011-01-08
Сообщения: 8312
Репутация: +  568  -
Профиль   Отправить e-mail  

Script To Calculate Word Frequency For Many Sequences

ih
Давай українською краще.
и тема будет немедленно заблокирована
зачем вы даёте такие советы?



Офлайн

#4 Июнь 29, 2015 20:22:02

ih
Зарегистрирован: 2015-05-31
Сообщения: 31
Репутация: +  -6  -
Профиль   Отправить e-mail  

Script To Calculate Word Frequency For Many Sequences

FishHook
а чому вона буде заблокована?

Офлайн

#5 Июнь 30, 2015 00:31:17

py.user.next
От:
Зарегистрирован: 2010-04-29
Сообщения: 9890
Репутация: +  854  -
Профиль   Отправить e-mail  

Script To Calculate Word Frequency For Many Sequences

thom_otis
Задача немного биоинформатическая.
Никто не знает, что такое нуклеотид, цепочка, слово. Для программиста это просто буквы и цифры, с которыми надо что-то сделать.

Приведи входной файл, выходной файл и описание, как из входного получился выходной.



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version