Андрей Светловда, что-то все туманно.
Может и так - но, думается, стоит еще поискать.
Дело в том что это всё и есть узкое место - это такой большой один цикл, которой за счёт методов инлайн подстановок выглядит практически линейно. Т.е я хочу сказать что замена сотни строк питон-кода, даже самого критического, и даже на мгновенное исполнение, не даст общего улучшения даже на 5%.т.е. если 95% (это всё - большой один цикл) кода ускорить в 100 раз это не даст ускорения даже на 5%, не может быть.
в таком случае нужно всю прогу писать на С/С++, и не извращаться с Cython