Building HMM profile for the protein detection

Abstract

Background

Proteins are generally composed of one or more functional regions, which are called domains. These regions are independent folding units and can evolve, function, and exist independently of the rest of the protein chain.

Motivation

In this paper we describe using HMM to model the Kunitz domain. This model will be later validated and compared with the automatically curated Pfam database to understand benefits of manual model building.

Results

Regarding the comparison with the Pfam database model of a relatively good quality was built with the sensitivity of 0.994, specificity of 1, 0.927 precision  and accuracy of almost 1.

… 

 

Основы биоинформатики. Шпаргалка по биоинформатике

По окончании двух курсов у меня оказались конспекты 3х курсов: «Elements of Biophysics», «Laboratory of bioinformatics», «Molecular Antropology and Human Biodiersity».

Они покрывают те физические явления и законы, которые необходимо знать, чтобы понимать как и что происходит внутри клетки, а также почему так сложно с этим разобраться: свободная энергия Гиббса, энтропия, уравнение Харди-Вейнберга, структура протеина, базовые вещи о ковалентных и не только связях.

… 

 

Computing threedimensional structure of a protein by homology modelling. Bioinformatics tutorial.

This is a part of our little project, we performed during the course of Laboratory of Bioinformatics.

To begin with, I want to thank all of my groupmates, who helped me with it, since I am not that good with biology, as they are. And, secondly, if you are doing homology modelling, you should really focus on following links at the uniprot and read a lot about all the ligands and residues, protein family and it’s functions, following all the articles provided, than, modelling itself, won’t make a deal. Cheers.

Abstract

Performing this project we are going to do a homology modelling of protein structure. Homology modelling is the technology used to build an atomic-resolution model of the target sequence based on the known structure of the related homologous protein. It is possible, because proteins with the more than 20% sequence identity usually have the same three-dimensional structure, which depends on the type of the residues. We are going to find homologous protein sequences, perform a structural alignment to select the common sequence parts and then we will use our template homologous protein to build a model of the target sequence using Modelleler software. After that we are going to analyze quality of the obtained model and try to interpret the results.

… 

 

Экскурсия в Broad Institute

Сегодня у нас была экскурсия в Броад институт. Фактически, экскурсия идет сейчас и этот пост я пишу прямо из конференц-зала.

Это место – передовая современной биофинорматики, тут находится 52 машины для секенирования генома (как раз расшифровки и определения того, где какое основание в ДНК находится), которые работают 24 часа в сутки, 7 дней в неделю, для того чтобы проводить расшифровку генома для различных исследований и медицинских в том числе

Когда открывали этот институт, в основу легла идея того, что все данные, которые будут проходить через этот институт, будут становиться общественным достоянием и будут публиковаться в открытом доступе. Сейчас, кстати, они секвенируют порядка тера базовых пар, что очень и очень много.

Например, тут исследуют, какие гены могут активировать раковую мутацию, или отвечать за генетическу болезнь. Причем, они зачастую не интерпретируют результаты, а просто высылают результаты дальше по цепочке. Для этого у них есть Illumina HiSeq 2500 (требуется порядка 16-24 часов для секвенирования), HiSeq 2000 (2-2.5) дня или MiSeq. Стоимость этих игрушек порядка 700 тысяч долларво каждой. На секвенирование генома от поступления генетического матрериала для отправки готового генома уходит примерно 2-2.5 недели.

В принципе благодаря таким лабораториям и институтам можно будет в будущем получать достоверную картину вероятности проявления генетической болезни. Потому что даже сегодня, выделив участки ДНК, отвечающие за появление чего-то плохого, можно не бояться даже при вероятности заболеть в 80%, потому что выборка могла быть построена только на больных людях и на самом деле вероятность заболеть у пациента куда меньше.

В общем, благодаря таким местам мы все более приближаемся к персонализированной медицине, что не может не радовать. Для того, чтобы понять, насколько большая работа предстоит человечеству для того, чтобы полностью победить рак, представьте себе снайпера, который должен попасть в копеечную монету с расстояния порядка 100км. Представили? Так вот, суть в том, что все имеет еще более маленький масштаб, потому что за проявление каких-то последствий может отвечать участок в 100-200 оснований из 1 миллиарда, и это необходимо находить и каким-то образом интерпретировать и думать о том, как с этим бороться.

И это в принципе относится ко всему в биоинформатике, потому что 99.9% генома у всех людей совпадают и очень сложно искать участки и выявлять то, за что они отвечают.