элемент генетического кода 6 букв
Пуриновое основание, одна из 4 «букв» генетического кода
Последняя бука буква «н»
Ответ на вопрос «Пуриновое основание, одна из 4 «букв» генетического кода «, 6 (шесть) букв:
аденин
Альтернативные вопросы в кроссвордах для слова аденин
Определение слова аденин в словарях
Словарь медицинских терминов Значение слова в словаре Словарь медицинских терминов
пуриновое основание (6-аминопурин), участвующее в построении нуклеиновых кислот, в молекуле которых составляет пару с тимином.
Энциклопедический словарь, 1998 г. Значение слова в словаре Энциклопедический словарь, 1998 г.
пуриновое основание. Содержится во всех живых организмах в составе нуклеиновых кислот (одна из 4 «букв» генетического кода), аденозинфосфатов, некоторых коферментов и др. биологически важных веществ.
Примеры употребления слова аденин в литературе.
Несколько недель спустя там было смонтировано еще и самое новейшее оборудование для рентгеноструктурного анализа и химические установки для синтеза фосфата дезоксирибозы, аденина, тимина, цитозина, тирозина и прочих составляющих, необходимых для создания молекул ДНК, этих семян жизни.
Если вы что-то меняете, скажем, подставляете аденин вместо цитозина, меняется и основной код.
Здесь, среди двойных спиралей гуанина, цитозина, тимина, аденина, сахаров, она находила стройность и порядок, который хотела видеть в жизни людей.
В ее алфавите всего четыре буквы-основания: аденин, тимин, гуанин и цитозин.
Источник: библиотека Максима Мошкова
У истоков генетического кода: родственные души
Таблица генетического кода
Автор
Редакторы
Статья на конкурс «био/мол/текст»: Границы между науками — штука эфемерная. Биология прорастает из химии; физика неразрывно связана с математикой; палеонтология, геология, география, история в тесном сотрудничестве описывают события прежних веков. Огромные массивы биологических данных, полученных с помощью новейших методик исследования, обрабатываются с помощью биоинформатики. И даже такие непохожие науки, как молекулярная биология и лингвистика тоже имеют точки соприкосновения. Не верите? Ну прочитайте статью.
Конкурс «био/мол/текст»-2014
Эта статья представлена на конкурс научно-популярных работ «био/мол/текст»-2014 в номинации «Биоинформатика и молекулярная эволюция».
Главный спонсор конкурса — дальновидная компания Генотек.
Конкурс поддержан ОАО «РВК».
Спонсором номинации «Биоинформатика» является Институт биоинформатики.
Спонсором приза зрительских симпатий выступила фирма Helicon.
Свой приз также вручает Фонд поддержки передовых биотехнологий.
Ну, предположим, мы с вами условимся, что слово «лошадь»
станет для нас означать учебник по грамматике,
тогда мы будем иметь право сказать:
«Откройте вашу лошадь на двадцатой странице» или
«Вы принесли сегодня на занятия свою лошадь?»
И оба прекрасно друг друга поймем, как вы считаете?
Джон Барт. Конец пути
В разных языках одни понятия называются по-разному звучащими словами. По-английски «вода» будет water («вотер»), по-албански — ujë («уё»), по-китайски — 水 («ше»), а по-валлийски — dŵr («дюр»). Наоборот, одинаково звучащее слово в разных языках может означать противоположные вещи: по-русски «яма» — это яма, а по-японски — гора.
Значит, возникновение слова, появление связи между понятием и определяющим его сочетанием звуков или букв — процесс относительно случайный; можно представить, что в русском языке понятие «вода» обозначается словом «соль», «камень», «пиво» или (с большой натяжкой) «аэрофотосъемка».
А теперь посмотрим на генетический код (см. заглавный рисунок). Это тоже язык, только особенный: его буквы —химические соединения, азотистые основания. Этих букв-оснований четыре — гуанин (G), цитозин (C), аденин (A) и урацил (U). Все слова (они называются кодоны) в этом языке трехбуквенные; из четырех букв получается 64 трехбуквенных слова. Эти 64 слова кодируют 21 «понятие»: 20 аминокислот и стоп-кодон. (Очень редко помимо 20 классических аминокислот генетический код кодирует еще две «дополнительных», так что можно сказать, что «понятий» не 21, а 23; но это неважно для нашей истории.)
Рисунок 1. Химическая структура «букв» (нуклеотидов; сверху) и «понятий» (аминокислот; снизу) генетического кода. Помимо двадцати «классических» аминокислот генетический код крайне редко кодирует еще две, одна из которых (селеноцистеин) показана на этом рисунке.
И тут возникает заковыристый лингвобиологический вопрос. Является ли генетический код таким же произвольным, случайно образовавшимся языком, как языки, на которых говорят люди? Можно ли представить, что кодоны в генетическом коде кодируют другие аминокислоты, а аминокислоты кодируются другими кодонами? Может ли кодон UUU кодировать не фенилаланин (как он это сейчас делает), а глицин? А кодон AGG — тирозин? А кодон CUC — пролин? Иными словами, случайно ли подбирались кодоны, обозначающие аминокислоты, — или в этом был какой-то смысл?
В последующем тексте я попытаюсь ответить на этот вопрос, но вначале покаюсь. Обсуждение исчезающе далекого прошлого — такое же захватывающее и бесполезное занятие, как обсуждение исчезающе далекого будущего. Ни доказать, ни опровергнуть тут ничего нельзя, и то, что описано в этой статье, — всего лишь гипотетический вариант развития событий. И все-таки обсуждение данных вопросов чрезвычайно расширяет кругозор и тренирует мыслительные способности — так что можно расценивать рассуждения на эту тему как экзаптацию, служащую общему развитию человечества. Эта статья во многом основана на лекции заведующего лабораторией компьютерной биофизики Венского университета Бояна Жагровича [1] во время научной школы-конференции «Современная биология & Биотехнологии будущего», посвященной острым вопросам и актуальным проблемам фундаментальной и прикладной биологии, а также на книге Евгения Кунина «Логика случая» [2] (особенно на главе о происхождении жизни).
Once upon a time.
Представим себе мир на заре возникновения жизни. По самой популярной из существующих сейчас теорий это был РНК-мир [3]: РНК были самыми продвинутыми из существовавших тогда биомолекул. Эти примитивные и неуклюжие «первобытные» РНК тогда занимались и хранением информации (чем сейчас занимается в основном ДНК), и катализом биохимических реакций (чем сейчас занимаются в основном белки). В результате РНК способны были самовоспроизводиться: катализировать на основе одной цепочки РНК создание других цепочек, идентичных исходной. Может быть, еще нельзя было назвать эти молекулы живыми, но уже можно было назвать их бессмертными.
Судя по всему, жизнь зародилась в пористой породе, образующей сеть ячеек, через стенки которых затруднена диффузия [4]. В этой породе находился первичный бульон — водный раствор различных веществ, в том числе этих самых коротких цепочек РНК и отдельных аминокислот. Из-за того, что многим молекулам нелегко было пробраться сквозь стенки ячеек, состав ячеек был разным: в одних по каким-то причинам накапливались одни молекулы, а в других — другие. Такие ячейки можно назвать «протоклетками», потому что их стенки выполняли ту же функцию, которую выполняет мембрана у современных клеток: отделение Мира Внутри от Мира Снаружи.
Разрозненные молекулы, в том числе, РНК и аминокислоты, плававшие в первичном бульоне, могли общаться только одним способом — с помощью физико-химических взаимодействий. Растворимость в воде, электрический заряд, пространственные характеристики, некоторые другие свойства — все это заставляет одни молекулы слипаться друг с другом в растворе, а другие — отплывать друг от друга как можно дальше.
И вот представим себе такую романтическую историю. Некий кодон (сочетание из трех нуклеотидов) и некая аминокислота — это «родственные души». Благодаря своим физико-химическим свойствам они крепко слипаются, встретившись в растворе.
Представим себе, что в некой цепочке РНК есть этот кодон. Есть вероятность, что в той неорганической ячейке, где плавает эта РНК, случайно окажется «родная» для кодона аминокислота. И есть вероятность, что эта аминокислота налипнет на свой «родной» кодон. И есть вероятность, что от этого жизнь той РНК существенно облегчится — она станет стабильнее, или будет лучше работать, или приобретет какие-то новые выгодные свойства. В результате такая РНК станет более приспособленной, и отбор (в тогдашней форме этого процесса) будет ей благоволить.
Это объединение двух невидимых глазу молекул, произошедшее в капле воды в крохотной дырочке пористой породы где-то в океане миллиарды лет назад — гигантский прорыв в истории нашей планеты. С этого момента возникает «дружба» между РНК и белками, краеугольный камень жизни на Земле. С этой дружбы началась биологическая эволюция, благодаря которой существуем и мы с вами.
Допустим, пары «родственных душ» существовали и для других кодонов и аминокислот. Тогда могла сложиться ситуация, когда напротив двух расположенных рядом кодонов РНК встанут две «родные» для этих кодонов аминокислоты. А отсюда — один (правда, довольно трудный) шаг до того, чтобы эти аминокислоты соединились, образовав цепочку из двух звеньев. И если связывание между кодоном и аминокислотой достаточно стабильно, то такая ситуация будет повторяться снова и снова на других молекулах РНК. То есть, напротив одних и тех же сочетаний нуклеотидов будут выстраиваться одни и те же аминокислоты, которые, при счастливом стечении обстоятельств, объединятся в цепочки. Вот так, буквально из ничего, возникает «романтическая связь» между кодонами и аминокислотами — генетический код.
Доказательства
Эмпирическим путем было получено несколько доказательств этого предположения. Еще в 1966 году Карл Вёзе [5] показал, что аминокислоты, кодируемые пиримидиновыми кодонами, имеют повышенное сродство к аналогам пиримидина в растворе [6]. А позже в работах лаборатории Бояна Жагровича было обнаружено, что аминокислоты, кодируемые пуриновыми основаниями, имеют повышенное сродство к пуриновому основанию гуанину (но, почему-то, не к аденину) [7], [8]. Иными словами, имеет значение не столько конкретный нуклеотид, сколько его «половая принадлежность» — пуриновость или пиримидиновость (рис. 2).
Рисунок 2. Зависимость между сродством аминокислоты к аналогам пиримидина в растворе (эмпирическая характеристика под названием polar requirement; подробней о ней рассказано в [9]) и «пиримидиновостью» (дóлей пиримидиновых нуклеотидов) ее кодона. Хотя зависимость не «железная» и исключения налицо, но закономерность явно прослеживается.
Конечно, в таком примитивном виде, без «поддерживающей конструкции» в виде аппарата белкового синтеза, код будет еще очень неточным: легко можно представить себе ситуацию, когда две сходные по свойствам аминокислоты прилипают к одному и тому же кодону. Однако возможно, что в те незапамятные времена еще не требовалась филигранная точность белкового синтеза, и «супружеская измена» (замена одной аминокислоты на другую, обладающую похожими свойствами) несильно меняла свойства тогдашних простейших белковых цепочек.
Шероховатые места
Эту красивую гипотезу омрачает одно обстоятельство. Нить мРНК куда длиннее белковой нити, которую она кодирует. Непонятно, как же куцей аминокислотной цепочке удавалось правильно встать напротив длинной цепочки нуклеотидов. Возможны несколько объяснений.
Во-первых, крайне вероятно, что давным-давно генетический код был не триплетным, а диплетным, и третий нуклеотид в нем появился тогда, когда выросло количество используемых в белках аминокислот (или стала важнее специфичность этих аминокислот). Это предположение подтверждается тем, что часто аминокислота кодируется несколькими альтернативными кодонами, у которых первые два нуклеотида одинаковы, а отличается только последний. Кроме того, когда тРНК распознает свой кодон, самое важное значение имеют первые два нуклеотида, а третий — это уже просто дополнительный «бантик» (см. об этом tRNA wobble). Если предположение о диплетности верно, то соотношение длин нитей мРНК и белка уменьшается, и становится легче представить, как они друг напротив друга устанавливаются.
Во-вторых, цепочка — это сильно сказано. Видимо, во время становления генетического кода речь шла о стабильном присоединении к нужному месту всего одной-двух аминокислот. Удлинение же белковых цепочек шло параллельно с возникновением аппарата белкового синтеза, в том числе рибосомы [10], и проблема несоответствия длин цепочек РНК и белка потеряла свою актуальность.
Дела давно минувших дней
А теперь — небольшое лирическое отступленье о преданьях старины глубокой, порядке возникновения нуклеотидов и некоторых аспектах «дружбы» между РНК и белками.
Рисунок 3. Первичные аминокислоты (выбраны на основе эксперимента Миллера—Юри, показаны красным) имеют особенно высокое сродство к гуанину и почти не имеют сродства к аденину. Остальные, вторичные, аминокислоты (показаны зеленым) имеют куда меньшее сродство к гуанину и ярко выраженное «антисродство» к аденину. Для цитозина и урацила картина напоминает таковую для гуанина, но не столь выражена. Еще приведены данные для всех аминокислот вообще, без разделения на первичные и вторичные (показаны черным), а также общие данные для пуриновых (PUR) и пиримидиновых (PYR) нуклеотидов. По вертикальной оси — коэффициент корреляции между количеством нуклеотида в кодоне и сродством к этому нуклеотиду соответствующей аминокислоты. Исторически сложилось, что в данном случае отрицательное значение коэффициента свидетельствует о высоком сродстве аминокислоты к нуклеотиду и наоборот.
Все аминокислоты можно разделить на первичные и вторичные. Первичные, или эволюционно древние, можно получить в абиотических условиях, они не требуют сложного синтеза, возможного только в живых системах. Вторичные, или эволюционно юные, без этого синтеза получить практически невозможно. Понятно, что в «первобытных» белках могли использоваться только первичные аминокислоты — потому что вторичным неоткуда было взяться, не было ферментов для их создания. И вот оказывается, что первичные аминокислоты, во-первых, чаще имеют в своих кодонах гуанин и цитозин, а во-вторых — если их имеют, то «гуаниновые» показывают большое (больше, чем аминокислоты в среднем) сродство к гуанину, а «цитозиновые» — к цитозину (рис. 3). Возможно, это говорит о том, что пара гуанин—цитозин эволюционно более древняя, чем аденин—урацил; «доисторические» РНК состояли преимущественно из них и кодировали только простые, первичные аминокислоты. (Гуанин и цитозин при спаривании образуют три водородные связи, а аденин и урацил — две; то есть, ГЦ — это более стабильная пара; видимо, «любовь» древних РНК к паре ГЦ связана именно с этим.) Затем появились пути для синтеза вторичных аминокислот, а одновременно помимо двух «первичных» оснований — гуанина и цитозина — в РНК стали чаще появляться «вторичные» — аденин и урацил; в результате именно «вторичные» основания стали кодировать вторичные аминокислоты.
Есть, кстати, интересная зависимость, касающаяся аденина. Показано, что аминокислоты, в кодонах которых много этого нуклеотида, не просто не имеют к своим кодонам сродства, но наоборот, имеют «антисродство»: отталкиваются от аденинов в растворе. Это может говорить о том, что к тому моменту, как в РНК появилось большое количество аденинов (кодирующих сложные вторичные аминокислоты), физико-химические взаимодействия уже потеряли свое решающее значение для трансляции. Либо, возможно, такие аминокислоты показывали сродство не к кодону своему, а к антикодону.
Если исходить из того, что со временем физико-химические взаимодействия теряли свое значение для стабилизации генетического кода, то можно выстроить нуклеотиды в порядке их появления в РНК. В этом случае самым древним нуклеотидом должен быть гуанин — ведь «его» аминокислоты чувствуют к нему особую близость. Косвенным подтверждением этому может служить то, что глицин — самая примитивная (= самая древняя) из существующих аминокислот — кодируется сочетанием из двух гуанинов и еще одного (любого) нуклеотида.
Эхо древнего мира
А теперь посмотрим на вопрос с другой стороны. С тех пор, как за счет физико-химических взаимодействий возник и оптимизировался генетический код, утекло много воды и сменился не один додекальон поколений клеток. Имеют ли эти взаимодействия значение в жизни современной клетки — или их давно уже «загородили» более сильные и «умные» процессы? Звучит ли в современном мире эхо мира древнего?
Может быть, и звучит. Вот всего несколько ситуаций, в которых могут иметь значение прямые физико-химические взаимодействия между белком и РНК.
Во-первых, саморегуляция синтеза белка. Возможно, что связывание едва синтезированной белковой цепочки с породившей ее мРНК предотвращает дальнейшее связывание этой мРНК с рибосомой — а соответственно, и дальнейший синтез такой же белковой цепочки на основе этой мРНК. Получается отрицательная обратная связь. Синтез белка регулируется автоматически — само наличие продукта выключает производство этого продукта. (Но, разумеется, этот гипотетический механизм отнюдь не отменяет большого количества хорошо доказанных механизмов регулировки белкового синтеза.)
Во-вторых, вирусы. В ком (или в чём?) еще белок так тесно соседствует с нуклеиновой кислотой, от которой берет начало? Возможно, белки налипают на нужные участки РНК в РНК-содержащих вирусах как минимум частично за счет вышеописанных физико-химических взаимодействий.
И, наконец, нуклеопротеины — слипшиеся кусочки нуклеиновой кислоты и белка. К ним относятся, например, бурно изучающиеся сейчас P-тельца (см. P-bodies) — облепленные белками нити мРНК, в которых эта мРНК зачастую подвергается деградации. Возможно, что белки облепляют мРНК в том числе и за счет тех древних, прямых физико-химических взаимодействий. Это особенно интересно потому, что слепляться таким способом будут преимущественно неструктурированные белки и РНК (потому что у структурированных «родственные», слипающиеся области как правило спрятаны внутри молекулы). А именно неструктурированные биомолекулы прежде всего и должны подвергнуться уничтожению.
Итак, каков же ответ на поставленный в начале статьи вопрос? Случайно или неслучайно подбирались кодоны в генетическом коде?
Ответить можно только с оговорками. Общая закономерность проглядывается: между собой соединяются «родственные души». Чем «пиримидиновей» кодон, который кодирует аминокислоту, тем большее сродство эта аминокислота имеет к пиримидинам, чем «пуриновей» — тем охотней аминокислота слипается с пуринами. Однако частности, то, какую именно из «родственных» аминокислот будет кодировать данный кодон, видимо, определялись случайным путем. Не может кодон UUU кодировать глицин — потому что глицин с ним слипаться не будет. Зато он может кодировать что-нибудь «близкое по духу» — лейцин или изолейцин, например.
Мысли в тему
Во всей этой истории есть несколько философских моментов, на которые хочется обратить внимание.
Во-первых, связь между лингвистикой и биологией. При изучении языка можно сделать выводы о происхождении слова, его древности, встречаемости в разные эпохи, изменении значения со временем, не прибегая ни к каким источникам информации, кроме самого языка. Сам язык несет в себе то, что нужно для его изучения. Та же история и с генетическим кодом. И возможно, в исследованиях генетического кода могут пригодиться методы, ныне используемые в лингвистике.
Но, как мы только что выяснили, генетический код, в отличие от человеческого языка, — штука отнюдь не произвольная. Он стал таким, какой есть, не на ровном месте; сами «буквы», в нем используемые (нуклеотиды), своими физико-химическими свойствами неразрывно связаны с «понятиями», которые они определяют (аминокислотами).
И тогда, во-вторых, всплывает еще один философский вопрос: является ли генетический код цифровым или аналоговым?
С одной-то стороны, он, конечно, цифровой — ведь главную информацию несут именно сочетания нуклеотидов, кодоны. Исключительно от последовательности кодонов зависит, какой белок получится на основе РНК. Прочесть эту информацию в клетке просто так невозможно: для этого нужно протянуть всю нить РНК через рибосому и сделать на ее основе белок. Точно так же, как нельзя узнать о том, что происходит в книге, не прочитав ее страницу за страницей.
Но, помимо цифровой, код несет и аналоговую информацию. И чтобы получить эту информацию, клетке никакая рибосома не нужна — информация определяется сама, на основе физико-химических взаимодействий, в которые вступает молекула РНК. Продолжая аналогию — хотя нельзя узнать, что произойдет в книге, не прочтя ее, но сам вид, размер, обложка книги тоже несут какую-то информацию и могут дать подсказки о ее содержимом.
И может быть, описанные в этой задаче закономерности — это только вершина айсберга. Тогда нам предстоит еще многое узнать об аналоговой информации, которую несет генетический код.
Видео. Лекция Бояна Жагровича (Bojan Zagrovic) Computational modeling of biomolecules: goals, achievements and outstanding challenges, прочитанная на Зимней школе «Современная биология & Биотехнологии будущего» (Звенигород, 2014 г.)
Исходно эта статья была опубликована в виде еженедельной задачи по биологии на «Элементах» [11].
Анализ Генетического кода I
Иллюстрация melmagazine.com (Source: melmagazine.com/wp-content/uploads/2019/11/DNA-1280×533.jpg)
В настоящее время для информационного обмена широко используются сети общего доступа с каналами, не защищенными от нарушителя. Обмен сообщениями в таких связных и компьютерных сетях пользователи вынуждены защищать самостоятельно. Так как сами каналы передачи сообщений пользователь защитить не может, он защищает сообщение.
Что в сообщении защищается? Во-первых, синтаксис (целостность) с этой целью используется кодология (кодирование и анализ кодов), во-вторых, семантика (конфиденциальность) для чего используются криптология (криптография и криптографический анализ), в-третьих, косвенно нарушителю можно ограничить доступность сообщения путем скрытия факта его передачи для чего используется стеганология (стеганография и стеганоанализ).
Перечисленные возможности теоретически и практически обеспечены в разной мере, и хотя каждое направление развивается достаточно длительное время, они еще далеки от завершения. В предлагаемой работе коснемся только одного частного вопроса — анализа кодов сообщений.
Введение
В качестве объекта анализа выбран генетический код (ГК). С любопытным примером использования ГК в области информационной защиты (по-видимому непрофессиональной и потому не успешной) можно познакомиться здесь.
В теории кодирования могут быть выделены два важных направления: кодирование источника информации и канальное кодирование. Первое из них реализуется, как правило, передающей стороной и имеет целью — устранение избыточности сообщений (пример, код Морзе), целью второго является — обнаружение и устранение ошибок в сообщениях. До появления корректирующих кодов задача устранения ошибок решалась повторной передачей искаженного фрагмента сообщения по запросу приемной стороны.
Здесь отметим факт невозможности правильного расшифрования приемной стороной шифрграммы, если в ее тексте возникли ошибки. Шифры не позволяют ни обнаруживать ошибки, ни тем более их исправлять. По этой причине на передающей стороне системы связи сообщение-шифрграмма кодируется корректирующим кодом, а на приемной стороне декодер в полученном сообщении обнаруживает (если они есть) и исправляет ошибки.
После этого вступает в дело криптосистема и легитимному получателю предоставляется расшифрованное сообщение. Таковы в общих чертах положения функционирования сетей, обменивающихся защищенными сообщениями.
В этой работе займемся подробно анализом очень важного Генетического кода, который создан не разумом человека, а самой природой (редкий случай).
История одного открытия и Нобелевская премия
Зададимся вопросом, как природой на уровне генетики и метаболизма организмов (клеток) реализованы такие положения информационного обмена в жизнедеятельности видов и их отдельных представителей?
Научному миру еще до Второй мировой войны было известно, что у живых организмов передача от поколения к поколению наследственных признаков осуществляется через относительно простые химические единицы (гены), включающие огромное количество информации, необходимой для продолжения и воспроизводства жизни.
Все гены (не являются белками) связываются в цепочки (хромосомы) и материализуются в дезоксирибонуклеиновой кислоте (ДНК). У специалистов не было ясности в том, как все происходит и как устроена сама ДНК.
Молодые исследователи физик англичанин Ф. Крик и биолог американец Дж. Уотсон в 1953 году (25.4) опубликовали в журнале Nature статью «Структура дезоксирибонуклеиновой кислоты». На момент начала их работы 1949 г. Джеймсу Уотсону было 23 года, Френсису Крику и Морису Уилкинсу по 33.
В статье авторы описали модель пространственной структуры ДНК в виде двойной спирали, две нити которой закручивалась вправо. Сами нити при этом оказывались связанными поперечными «ступенями», образованными из нуклеотидов.
Определение. Нуклеотиды — соединения, состоящие из сахара, азотсодержащих оснований (пурина или пиримидина) и фосфорной кислоты. Нуклеотиды являются «строительными блоками» для ДНК и РНК.
Эта спираль ДНК – носитель генетического кода – кода наследственности признаков организмов животных и растений. Это была совершенно необычная новая работа о строении и свойствах молекулы дезоксирибонуклеиновой кислоты.
Модель ДНК молодых авторов получила подтверждение при сопоставлении ее с рентгеновской дифракционной картиной кристаллической структуры ДНК английского биофизика Мориса Уилкинса. Позднее был открыт генетический код, содержащий и передающий информацию о синтезе структуры и состава белков – основных составляющих каждой клетки живых организмов, реализующей клеточный цикл.
Определение. Клеточный цикл — правильное чередование периодов относительного покоя с периодами деления клетки.
В этом же году позднее авторы опубликовали еще одну статью, в которой описывался возможный механизм копирования ДНК путем матричного синтеза при делении живых клеток. Двойная спираль ДНК уподоблялась «замку молния».
Каждая нить спирали после «расстегивания замка» и разведения нитей становилась синтезирующей матрицей и достраивалась второй нитью материалом из цитоплазмы клетки по принципу комплементарности до полной ДНК. Там же говорилось, что определенная последовательность оснований (кодонов, триплетов) является кодом, который содержит генетическую информацию.
Идея математизации кода высказывалась впервые Г. Гамовым в статье 1954 года как проблема перевода слов из четырехбуквенного алфавита (системы) в слова двадцатибуквенного алфавита. Он представил проблему кодирования жизненных явлений не как биохимическую, а как комбинаторную математическую задачу. Предварительные длительные усилия авторов этого труда хорошо описаны в книге Д. Уотсона «Нить жизни».
В 1962 году Уотсон, Крик и Уилкинс получили Нобелевскую премию по физиологии и медицине «за открытия в области молекулярной структуры нуклеиновых кислот и за определение их роли для пере-дачи информации в живой материи».
Они располагали информацией о следующих фактах:
В гипотезах и предположениях недостатка не было, но кто-то должен проверять их истинность.
Перекрывающиеся коды (один нуклеотид-буква входит в состав более чем одного кодона): треугольный, мажорно-минорный и последовательный, предложены Гамовым с коллегами;
неперекрывающиеся коды: комбинационный Гамова и Ичаса, «код без запятых» Крика, Гриффита и Оргела. В комбинационном коде аминокислоты (20) кодируются триплетами из 4-х нуклеотидов, но важен не их порядок, а только состав: триплеты ТТА, ТАТ, АТТ кодируют в белках одну и ту же аминокислоту.
Код без запятых объяснял, как выбирается «рамка считывания». Такое «скользящее окно» вдоль нити ДНК, где буквы следуют, друг за другом без разделителей (запятых) их на слова предполагает, что слова все-таки как-то различаются. Согласно модели Ф. Крика делалось допущение: все триплеты разделяются на осмысленные, т. е. соответствующие конкретным аминокислотам, и не имеющие смысла.
Если только осмысленные триплеты формируют ДНК, то в другой «рамке считывания» такие триплеты окажутся не имеющими смысла. Авторы этого кода показали, что можно подобрать триплеты, удовлетворяющие таким требованиям и что их ровно 20. Конечно, полной уверенности в своей правоте у авторов не было.
Действительно, после 1960 года было показано, что кодоны, считавшиеся Криком бессмысленными, в пробирке реализовывали белковый синтез, а к 1965 году был установлен смысл всех 64 кодонов-триплетов. Выяснилось также, что ряд аминокислот кодируется двумя, тремя, четырьмя и даже шестью разными триплетами, т. е. имеет место определенная избыточность, назначение которой еще предстоит определить.
Генетический код жизни. Наследственная информация
Определение. Генетический код – множество слов, задающих способ кодирования цепочками нуклеотидов (букв алфавита А, G, C, T), последовательности аминокислот синтеза белков, свойственных всем живым организмам. Цепочки триплетов (кодовых слов) образуют хромосомы – носители наследственной информации. Каждому виду живых организмов соответствует свой хромосомный набор. Этот способ кодирования универсален и реализуется в каждой клетке растительного и животного организма при ее делении.
Для кодирования каждой из 20 видов канонических аминокислот, из которых строятся далее практически все белки и терминального сигнала «стоп» оказывается достаточно набора из трех нуклеотидов (букв), называемого триплетом (кодоном). Последовательность кодонов формирует в хромосомной нити ген и определяет последовательность аминокислот в полипептидной цепи белка, кодируемого этим геном. Существовала концепция «один ген – один фермент».
Классическое представление информации (линейность ее записи) – это тексты в широком понимании (речь, письма, книги, изображения, фильмы, музыка и т. п.) этого слова в некотором естественном языке (ЕЯ). Язык включает обширный словарь (лексику), а если ЕЯ кроме устной речи имеет письменность, то и алфавит с грамматикой.
Для сохранения информации в течение длительного времени и передачи ее копий необходимы прочная, хорошо защищенная память и письменность. Наследственная информация живых организмов записана ЕЯ природы в длинных текстах словами в некотором «молекулярном» алфавите, которые хранятся в форме хромосом в ядрах всех клеток живых организмов.
Процессы и пути переноса информации, записанной на естественных её носителях-молекулах, сформулированы Ф. Криком (1958 г.) в форме центральной догмы молекулярной биологии. Три основных процесса обеспечивают управление всеми остальными процессами функционирования клетки и жизни организмов в целом.
Эти процессы: репликация, транскрипция и трансляция. Далее о них будет сказано более подробно. Информация в организмах передается только в одном направлении от нуклеиновых кислот (ДНК → РНК →белок) к белку, обратной передачи не существует. Возможны особые случаи ДНК → белок, РНК→ РНК, РНК → ДНК.
Чтение информации вдоль молекулярных цепочек допустимо только в одном прямом направлении. Используется понятие «рамка считывания».
Определение. Рамкой считывания (открытой) называется последовательность неперекрывающихся кодонов, способная синтезировать белок, начинающаяся со старт-кодона и завершающаяся стоп-кодоном. Рамка определяется самым первым триплетом, с которого начинается трансляция.
Для начала трансляции старт-кодона недостаточно, необходим ещё инициационный кодон (их три: AUG, GUG, UUG). После его считывания трансляция идет путем последовательного считывания кодонов рибосомальной рРНК и присоединения аминокислот друг к другу рибосомой до достижения стоп-кодона.
Кодоны в ходе трансляции «читаются» всегда с некоторого стартового инициирующего символа (AUG) и не перекрываются. Чтение после старта триплет за триплетом идет до стоп-кодона завершения синтеза белковой полипептидной цепи.
Эти факты обобщаются в таблице способов передачи генетической информации.
Таблица 1 – Центральная догма молекулярной биологии
История изучения текстов наследственности организмов, их осмысления, длительная, богатая открытиями, достижениями, заблуждениями и разочарованиями. Перечень событий истории постижения (познания) текстов природы представляет несомненный интерес, как для науки, так и для каждого отдельного человека.
Слова текстов имеют очень большую длину, но алфавит письменности «ЕЯ природы» содержит всего четыре буквы – это молекулярные основания: в РНК это А (аденин), С (цитозин), G (гуанин), U (урацил) (в ДНК урацил заменяется на Т (тимин)). Язык живой природы – это язык молекул.
Биологами установлено, что каждое слово текста наследственности образовано полимерной молекулой ДНК (дезоксирибонуклеиновой кислоты, открытой в 1868 г. врачом И. Ф. Мишером), построенной из 4-х оснований (нуклеотидов – от nuclear — ядерный).
Основания скрепляются (соединяются) между собой в пары, А ←→ Т, Т←→ А, G ←→ C, С ←→ G особыми водородными связями, реализующими принцип дополнительности (комплементарности). Эти факты устанавливались в разное время, разными учеными и методами многих наук (физики, химии, биологии, цитологии, генетики и др.). Сложности на пути познания этого ЕЯ встречались постоянно.
Молекулы ДНК не кристаллизовались, но когда это удалось сделать, то задача установления структуры ДНК свелась к решению обратной задачи рентгеноструктурного анализа (преобразованием Фурье дифракционной картины кристалла, созданной на экране рентгеновскими лучами).
На рассчитанной и собранной вручную Дж. Уотсоном и Фрэнсисом Криком в 1953 году модели аналогично детской игре «LEGO», где элементами являлись молекулярные основания и очень точно выдерживались межатомные расстояния и углы разворота, была воспроизведена структура хромосомы в большом масштабе.
Эта модель практически подтвердила многообразные гипотезы теоретиков и убедительно доказала отсутствие расхождений с практическими экспериментами и результатами рентгеноструктурного анализа кристаллической ДНК.
Основные детальные данные о химическом строении ДНК и числовые характеристики модели были получены Розалиндой Франклин и М. Уилкинсом ранее 1953 г. в лаборатории рентгеноструктурного анализа. Конфликт ученых описан в романе «Одиночество в сети» Януша Леона Вишневского.
Наличие наглядной структуры ДНК и ее количественных характеристик дало толчок для развития генетики и всех бионаук, из которого возникла идея проекта «Геном человека» 2000 г. Уотсон стал первым руководителем этого проекта, в рамках проекта был полностью расшифрован хромосомный набор человека Homo sapiens. Полная генетическая карта 1-й хромосомы завершена в 2006. Карта содержит 3141 ген и 991 псевдоген.
С позиций математики четырем буквам алфавита можно приписать четыре элемента конечного расширенного поля Галуа GF(2 2 ) = (0, 1, α, β), операции с которыми выполняются по модулю неприводимого многочлена р(х) = х 2 + х + 1. Тогда α + β = 1, α∙β = 1 и сопоставление элементов поля буквам принимает вид
, а дополнительный (комплементарный) нуклеотид вычисляется по правилу ¬х → х + 1, откуда Т → А + 1, С → G + 1.
Структурно модель ДНК представляет две эквидистантные полимерные цепи попарно соединенных нуклеотидов (по принципу веревочной лестницы) и закрученных в правую двойную спираль. Ниже по тексту вертикально выписанные пары букв соответствуют ступеням «лестницы»:
Т А G G T T C G Т …
A T C C A A G C A …
Две цепи повторяют последовательность букв, но начало одной расположено напротив конца другой. Информация в молекулах ДНК записывается с большой степенью избыточности, что, конечно, обеспечивает высокий уровень надежности при считывании информации и ее копировании (репликации: ДНК → ДНК). К исходному слову приписывается еще одно, но в дополнительном коде.
Все хромосомы содержат в своем составе гены и в каждой клетке содержатся в очень малом объеме (в ядре клетки) и короткие и очень длинные. Расстояние между нитями ДНК составляет 2 нм, между «ступеньками» – 0.31 нм, один полный оборот «спирали» через каждые 10 пар. Суммарная длина всех ДНК, вытянутых в одну нить достигает 2м. Наследственная информация человека записана в 23 хромосомах. Длина хромосомы порядка 10 9 нуклеотидов, а диаметр ядра меньше микрометра. Таким образом, ДНК в клетке компактизована.
Определение. Ген (греч.γενοζ – род). Структурная и функциональная единица наследственности живых организмов. Гены (точнее аллели) определяют наследственные признаки организмов, передающиеся от родителей потомству при размножении.
В словах ДНК можно выделить и рассматривать отдельные части-подслова (гены), которые несут целостную информацию о строении одной молекулы белка или одной молекулы РНК. Кроме того, гены характеризуются регуляторными последовательностями (промоторами).
Промоторы могут быть расположены как в непосредственной близости от открытой «рамки считывания», кодирующей белок или начала последовательности РНК, так и на расстоянии многих миллионов пар оснований (нуклеотидов), например, в случаях с энхансерами, инсуляторами и супрессорами.
Каждый ген предназначен и отвечает за создание определенного белка, необходимого для жизнедеятельности организма. Понятием генотип обозначается наследственная конституция гамет (половых клеток) и зигот (соматических клеток) в отличие от фенотипа, описывающего благоприобретенные признаки, которые по наследству не передаются.
Блоковые коды
Код многозначное понятие. Кодом, прежде всего, можно назвать множество кодовых слов, образующих собственно сам код. Именно такие слова распознает декодер на приемной стороне при передаче сообщений, а на передающей — их формирует кодер.
При формировании кодовых слов используется однозначное отображение конечного упорядоченного множества символов, принадлежащих некоторому конечному алфавиту, на иное, не обязательно упорядоченное, как правило, более обширное множество символов для кодирования передачи, хранения или преобразования информации
Перечислим свойства рассматриваемого генетического кода (ГК):
Г. Гамовым было высказано предположение о триплетности кода. Поскольку речь идет о 4-х нуклеотидах, образующих алфавит, и о 20 аминокислотах, используемых при синтезе белков, каждая из них должна в качестве прообраза иметь одно (или более) синтезирующее ее слово.
Свойство связано с избыточностью. Состав каждого слова из 64 возможных был установлен лишь в 1965 году на основе многочисленных опытов. Выяснилось, что избыточность числа слов при синтезе некоторых белков используется природой для надежности правильности считывания информации. В итоге получилось, что каждая аминокислота кодируется разным числом триплетов (кодонов). Свойство кода назвали вырожденностью.
Таблица 2 — Количественные соотношения триплетов и аминокислот
Рассмотрим два дискретных множества Х и n, содержащие соответственно |X| и |n| элементов и отображение φ: n → Х. При представлении произвольных отображений множеств словами в алфавите Х получается множество Х n слов, каждое длиной n символов из имеющихся q = |X|, которые образуют алфавит текстовых сообщений. Удобно все слова Х n расположить в лексикографическом порядке в общий список.
Нашей целью в этой части работы является формирование кода, обеспечивающего кодирование (преобразование) передаваемых данных в форму удобную для передачи в пространстве и времени и трансляцию (перевод) с одного языка на другой понятный получателю сообщения.
Формирование кода предполагает выбор алфавита, определение регулярности, а при выборе регулярного кода, определение длины кодового слова, определение количества кодовых слов, определение побуквенного состава каждого слова.
Таблица 3 — Генетический код состоит из 64 кодовых слов из 3-х букв каждое
Таблица 4 — Обратные значения кодовой последовательности триплетов РНК
Дополнительные свойства кода, например, код не должен иметь запятой, определяются более жесткими требованиями к названным параметрам кода. Код без запятой должен иметь слова с максимальным периодом. Такие требования ориентированы на удобство последующего синтеза кодека. С этими положениями синтеза кода тесно связаны вопросы кодирования информации и ее декодирования.
Анализ кода
Совсем по-другому звучит задача анализа кода, когда код уже существует и используется, но о нем самом практически мало что известно. Кодированные сообщения доступны для обозрения и изучения, но они столь разнообразны и многочисленны, что принцип их создания не просматривается даже при весьма обширном их анализе.
Собственно, сама система кодирования также доступна для наблюдения и изучения, но уровень сложности ее построения и функционирования не позволяет получить полное качественное и достоверное описание.
Информация (данные) представляет собой сообщение, т.е. цепочку символов алфавита, которая с некоторой стартовой позиции может быть разбита на отрезки (блоки) длиной n символов, и каждый такой отрезок представляет собой кодовое слово. Код в этом случае блоковый.
На приемной стороне канала передачи сообщения получатель должен иметь возможность правильно разделять непрерывную цепочку символов сообщения на отдельные слова. Использование разделителей слов (запятой) нежелательно, так как требует ресурсов.
Синхронизация. Без выполнения синхронизации правильная трансляция сообщения невозможна. Отсюда вытекает одно из требований к формируемому коду – код должен быть устроен так, чтобы синхронизация обеспечивалась однозначно средствами (свойствами) самого кода и приемного устройства информации.
Определение. Процесс установления позиции, содержащей стартовый (начальный) символ кодового слова, называется синхронизацией.
Задача синхронизации просто решается, если в алфавите используется специальный символ-разделитель слов, например, запятая. Рамка считывания очередного кодового слова устанавливается непосредственно за разделителем.
Такой разделитель удобен, но нежелателен по нескольким причинам.
Для лучшей различимости слов кода они в полном списке возможных слов должны быть удалены одно от другого на некоторое расстояние, т.е. различаться составом значений символов, как векторы векторного пространства компонентами.
Следовательно, кодовыми словами могут быть не все и не любые слова множества Х n , а только лишь некоторое их подмножество D є Х n . Выбор символьного состава слов кода и представляет основную задачу его формирования, так как именно состав слов кода должен обеспечивать удовлетворение сформулированным требованиям к коду. Таким образом, будем далее рассматривать код без запятой.
Синхронизация кода без запятой. Покажем здесь, как может быть обеспечена однозначность синхронизации кода без запятой. Выберем два триплета кодовых слова вида х = (х1, х2, …, хn) и у = (у1, у2, …, уn). Образуем их конкатенацию х||у = (х1, х2, …, хn, у1, у2, …, уn). Эта конкатенация из двух слов позволяет породить еще n – 1 слово множества Х n путем многократных циклических сдвигов на одну позицию влево и выделения первых n символов сдвинутой последовательности. Введем важное понятие перекрытия пары слов.
Определение. При циклических сдвигах символов на шаг получаются слова вида (х2, …, хn, у1), (х3, …, хn, у1, у2)…( хn, у1,…, уn-2, уn-1), которые называются перекрытиями пары слов х и у.
Если все перекрытия в конкатенации для любой пары кодовых слов не являются кодовыми словами, то механизм приемной стороны (декодер) канала передачи информации имеет возможность устанавливать однозначно стартовую позицию. Это возможно при наличии у декодера списка D всех кодовых слов и возможности сопоставления их со считываемыми n символами из принятого сообщения.
Покажем, как это осуществляется. Пусть в принятой последовательности символов выбран и зафиксирован некоторый символ. Отсчитав n символов от фиксированного, декодер сопоставляет слово, которое получилось, со словами кодового списка. Если имеет место совпадение с одним из слов кодового списка, то синхронизация установлена. Фиксированный символ и его позиция стартовые.
Если совпадения нет ни с одним из слов списка кода, т. е. попали на слово-перекрытие, то это означает, что стартовая позиция расположена левее фиксированной позиции.
Сдвигаемся влево на одну позицию от фиксированной и повторяем действия предыдущего шага до тех пор, пока не получим на некотором шаге совпадения с одним из кодовых слов. Этот процесс обязательно имеет успешное завершение в правильной стартовой позиции, т. е. синхронизация в среднем устанавливается за число n/2 шагов.
Определение. Блоковым кодом без разделителя (запятой) называется подмножество D є Х n слов длины n в алфавите Х таких, что для любых двух кодовых слов х, у єD все перекрытия для них не являются кодовыми словами.
Мы уже установили, что такой код обеспечивает правильную синхронизацию в длинных цепочках кодовых слов без разделителей между ними. Какие же слова из множества Х n включаются в подмножество D є Х n ? Если мощность множества Х n делится на целые числа, то мощность D может быть одним из таких делителей (теорема Лагранжа о группах) и код при этом называется групповым блоковым кодом без запятой.
Состав символов в словах кода пока остается не установленным, так же, как и количество слов в D. Очевидно, что выбор конкретного подмножества D из Х n имеет много вариантов (сочетаний из Х n по D), из которых только немногие или возможно единственный удовлетворяет всем требованиям к коду без запятой. Нами рассмотрено одно из важных требований о перекрытиях, и это свойство слов кода может быть использовано в качестве фильтра для отсеивания непригодных вариантов при выборе D.
Перейдем к решению вопроса о числе слов в формируемом коде.
Мощность кода без запятой. Будем отыскивать наибольшее из возможных число слов в коде D, которое обозначим символом |D| = Wn(q). Точное значение получить не удается, но оценку сверху для количества слов получить возможно, используя понятие периода слова. Обозначим символом Т k х циклический сдвиг слова длиной n на k шагов, k k х = х и d ≤ n, d | n. Слова максимального периода d = n называются полноцикловыми (основными). Код без запятой включает в свой состав только полноцикловые слова.
Действительно, пусть кодовое слово х = (х1, х2, х3, х1, х2, х3 ) имеет период d