генетический код в информатике
Урок 2
§ 4. Язык — средство кодирования
Содержание урока
Генетический код
Генетический код
Почему у кошек рождаются котята, а у собак — щенята? Дело в том, что родители передают детям наследственную информацию. Она определяет, из каких белков будет построен новый организм, каков будет его внешний вид и внутреннее устройство.
В середине XX века учёные выяснили, что эта наследственная информация хранится в молекулах ДНК (так сокращённо называют дезоксирибонуклеиновую кислоту). Эту молекулу обычно рисуют в виде очень длинной двойной спирали, т. е. спирали из двух цепей. Каждая цепь состоит из звеньев четырёх типов (нуклеотидов), вот их русские и английские названия:
цитозин (Cytosine, С);
Для сокращения эти звенья обычно обозначают начальными буквами английских названий: А, С, G и Т. Таким образом, молекула ДНК — это «сообщение», закодированное в четырёхбуквенном алфавите.
Часть молекулы ДНК (у человека — примерно 3% всей длины) составляют гены — участки, содержащие информацию о белках, которые будет строить организм. Белки — это основа жизни, они определяют все биологические свойства организма.
Каждый белок — это тоже цепь, состоящая из «кусочков», которые называются аминокислотами. Белки живых организмов строятся из 20 видов аминокислот.
Какую длину равномерного 1) кода, использующего алфавит <А, С, G, Т>, нужно выбрать, чтобы можно было закодировать 20 различных видов аминокислот?
1) Как вы знаете из курса информатики 7 класса, равномерным называется код, в котором все кодовые слова имеют одинаковую длину.
Сколько различных последовательностей длиной 2 и 3 можно составить с помощью алфавита <А, С, G, Т>?
Гены в молекуле ДНК состоят из различных троек нуклеотидов, причём каждая тройка обозначает определённую аминокислоту. Кроме того, специальные тройки обозначают начало и конец гена.
Молекула ДНК человека состоит примерно из трёх миллиардов нуклеотидов. Исследование таких длинных последовательностей вручную невозможно, здесь необходима помощь компьютера. Поэтому на стыке биологии и информатики возникла наука биоинформатика, которая занимается анализом генов и белков. Сравнивая строение белков, учёные устанавливают родственные связи между видами животных и растений, выясняют причины болезней и учатся бороться с ними.
Следующая страница Выводы. Интеллект-карта
Cкачать материалы урока
Код генетический
В ДНК используется четыре нуклеотида — аденин (А), гуанин (G), цитозин (С), тимин (T), которые в русскоязычной литературе обозначаются буквами А, Г, Ц и Т. Эти буквы составляют алфавит генетического кода. В РНК используются те же нуклеотиды, за исключением тимина, который заменён похожим нуклеотидом — урацилом, который обозначается буквой U (У в русскоязычной литературе). В молекулах ДНК и РНК нуклеотиды выстраиваются в цепочки и, таким образом, получаются последовательности генетических букв.
Для построения белков в природе используется 20 различных аминокислот. Каждый белок представляет собой цепочку или несколько цепочек аминокислот в строго определённой последовательности. Эта последовательность определяет строение белка, а следовательно все его биологические свойства. Набор аминокислот также универсален для почти всех живых организмов.
Реализация генетической информации в живых клетках (то есть синтез белка, кодируемого геном) осуществляется при помощи двух матричных процессов: транскрипции (то есть синтеза иРНК на матрице ДНК) и трансляции генетического кода в аминокислотную последовательность (синтез полипептидной цепи на матрице иРНК). Для кодирования 20 аминокислот, а также сигнала «стоп», означающего конец белковой последовательности, достаточно трёх последовательных нуклеотидов. Набор из трёх нуклеотидов называется триплетом. Принятые сокращения, соответствующие аминокислотам и кодонам, изображены на рисунке.
Содержание
Свойства генетического кода
Таблицы соответствия кодонов и аминокислот
2-е основание | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
U | C | A | G | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1-е основание | U |
Ala/A | GCU, GCC, GCA, GCG | Leu/L | UUA, UUG, CUU, CUC, CUA, CUG |
---|---|---|---|
Arg/R | CGU, CGC, CGA, CGG, AGA, AGG | Lys/K | AAA, AAG |
Asn/N | AAU, AAC | Met/M | AUG |
Asp/D | GAU, GAC | Phe/F | UUU, UUC |
Cys/C | UGU, UGC | Pro/P | CCU, CCC, CCA, CCG |
Gln/Q | CAA, CAG | Ser/S | UCU, UCC, UCA, UCG, AGU, AGC |
Glu/E | GAA, GAG | Thr/T | ACU, ACC, ACA, ACG |
Gly/G | GGU, GGC, GGA, GGG | Trp/W | UGG |
His/H | CAU, CAC | Tyr/Y | UAU, UAC |
Ile/I | AUU, AUC, AUA | Val/V | GUU, GUC, GUA, GUG |
START | AUG | STOP | UAG, UGA, UAA |
Вариации стандартного генетического кода
В некоторых белках нестандартные аминокислоты, такие как селеноцистеин и пирролизин вставляются рибосомой, прочитывающей стоп-кодон, что зависит от последовательностей в иРНК. Селеноцистеин сейчас рассматривается в качестве 21-й, а пирролизин 22-й аминокислот, входящих в состав белков.
Несмотря на эти исключения, у всех живых организмов генетический код имеет общие черты: кодон состоят из трёх нуклеотидов, где два первых являются определяющими, кодоны транслируются тРНК и рибосомами в последовательность аминокислот.
Биология. 11 класс
§ 23. Генетический код и его свойства
Как вы знаете, признаки и свойства каждого организма определяются прежде всего белками, которые синтезируются в его клетках. Белки выполняют самые разнообразные функции (вспомните какие), обеспечивая тем самым протекание процессов жизнедеятельности. Можно сказать, что именно от этих биополимеров в первую очередь и зависит существование организма. Однако время функционирования белков, как и многих других биомолекул, весьма ограничено. Поэтому синтез белков в организме должен осуществляться непрерывно. Этот процесс протекает во всех клетках одноклеточных и многоклеточных организмов.
Вам также известно, что хранителем наследственной (генетической) информации, т. е. информации о первичной структуре белков, является ДНК. Участок молекулы ДНК, содержащий информацию о первичной структуре одного белка, получил название ген. Кроме того, генами называют участки ДНК, хранящие информацию о строении молекул рРНК и тРНК.
В биосинтезе белков, который осуществляется в рибосомах, ДНК прямого участия не принимает. Передача генетической информации, содержащейся в ДНК, к месту синтеза белка происходит с помощью посредника. Этим посредником является матричная (информационная) РНК (мРНК, иРНК), которая синтезируется на одной из цепей молекулы ДНК по принципу комплементарности.
В молекулах ДНК и мРНК информация о первичной структуре белков «записана» в виде последовательности нуклеотидов. Сами же белки синтезируются из аминокислот. Значит, в природе существует особая система кодирования, на основании которой последовательность нуклеотидов расшифровывается в виде последовательности аминокислот молекул белков. Этот «шифр» называется генетическим кодом. Таким образом, генетический код — это система записи информации о первичной структуре белков в виде последовательности нуклеотидов ДНК (мРНК).
Генетический код обладает следующими свойствами.
1. Код является триплетным. Это значит, что каждая аминокислота кодируется триплетом (кодоном) — сочетанием трех последовательно расположенных нуклеотидов. В состав молекул ДНК и РНК входит по 4 типа нуклеотидов. Если бы за определенную аминокислоту «отвечал» один нуклеотид, можно было бы закодировать только 4 из 20 белокобразующих аминокислот. Дублетов (по два нуклеотида) хватило бы лишь на 4 2 = 16 аминокислот. Количество возможных триплетов (сочетаний трех нуклеотидов) составляет 4 3 = 64. Этого с избытком хватает для кодирования всех 20 видов аминокислот (табл. 23.1).
Обратите внимание, что 3 из 64 кодонов (в молекулах мРНК — УАА, УАГ и УГА) не кодируют аминокислоты. Это так называемые стоп-кодоны *или нонсенс-кодоны (от англ. nonsense — бессмыслица)*, они служат сигналом окончания синтеза белка. *Остальные триплеты называются смысловыми.*
* Генетический код расшифровали американские биохимики Р. Холли, Х. Г. Корана и М. Ниренберг в середине прошлого века. Работа стартовала в 1961 г. В бесклеточные системы, содержащие все необходимые компоненты для синтеза белка (рибосомы, аминокислоты, тРНК и др.), ученые сначала вводили искусственно синтезированные мРНК, состоящие только из одного типа нуклеотидов. Было выяснено, что в присутствии, например, полицитидиловой мРНК (ЦЦЦЦЦЦ. ) синтезируется полипептид, состоящий только из остатков аминокислоты пролина, в присутствии полиуридиловой (УУУУУУ. ) — из фенилаланина. Стало понятно, что кодону ЦЦЦ соответствует пролин, а триплет УУУ кодирует фенилаланин. К 1965 г., благодаря использованию искусственно синтезированных молекул мРНК с известными повторяющимися последовательностями нуклеотидов, удалось расшифровать все остальные триплеты. В 1968 г. это открытие было удостоено Нобелевской премии.*
2. Код однозначен — каждый триплет кодирует только одну аминокислоту.
3. Как уже отмечалось, число триплетов превышает количество кодируемых аминокислот. Поэтому генетический код является избыточным (вырожденным) — одна и та же аминокислота может кодироваться разными триплетами. Например, в мРНК цистеин (Цис) может быть закодирован триплетом УГУ или УГЦ, треонин (Тре) — АЦУ, АЦЦ, АЦА или АЦГ. Некоторые аминокислоты, например лейцин (Лей), кодируются шестью различными триплетами, в то же время метионину (Мет) и триптофану (Трп) соответствует только по одному кодону (проверьте по таблице генетического кода).
4. Код не перекрывается — один и тот же нуклеотид не может одновременно входить в состав двух соседних триплетов.
5. Код непрерывен. В полинуклеотидной цепи нуклеотиды располагаются непрерывно и соседние триплеты ничем не отделены друг от друга. Это значит, что фактически деление на триплеты условно — все зависит от того, с какого именно нуклеотида начинается их считывание. Поэтому в клетках считывание информации, содержащейся в генах, всегда начинается со строго определенного нуклеотида.
Если в составе гена происходит изменение количества нуклеотидов (их выпадение или вставка) на число, не кратное трем, наблюдается так называемый сдвиг рамки считывания (рис. 23.1). Это прив одит к существенному изменению последовательности аминокислот в белке, который кодируется измененным геном. В некоторых случаях сдвиг рамки считывания приводит к возникновению стоп-кодонов, из-за чего синтез белка обрывается.
*Суть происходящего при сдвиге рамки считывания можно понять на следующем примере. Прочитайте предложение, составленное из трехбуквенных слов (аналогично триплетам):
ЖИЛ БЫЛ КОТ ТИХ БЫЛ СЕР МИЛ МНЕ ТОТ КОТ.
В этом предложении заключен определенный смысл, понять который можно и без знаков препинания. Выпадение одной буквы аналогично выпадению одного нуклеотида. Оно приводит к изменению порядка считывания и потере смысла:
ЖЛБ ЫЛК ОТТ ИХБ ЫЛС ЕРМ ИЛМ НЕТ ОТК ОТ — выпадение второй буквы.
То же самое произошло бы и после вставки лишней буквы. В случае замены одной буквы либо при изменении их количества на три смысл предложения меняется не столь значительно. Например:
ЖИВ БЫЛ КОТ ТИХ БЫЛ СЕР МИЛ МНЕ ТОТ КОТ — замена третьей буквы;
БЫЛ КОТ ТИХ БЫЛ СЕР МИЛ МНЕ ТОТ КОТ — выпадение первых трех букв.
Однако смысл предложения (в нашей аналогии — первичная структура белка) во многом зависит от положения измененных букв (нуклеотидов). Так, смысл может существенно исказиться:
ЖИЛ БОТ ТИХ БЫЛ СЕР МИЛ МНЕ ТОТ КОТ — выпадение пятой, шестой и седьмой букв.
Аналогичная ситуация наблюдается и с белками. В зависимости от расположения замененной (утраченной, добавленной) аминокислоты молекула белка может сохранить пространственную конфигурацию и функции, частично изменить их или же полностью утратить свои исходные характеристики.*
Как уже отмечалось, правильное считывание генетической информации обеспечивается только тогда, когда оно начинается со строго определенной позиции. У эукариот стартовым кодоном молекулы мРНК является триплет АУГ. Именно с него и начинается считывание.
6. Код универсален — у всех живых организмов одним и тем же триплетам соответствуют одни и те же аминокислоты. Иными словами, у всех организмов генетический код расшифровывается одинаково (за редким исключением). Это свидетельствует о единстве происхождения живых организмов.
*Некоторые вариации генетического кода обнаружены у бактерий, инфузорий, дрожжей, в коде митохондриальной ДНК и т. д. Например, у бактерий триплет мРНК ГУГ может играть роль стартового кодона, а у эукариот он предназначен только для кодирования аминокислоты валин. В митохондриях млекопитающих триплет УГА кодирует триптофан, в то время как в матричной РНК, синтезированной в ядре клетки, он служит стоп-кодоном. И наоборот, в коде митохондрий триплеты АГА и АГГ являются сигналами окончания синтеза белка, а в «основной версии» генетического кода им соответствует аминокислота аргинин.*
Генетический код в информатике
Раздел ЕГЭ: 2.6. Генетическая информация в клетке. Гены, генетический код и его свойства. Матричный характер реакций биосинтеза. Биосинтез белка и нуклеиновых кислот
На Земле живет уже более 6 млрд людей. Если не считать 25-30 млн пар однояйцевых близнецов, то генетически все люди разные. Это означает, что каждый из них уникален, обладает неповторимыми наследственными особенностями, свойствами характера, способностями, темпераментом и многими другими качествами. Чем же определяются такие различия между людьми? Конечно различиями в их генотипах, т.е. наборах генов данного организма. У каждого человека он уникален, так же как уникален генотип отдельного животного или растения. Но генетические признаки данного человека воплощаются в белках, синтезированных в его организме. Следовательно, и строение белка одного человека отличается, хотя и совсем немного, от белка другого человека. Вот почему возникает проблема пересадки органов, вот почему возникают аллергические реакции на продукты, укусы насекомых, пыльцу растений и т.д. Сказанное не означает, что у людей не встречается совершенно одинаковых белков. Белки, выполняющие одни и те же функции, могут быть одинаковыми или совсем незначительно отличаться одной-двумя аминокислотами друг от друга. Но не существует на Земле людей (за исключением однояйцевых близнецов), у которых все белки были бы одинаковы.
Информация о первичной структуре белка закодирована в виде последовательности нуклеотидов в участке молекулы ДНК — гене. Ген — это единица наследственной информации организма. Каждая молекула ДНК содержит множество генов. Совокупность всех генов организма составляет его генотип.
Кодирование наследственной информации происходит с помощью генетического кода. Код подобен всем известной азбуке Морзе, которая точками и тире кодирует информацию. Азбука Морзе универсальна для всех радистов, и различия состоят только в переводе сигналов на разные языки. Генетический код также универсален для всех организмов и отличается лишь чередованием нуклеотидов, образующих гены и кодирующих белки конкретных организмов.
Свойства генетического кода: триплетность, специфичность, универсальность, избыточность и неперекрываемость.
Итак, что же собой представляет генетический код? Изначально он состоит из троек (триплетов) нуклеотидов ДНК, комбинирующихся в разной последовательности. Например, ААТ, ГЦА, АЦГ, ТГЦ и т.д. Каждый триплет нуклеотидов кодирует определенную аминокислоту, которая будет встроена в полипептидную цепь. Так, например, триплет ЦГТ кодирует аминокислоту аланин, а триплет ААГ — аминокислоту фенилаланин. Аминокислот 20, а возможностей для комбинаций четырех нуклеотидов в группы по три — 64. Следовательно, четырех нуклеотидов вполне достаточно, чтобы кодировать 20 аминокислот. Вот почему одна аминокислота может кодироваться несколькими триплетами. Часть триплетов вовсе не кодирует аминокислоты, а запускает или останавливает биосинтез белка.
Собственно генетическим кодом считается последовательность нуклеотидов в молекуле иРНК, ибо она снимает информацию с ДНК (процесс транскрипции) и переводит ее в последовательность аминокислот в молекулах синтезируемых белков (процесс трансляции). В состав иРНК входят нуклеотиды АЦГУ. Триплеты нуклеотидов иРНК называются кодонами. Уже приведенные примеры триплетов ДНК на иРНК будут выглядеть следующим образом — триплет ЦГТ на иРНК станет триплетом ГЦА, а триплет ДНК — ААГ — станет триплетом УУЦ. Именно кодонами иРНК отражается генетический код в записи. Итак, генетический код триплетен, универсален для всех организмов на земле, вырожден (каждая аминокислота шифруется более чем одним кодоном). Между генами имеются знаки препинания — это триплеты, которые называются стоп-кодонами. Они сигнализируют об окончании синтеза одной полипептидной цепи. Существуют таблицы генетического кода, которыми нужно уметь пользоваться, для расшифровки кодонов иРНК и построения цепочек белковых молекул (в скобках — комплементарные ДНК).
Генетический код
Генети́ческий код — свойственный всем живым организмам способ кодирования аминокислотной последовательности белков при помощи последовательности нуклеотидов.
В ДНК используется четыре азотистых основания — аденин (А), гуанин (G), цитозин (С), тимин (T), которые в русскоязычной литературе обозначаются буквами А, Г, Ц и Т. Эти буквы составляют алфавит генетического кода. В РНК используются те же нуклеотиды, за исключением тимина, который заменён похожим нуклеотидом — урацилом, который обозначается буквой U (У в русскоязычной литературе). В молекулах ДНК и РНК нуклеотиды выстраиваются в цепочки и, таким образом, получаются последовательности генетических букв.
Белки практически всех живых организмов построены из аминокислот всего 20 видов. Эти аминокислоты называют каноническими. Каждый белок представляет собой цепочку или несколько цепочек аминокислот, соединённых в строго определённой последовательности. Эта последовательность определяет строение белка, а следовательно все его биологические свойства.
Реализация генетической информации в живых клетках (то есть синтез белка, кодируемого геном) осуществляется при помощи двух матричных процессов: транскрипции (то есть синтеза мРНК на матрице ДНК) и трансляции генетического кода в аминокислотную последовательность (синтез полипептидной цепи на мРНК). Для кодирования 20 аминокислот, а также сигнала «стоп», означающего конец белковой последовательности, достаточно трёх последовательных нуклеотидов. Набор из трёх нуклеотидов называется триплетом. Принятые сокращения, соответствующие аминокислотам и кодонам, изображены на рисунке.
Содержание
Свойства
Таблицы соответствия кодонов мРНК и аминокислот
2-е основание | |||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
U | C | A | G | ||||||||||||||||||||||||||||||||||||||||||
1-е основание | U |
Ala/A | GCU, GCC, GCA, GCG | Leu/L | UUA, UUG, CUU, CUC, CUA, CUG |
---|---|---|---|
Arg/R | CGU, CGC, CGA, CGG, AGA, AGG | Lys/K | AAA, AAG |
Asn/N | AAU, AAC | Met/M | AUG |
Asp/D | GAU, GAC | Phe/F | UUU, UUC |
Cys/C | UGU, UGC | Pro/P | CCU, CCC, CCA, CCG |
Gln/Q | CAA, CAG | Ser/S | UCU, UCC, UCA, UCG, AGU, AGC |
Glu/E | GAA, GAG | Thr/T | ACU, ACC, ACA, ACG |
Gly/G | GGU, GGC, GGA, GGG | Trp/W | UGG |
His/H | CAU, CAC | Tyr/Y | UAU, UAC |
Ile/I | AUU, AUC, AUA | Val/V | GUU, GUC, GUA, GUG |
START | AUG | STOP | UAG, UGA, UAA |
Вариации стандартного генетического кода
В некоторых белках нестандартные аминокислоты, такие как селеноцистеин и пирролизин, вставляются рибосомой, прочитывающей стоп-кодон, что зависит от последовательностей в мРНК. Селеноцистеин сейчас рассматривается в качестве 21-й, а пирролизин 22-й аминокислот, входящих в состав белков.
Несмотря на эти исключения, у всех живых организмов генетический код имеет общие черты: кодон состоят из трёх нуклеотидов, где два первых являются определяющими, кодоны транслируются тРНК и рибосомами в последовательность аминокислот.
История представлений о генетическом коде
Тем не менее в начале 60-х годов XX века новые данные обнаружили несостоятельность гипотезы «кода без запятых». Тогда эксперименты показали, что кодоны, считавшиеся Криком бессмысленными, могут провоцировать белковый синтез в пробирке, и к 1965 году был установлен смысл всех 64 триплетов. Оказалось, что некоторые кодоны просто-напросто избыточны, то есть целый ряд аминокислот кодируется двумя, четырьмя или даже шестью триплетами.
- С чем сделать ванночку для ног перед педикюром
- 0x80070422 код ошибки 0x80070422 windows 10 как исправить