Всемирная ДНК
Технологии

Всемирная ДНК

Ной, шестилетний мальчик из Канады, болен болезнью, у которой нет названия. Врачи смотрят на уменьшающуюся часть мозга, называемую мозжечком, на МРТ. Они подозревают, что среди миллионов слов, написанных буквами генетического кода Ноя, есть опечатка. Поэтому они отправляют ДНК мальчика в мир через Интернет, надеясь найти такую ​​же ошибку у кого-то еще.

Дефект можно определить, если такая же ошибка обнаружена где-то с помощью сетевых инструментов. Поэтому разработчики из Торонто начали тестирование системы обмена генетической информацией между учреждениями здравоохранения в начале 2016 года. На данный момент в сеть входят больницы из Канады, США и Великобритании. Целью системы MatchMaker Exchange является автоматизация и глобализация процедур сравнения ДНК. Цель ученых-компьютерщиков, работающих над проектом, — приблизить методы секвенирования генов к современным телекоммуникационным технологиям. В мире их уже около 200 XNUMX. людей, чьи геномы секвенированы. Вскоре их число может достичь миллионов.

Один из создателей канадского MatchMaker, Дэвид Хаусслер, ученый-биоинформатик из Калифорнийского университета в Санта-Круз, вместе с группой других специалистов в 2013 году основал Глобальный альянс по геномике и здоровью — GA4GH, который он часто сравнивает с организацией по стандартизации Интернета. W3C. Многие известные деятели и целые компании, такие как Google, сумели присоединиться к новой организации, семени «Всемирной ДНК». GA4GH занимается усовершенствованием протоколов, разработкой программных интерфейсов (API) и форматов файлов для передачи генетических данных в сети.

Одним из аргументов в пользу создания такого «генетического» Интернета является быстрорастущий объем данных, генерируемых в лабораториях. Крупнейшие и наиболее эффективные центры секвенируют человеческие геномы со скоростью два генома в час (на секвенирование первого человека ушло тринадцать лет). По оценкам, в этом году по всему миру будет произведено 85 петабайт данных. В 2019 году их должно быть вдвое больше. И все это — если не будет создана глобальная сеть и возможность поиска — будет находиться в изолированных, труднодоступных базах данных. В таких условиях невозможно, например, проверить все сходные мутации, приводящие к определенному типу рака, в сравнении с применяемыми препаратами и методами терапии. А возможность сравнения в глобальной базе данных была бы замечательным инструментом для врачей. Поэтому Хаусслер создал генетический поисковик под названием Beacon, который выполнял поиск в двадцати общедоступных базах данных ДНК и реализовывал протоколы GA4GH. Поисковик может задавать вопросы о позициях генетических «букв» в отдельных хромосомах геномов в базе данных. Несмотря на признание важности широкого доступа к секвенированной ДНК для прогресса медицины, в обществе, а также среди врачей и исследователей существует значительное сопротивление обмену такими данными. Идея размещения геномов человека в Интернете многим кажется спорной. Чтобы предотвратить нарушение конфиденциальности, GA4GH предлагает модель однорангового Интернета.

Данные в вечных цепочках

С одной стороны, мы стремимся создать Интернет с данными ДНК — с другой стороны, ДНК начинает представлять собой интересную альтернативу компьютерной записи данных. Несколько месяцев назад группа швейцарских ученых из технологического института в Цюрихе представила методику кодирования данных в цепочках ДНК таким образом, чтобы они могли сохраняться без повреждений и ошибок до двух тысяч лет! С такой долговечностью не может сравниться ни одна другая известная технология записи данных человека. Конечно, наблюдательный человек сразу спросит, как можно было в одном представлении доказать долговечность тысячелетий. Оказывается, швейцарцы разработали симуляцию такого длительного периода, инкапсулируя данные цепочки ДНК в силиконовые сферы и нагревая их до температуры около 72 °C. По подсчетам ученых, неделя пребывания при такой температуре равняется 2. лет при 10°С. После именно такого моделирования ошибок записи замечено не было. Исследователи также подчеркивают другие преимущества спирали ДНК как носителя данных по сравнению с жесткими дисками или магнитными лентами. Например, диск размером с книгу объемом в пять терабайт может хранить такой объем данных при оптимальных условиях до пятидесяти лет. Запись в коде ДНК не будет двоичной, а будет основываться на использовании четырех нуклеотидных букв A, C, T и G. Рассказывая о достижениях швейцарцев, New Scientist дал следующий расчет: один грамм молекулярной ДНК цепочки могут кодировать 455 экзабайт информации, а по подсчетам компании EMC Computer в 2011 году общий объем данных, собранных на Земле, составил 1,8 зеттабайта. Один зеттабайт равен 1 тысяче. Эксабайты, поэтому для записи данных за 2011 год необходимо около 4 граммов ДНК. Конечно, с 2011 года объем глобальной информации немного увеличился и, наверное, нужно добавить грамм-три.

Генетическая информатика

процветает Стоит также помнить, что уже существует язык программирования для ДНК. Он был разработан в последние годы группой ученых из Вашингтонского университета в США. Предполагается, что он управляет работой «химического компьютера», так называются системы, используемые для синтеза ДНК. Идея состоит не только в том, чтобы контролировать химические реакции, подобные автоматике, роботам и т. д., но и в том, чтобы управлять дозированием лекарств. Создание компьютерных алгоритмов, позволяющих, например, адаптировать молекулы искусственной ДНК к среде живых тканей, в которой им предстоит функционировать, является серьезной задачей. Биологический мир намного сложнее и нерегулярнее, чем мир машин. Однако сложно не значит невозможно. «Наша идея состоит в том, чтобы создать универсальный язык, который можно было бы использовать во многих различных задачах», — объяснил Георг Зелиг из команды языков программирования DNA. Технология в конечном итоге будет использоваться, среди прочего программировать молекулы самосборки в клетках или создавать биосенсоры, контролирующие состояние организма на клеточном уровне. Алгоритм, используемый в исследовании последовательности ДНК, также может помочь защититься от мусора, наводняющего Интернет, то есть от спама. Программа под названием Чунг-Квэй (от китайского талисмана фэн-шуй, оберегающего дом от злых духов) эффективна почти на 97 процентов. Он был основан на более раннем алгоритме Тиресия (Тиресий — мифический греческий предсказатель), который был разработан биоинформатиками из Исследовательского центра IBM Томаса Дж. Уотсона в Нью-Йорке, работающими над секвенированием ДНК. Эта программа искала повторяющиеся последовательности в записях генетического кода, которые обычно представляют важную информацию. Вместо генома ученые проанализировали 65 6 данных с помощью алгоритма. самые распространенные примеры спама. Каждое электронное письмо рассматривалось как строка ДНК. Нам удалось найти 65 миллионов повторяющихся (более чем в одном электронном письме) последовательностей букв и цифр. Затем был проанализирован значительный объем обычной корреспонденции (иногда называемой ветчиной — «хам» в отличие от спама — «завтрак»). Последовательности, которые повторялись в сообщениях ветчины и спаме, были устранены. Впоследствии входящая корреспонденция была проанализирована. Чем больше число типичных «спамовых последовательностей» на килобайт электронного письма, тем больше уверенность в том, что это спам. Только один из 96,56 XNUMX обычные электронные письма были ошибочно остановлены, а эффективность распознавания спама достигла XNUMX%.

Добавить комментарий