| Kontakt: pzh@pzh.gov.pl
Platforma Nadzoru Genomowego
PLEpiSeq
ang. „Towards the National Platform for Genomic Surveillance”

Projekt PLEpiSeq obejmuje 9 działań (WP1-9) z czego cztery mają charakter zarządczo-promocyjny (WP1-4). Natomiast w ramach działań WP5-9 realizowane są główne cele i założenia projektu istotne dla finalnych odbiorców projektu:

Głównymi celem obszaru WP5 jest rozbudowa oprogramowania HERA wytworzonego w ramach grantu Grant/2021/PHF/23776.
W ramach obszaru WP5 możemy wymienić 4 główne obszary prac:
– rozbudowa modułu przechowywania danych (dane o próbkach, wyniki badań, wyniki sekwencjonowania) o inne patogeny niż SARS-Cov2
– rozbudowa interfejsów API (o kolejne patogeny) służących do wymiany informacji pomiędzy systemami trzecimi, a modułem przechowywania danych
– wytworzenie interfejsu użytkownika (GUI) w technologii WWW służącego użytkownikom merytorycznym w dostępie do gromadzonych danych w systemie
– wytworzenie modułu raportowania, odpowiedzialnego za generację raportów i zestawień dla różnych grup docelowych (użytkownicy systemu, użytkownicy zewnętrzni, pracownicy NIZP PZH-PIB itp.)

Metadane na potrzeby nadzoru genomowego to dane opisujące przypadek zachorowania lub zakażenia, z uwzględnieniem właściwego opisu próbek pobranych od osoby chorej lub zakażonej oraz ewentualnie próbek powiązanych z danym zachorowaniem lub zdarzeniem.

Metadane dotyczące zachorowania lub zakażenia mogą obejmować wszelkie istotne informacje demograficzne, epidemiologiczne i kliniczne dotyczące danej osoby. Wiek chorego, miejsce zachorowania, informacja o czynnikach ryzyka, statusie szczepienia, czy data pobrania próbki do badania to klasyczny przykład metadanych. Natomiast próbka do sekwencjonowania pełnogenomowego powinna zostać opisana poprzez dodatkowe dane, które określają jej rodzaj, parametry jakościowe oraz inne cechy, w tym fenotypową charakterystykę patogenu.

Wyniki sekwencjonowania pełnogenomowego (WGS) patogenów należy analizować i interpretować w kontekście istotnych metadanych. Metadane pozwalają na większe wykorzystanie WGS w rutynowym nadzorze epidemiologicznym, w tym w dochodzeniach epidemiologicznych. Umożliwiają szybsze i skuteczne wykrywanie źródeł zakażenia ognisk epidemicznych, a także opracowanie programów prewencyjnych dostosowanych do aktualnych potrzeb, aby zmniejszyć ryzyko takich zdarzeń w przyszłości.

W ramach WP6 opracowane zostaną standardy metadanych na potrzeby nadzoru genomowego nad zachorowaniami i zakażeniami wywołanymi SARS-CoV-2, wirusami grypy A i B, RSV oraz bakteriami z rodzajów Salmonella, Campylobacter i Escherichia. Standardy i zakresy metadanych muszą:

1. być dostosowane do konkretnych patogenów;
2. być zgodne z różnymi źródłami danych, z których są pobierane;
3. spełniać wymagania repozytorium platformy PLEpiSeq, na której planuje się późniejsze ich udostępnianie.

Zostaną też opracowane szablony prezentacji, dostosowane do poszczególnych patogenów, pozwalające na czytelne przedstawienie danych i analiz uzyskanych w ramach prowadzonego nadzoru genomowego. Odpowiednio zdefiniowany zestaw metadanych pozwoli na szybką analizę sytuacji epidemiologicznej w kraju, porównywanie danych z nadzoru genomowego w różnych populacjach i regionach geograficznych oraz ocenę zdarzenia pod kątem stanowienia zagrożenia transgranicznego.

Szybki rozwój technologii sekwencjonowania pełnogenomowego stanowi wyzwanie dla opracowywania protokołów optymalnie wykorzystujących ten potencjał i korzyści. Obecnie na rynku dostępne jest wiele różnych technologii, z których podstawowe i najszerzej stosowane w analizach mikrobiologicznych to platformy firmy Illumina i Oxford Nanopore, rzadziej również PacBio czy IonTorrent. Urządzenia firmy Illumina generują miliony krótkich odczytów (2 x 150 nt) cechujących się wysoką jakością odczytu (średnia wartość Q > 30), zróżnicowaną przepustowością zależną od stosowanego urządzenia oraz dostępnością wielu zestawów do konstrukcji bibliotek, także wytwarzanych przez niezależnych producentów. W zależności od stosowanych odczynników możliwa jest przynajmniej częściowa automatyzacja wieloetapowego i skomplikowanego procesu konstrukcji bibliotek. Odmienne cechy posiada sekwencjonowanie opracowane przez firmę Oxford Nanopore, podczas którego możliwe jest generowanie bardzo długich odczytów, jednakże o niższej jakości odczytu (obecnie średnia wartość Q w okolicach 20). Protokół konstrukcji bibliotek do sekwencjonowania nanoporowego, w zależności od stosowanej chemii, może być tańszy i mniej pracochłonny niż w przypadku sekwencjonowania na platformie Illumina.

Sekwencjonowanie patogenów wirusowych nie wykorzystuje strategii sekwencjonowania pełnogenomowego sensu stricto, lecz  określane jest sekwencjonowaniem amplikonowym. W związku z tym konieczne jest przeprowadzenie wstępnego etapu amplifikacji genomu wirusa, które powinno generować amplikony pokrywające możliwie cały genom wirusa. W zależności od wielkości i struktury genomu wirusa można stosować jedną pulę starterów (jak w przypadku wirusów grypy) lub też dwie pule starterów generujących zachodzące na siebie amplikony (jak w przypadku wirusa SARS-CoV-2). Dodatkowym utrudnieniem są stale pojawiające się nowe mutacje i nowe warianty wirusów, które wymuszają ciągłe monitorowanie sytuacji, modyfikowanie stosowanej puli starterów i czasem ponowne optymalizowanie warunków reakcji amplifikacji. Dostępne są również różne zestawy odczynników komercyjnych różniące się strategią syntezy amplikonów i dołączaniem odpowiednich indeksów, co przekłada się m.in. na różną możliwość kwantyfikacji i pulowania próbek, różnice w pracochłonności protokołu, kosztach czy ilości zużywanych odczynników i plastików laboratoryjnych.

W przypadku patogenów bakteryjnych możliwość ich prostej hodowli umożliwia stosowanie strategii bezpośredniego sekwencjonowania pełnogenomowego, gdyż tak uzyskiwany izolat DNA teoretycznie nie posiada żadnych zanieczyszczeń innymi organizmami. Dobór odpowiedniej technologii sekwencjonowania oraz chemii do konstrukcji bibliotek powinien jednak uwzględniać odmienne cechy genomu bakteryjnego czyli jego wielkość, zróżnicowanie, obecność bardzo istotnego genomu akcesoryjnego czy różnego rodzaju genetycznych elementów mobilnych.

Docelowo program do analizy danych genomowych będzie miał strukturę modułową. Dzięki temu łatwiejsze będzie dostosowanie jego funkcjonalności do specyficznych analiz wybranych dla poszczególnych patogenów. Główne planowane w projekcie moduły to:

1. Moduł do analizy jakości danych sekwencyjnych. Podstawową funkcją tego modułu jest przygotowanie surowych danych do dalszych analiz. W pierwszym kroku zbadamy występowanie w próbce zanieczyszczeń obcym materiałem genetycznym. W tym celu wykorzystamy, oparty o analizę k-merów, program Kraken2 oraz, oparty o identyfikację markerów genetycznych, program MetaPhlan4. Poza stwierdzeniem czy w próbce znaleziono niepożądany materiał genetyczny, możliwe będzie również stwierdzenie, czy poprawnie przeprowadzono przygotowania próbki do sekwencjonowania na etapie amplifikacji materiału z wykorzystaniem PCR-u jeśli taki krok w procedurze eksperymentalnej występuje. Moduł ten przeprowadza również typowe filtrowanie plików w formacie fastq jak: (I) usuwanie niesparowanych odczytów dla próbek zsekwencjonowanych w technologii „pair-end”, (II) usuwanie nukleotydów o niskiej jakości, (III) usuwanie sekwencji adapterowych z odczytów, (IV) usuwanie zbyt krótkich odczytów.

2. Moduł do przewidywania pełno genomowej sekwencji analizowanego organizmu. W ramach projektu wdrożona zostanie analiza następujących organizmów: wirusów SARS-CoV-2, grypy typu A i B, RSV, oraz bakterii z rodzajów Salmonella oraz Escherichia. Pomimo pozornej małej liczby organizmów, analiza danych z sekwencjonowania WGS dla każdego z nich, niesie za sobą unikalne wymagania. W przypadku wirusów standardową stosowaną przez nas techniką jest mapowanie odczytów na genom referencyjny, podczas gdy w przypadku bakterii, z powodu dużej plastyczności genomu wynikającej z obecności plazmidów i innych elementów mobilnych, preferowaną przez nas opcją jest składanie genomu de novo. Jednocześnie w ramach modułu uwzględniamy specyficzne aspekty  przygotowania próbki do sekwencjonowania. Dla przykładu, materiał genetyczny wirusa SARS-CoV-2 podlega przed sekwencjonowaniem amplifikacji, a w wyniku tego procesu powstają zachodzące na siebie amplikony. W przypadku sekwencjonowania wirusa grypy amplikony są natomiast niezachodzące i jednocześnie odpowiadają segmentom na jaki podzielony jest genom tego wirusa. Dodatkową komplikacją, wynikającą z wysokiego tempa ewolucji wirusa SARS-CoV-2 jest częsta modyfikacja sekwencji primerów używanych do PCR-u. Wymusza to przygotowanie programu, który będzie działał w różnych konfiguracjach w zależności od zastosowanego protokołu eksperymentalnego. W ramach tego modułu obok samej sekwencji analizowanego organizmu tworzone są również podstawowe statystyki jakościowe takie jak średnie pokrycie, rozkład jakości nukleotydów w odczytach, parametr N50, ilości contigów, estymacja wielkości genomu. Dzięki temu, po połączeniu z wynikami z modułu 1, użytkownik zyskuje świadomość dotyczącą jakości przeprowadzonych kroków eksperymentalnych.

3. Moduły specyficzne dla organizmu. Po uzyskaniu pełno genomowej sekwencji analizowanej próbki, przeprowadzamy analizy specyficzne dla każdego organizmu. Na przykład, dla wirusa SARS-CoV-2 określona zostanie (I) linia ewolucyjna na podstawie definicji dostępnych w ramach baz danych Pangolin oraz Nextclade, (II) sekwencja białkowa wszystkich białek kodowanych w genomie wirusa (III) funkcjonalny efekt zidentyfikowanych mutacji, (IV) prawdopodobieństwo infekcji próbki wirusem SARS-CoV-2 z innej linii ewolucyjnej, (V) które z primerów użytych w trakcie PCR miały suboptymalne użycie. W przypadku bakterii z rodzajów Salmonella głównym celem jest klasyfikacja typu bakterii z wykorzystaniem (I) antygenów O i H, (II) 7-genowej klasyfikacji opartej o sekwencję genów aroC, dnaN, hemD, hisD, purE, sucA oraz thrA, oraz (III) pełnej definicji core genome MLST opartej o analizę sekwencji wybranych 3002 loci. Ponadto dla tych bakterii zidentyfikujemy czy w ich genomie obecne są znane geny kodujące oporność na antybiotyki.

4. Moduł strukturalny. Celem tego modułu jest zaproponowanie pełno atomowych struktur wybranych białek z wykorzystaniem modelowania homologicznego. Struktury te posłużą do wizualizacji zidentyfikowanych w danej próbce mutacji, które zmieniają sekwencje kodujące białka. Procedura ta ma na celu ułatwić ocenę czy identyfikowane mutacje mają szanse wpływać na zdolność rozpoznawania przez wirusa organizmu infekowanego, lub mogą być skutkiem adaptacji wirusa w celu uniknięcia rozpoznania przez przeciwciała gospodarza, wytworzone na przykład po podaniu określonych szczepionek.

5. Analiza zbiorcza próbek. Celem tego modułu jest zbiorcza analiza większej ilości próbek zsekwencjonowanych niezależnie i przeanalizowanych w identyczny sposób z wykorzystaniem wyżej wymienionych modułów. Analiza filogenetyczna umożliwia zrozumienie powiązań ewolucyjnych między różnymi próbkami. Jednocześnie początkowo określona topologia uzyskanego drzewa obliczona wyłącznie z wykorzystaniem danych sekwencyjnych może być zmodyfikowana po inkorporacji danych czasowych i geograficznych o miejscu i czasie sekwencjonowania danej próbki. Dzięki temu możliwe będzie lepsze wnioskowanie na temat przyczyn, oraz dróg rozprzestrzeniania się danego wirusa lub bakterii w trakcie trwania epidemii

Implementacja technologii sekwencjonowania pełnogenomowego (WGS) na przestrzeni ostatnich lat w obszarze mikrobiologii stanowi niezwykle cenne narzędzie na potrzeby nadzoru epidemiologicznego nad chorobami zakaźnymi i zakażeniami, poszerzonej identyfikacji patogenów. Pozwala na precyzyjniejsze badania, określenie i monitorowanie wariantu genetycznego danego patogenu, szybsze wykrywanie źródła zakażeń, opracowywanie ognisk epidemicznych i w dalszej perspektywie wdrażanie odpowiednich działań zapobiegawczych. Należy jednak podkreślić, iż każdy etap, począwszy od laboratorium, po tzw. „obróbkę” uzyskanych surowych danych genomowych a w następstwie ich analizę i interpretację jest kluczowym dla wartości i jakości otrzymanych wyników. Dlatego też, jednym z celów projektu jest podnoszenie wiedzy i kompetencji pracowników instytucji zdrowia publicznego (mikrobiologów, epidemiologów) w obszarze epidemiologii molekularnej, genomiki mikroorganizmów, analiz danych epidemiczno-genomowych.

W ramach realizacji WP9 przeprowadzone zostaną szkolenia w trybie stacjonarnym oraz online, dedykowane mikrobiologom i epidemiologom będącym pracownikami Stacji Sanitarno-Epidemiologicznych. Obejmować będą one:

  • zajęcia praktyczne w laboratorium, dotyczące preparatyki analitycznej procesu sekwencjonowania, zapoznanie się z opracowanymi protokołami sekwencjonowania pełnogenomowego wybranych w projekcie patogenów (SARS-CoV-2, wirus grypy, RSV, pałeczki Salmonella, Campylobacter, VTEC)
  • zapoznanie użytkowników z funkcjonalnością platformy PLEpiSeq, zasad jej działania, użytkowania, dostępnych narzędzi bioinformatycznych, integracji danych genomowych oraz epidemiologicznych dotyczących badanej próbki
  • analizę jakości danych sekwencyjnych (średnie pokrycie, rozkład jakości nukleotydów w odczytach, parametr N50, ilości contigów, estymacja wielkości genomu)
  • zapoznanie się z analizami możliwymi do przeprowadzenia za pomocą dostępnych na platformie narzędzi bioinformatycznych (m.in. określanie wariantów genetycznych danego patogenu, identyfikacja serotypu, subtypów, określanie typu MLST, core genome MLST, analizy pokrewieństwa genetycznego etc.)
  • analizy, interpretacji wyników sekwencjonowania pełnogenomowego (WGS) i danych epidemiologicznych dla celów prowadzenia rutynowego nadzoru epidemiologicznego, identyfikacji i opracowywaniu ognisk zakażeń
  • określania potencjału chorobotwórczego patogenów (obecność określonych markerów genetycznych warunkujących wytwarzanie czynników, mechanizmów wirulencji) czy wykrywania genetycznej oporności na stosowane antybiotyki, leki przeciwwirusowe (w przypadku wirusa grypy) na podstawie uzyskanych danych
  • podstawowej wiedzy z zakresu genomiki mikroorganizmów, epidemiologii molekularnej na potrzeby pogłębionej diagnostyki mikrobiologicznej oraz nadzoru epidemiologicznego nad chorobami zakaźnymi i zakażeniami

Materiały szkoleniowe. Przygotowane w ramach realizacji projektu materiały edukacyjne zostaną umieszczone na platformie PLEpiSeq i udostępnione jej Użytkownikom co pozwoli na dostęp do fachowej wiedzy szerszemu gronu odbiorców.

System wsparcia Użytkowników – „PLEpiSeq Virtual Helpdesk”. Użytkownikom narzędzi zamieszczonych na platformie PLEpiSeq w zostanie udostępniony system wsparcia „PLEpiSeq Virtual Helpdesk”, pod którym będą mogli uzyskać pomoc w rozwiązywaniu problemów technicznych jak i merytorycznych.

Skip to content