PLEpiSeq
ang. „Towards the National Platform for Genomic Surveillance”
Projekt PLEpiSeq obejmuje 9 działań (WP1-9) z czego cztery mają charakter zarządczo-promocyjny (WP1-4). Natomiast w ramach działań WP5-9 realizowane są główne cele i założenia projektu istotne dla finalnych odbiorców projektu:
Głównymi celem obszaru WP5 jest rozbudowa oprogramowania HERA wytworzonego w ramach grantu Grant/2021/PHF/23776.
W ramach obszaru WP5 możemy wymienić 4 główne obszary prac:
– rozbudowa modułu przechowywania danych (dane o próbkach, wyniki badań, wyniki sekwencjonowania) o inne patogeny niż SARS-Cov2
– rozbudowa interfejsów API (o kolejne patogeny) służących do wymiany informacji pomiędzy systemami trzecimi, a modułem przechowywania danych
– wytworzenie interfejsu użytkownika (GUI) w technologii WWW służącego użytkownikom merytorycznym w dostępie do gromadzonych danych w systemie
– wytworzenie modułu raportowania, odpowiedzialnego za generację raportów i zestawień dla różnych grup docelowych (użytkownicy systemu, użytkownicy zewnętrzni, pracownicy NIZP PZH-PIB itp.)
Metadane na potrzeby nadzoru genomowego to dane opisujące przypadek zachorowania lub zakażenia, z uwzględnieniem właściwego opisu próbek pobranych od osoby chorej lub zakażonej oraz ewentualnie próbek powiązanych z danym zachorowaniem lub zdarzeniem.
Metadane dotyczące zachorowania lub zakażenia mogą obejmować wszelkie istotne informacje demograficzne, epidemiologiczne i kliniczne dotyczące danej osoby. Wiek chorego, miejsce zachorowania, informacja o czynnikach ryzyka, statusie szczepienia, czy data pobrania próbki do badania to klasyczny przykład metadanych. Natomiast próbka do sekwencjonowania pełnogenomowego powinna zostać opisana poprzez dodatkowe dane, które określają jej rodzaj, parametry jakościowe oraz inne cechy, w tym fenotypową charakterystykę patogenu.
Wyniki sekwencjonowania pełnogenomowego (WGS) patogenów należy analizować i interpretować w kontekście istotnych metadanych. Metadane pozwalają na większe wykorzystanie WGS w rutynowym nadzorze epidemiologicznym, w tym w dochodzeniach epidemiologicznych. Umożliwiają szybsze i skuteczne wykrywanie źródeł zakażenia ognisk epidemicznych, a także opracowanie programów prewencyjnych dostosowanych do aktualnych potrzeb, aby zmniejszyć ryzyko takich zdarzeń w przyszłości.
W ramach WP6 opracowane zostaną standardy metadanych na potrzeby nadzoru genomowego nad zachorowaniami i zakażeniami wywołanymi SARS-CoV-2, wirusami grypy A i B, RSV oraz bakteriami z rodzajów Salmonella, Campylobacter i Escherichia. Standardy i zakresy metadanych muszą:
1. być dostosowane do konkretnych patogenów;
2. być zgodne z różnymi źródłami danych, z których są pobierane;
3. spełniać wymagania repozytorium platformy PLEpiSeq, na której planuje się późniejsze ich udostępnianie.
Zostaną też opracowane szablony prezentacji, dostosowane do poszczególnych patogenów, pozwalające na czytelne przedstawienie danych i analiz uzyskanych w ramach prowadzonego nadzoru genomowego. Odpowiednio zdefiniowany zestaw metadanych pozwoli na szybką analizę sytuacji epidemiologicznej w kraju, porównywanie danych z nadzoru genomowego w różnych populacjach i regionach geograficznych oraz ocenę zdarzenia pod kątem stanowienia zagrożenia transgranicznego.
Celem WP7 jest opracowanie, wdrożenie, optymalizacja protokołów sekwencjonowania pełnogenomowego wybranych w projekcie patogenów.
Klasyczne sekwencjonowanie pełnogenomowe, stosowane głównie w przypadku patogenów bakteryjnych, może być wykonywane przy użyciu różnych technologii, urządzeń oraz odczynników. Stosowane technologie wykorzystują zupełnie odmienne strategie odczytu czy prowadzenia reakcji sekwencjonowania i wymagają inaczej przygotowywanych bibliotek. Różnice te przekładają się także na jakość i ilość uzyskiwanych danych, koszty sekwencjonowania, skomplikowanie i pracochłonność protokołu czy przepustowość procesu.
W przypadku patogenów wirusowych mówimy już nie tyle o sekwencjonowaniu pełnogenomowym, co o sekwencjonowaniu amplikonowym. Oznacza to, że cały proces się jeszcze bardziej komplikuje przez potrzebę specyficznego powielenia kopii genomu wirusa obecnego w badanej próbce poprzez reakcję PCR. Genomy różnych wirusów mają jednak różne struktury i wielkości i reakcje amplifikacji powinny być dobrane do konkretnego wirusa, co dodatkowo utrudnia standaryzację całego procesu. Przykład wirusa SARS-CoV-2 pokazuje, że plastyczny genom wirusowy ulega ciągłym zmianom i mutacjom i raz opracowany i zoptymalizowany protokół może wymagać dalszych modyfikacji związanych z pojawieniem się nowych wariantów.
Celem, realizowanym w ramach WP8, jest przygotowanie oprogramowania umożliwiającego analizę danych z sekwencjonowania w celu ułatwienia nadzoru epidemiologicznego nad wybranymi patogenów.
Ostatnie lata to nie tylko istotny wzrost ilości eksperymentów w których wykorzystywane jest sekwencjonowanie pełnogenomowe (WGS), ale również pojawianie się nowych programów służącym do analizy takich danych. Ich efektywne użycie często wymaga specjalistycznej wiedzy aby zdefiniować parametry używanego algorytmu. W przypadku napotkania błędów wymagana może być znajomość konkretnego języka programowania, w którym program został napisany. Dodatkowo, poprawne zainstalowanie programu wymaga wcześniejszej instalacji poprawnej wersji konkretnych bibliotek. Nie bez znaczenia jest również posiadania wydajnego serwera obliczeniowego na którym można przeprowadzić często długotrwałe obliczenia. Ponadto, zawsze pojawia się dylemat, który z wielu programów najlepiej wykorzystać do analizy uzyskanych danych eksperymentalnych. Z tego powodu tak ważne jest opracowanie jednego, ustalonego schematu analizy danych, dostępnego dla wszystkich laboratoriów. Program wykorzystany do takiej analizy powinien charakteryzować się łatwością użycia, co.umożliwi jego wykorzystanie przez szersze grono odbiorców.
Na podstawie danych literaturowych, oraz rekomendacji ECDC wybrany zostanie optymalny zestaw narzędzi które zostaną następnie zaimplementowane w ramach głównego programu. Wykorzystanie konteneryzacji umożliwi użycie naszych narzędzi na dowolnym komputerze z zachowaniem pełnej odtwarzalności wyników. Testy z wykorzystaniem publicznych i wygenerowanych w ramach grantu danych NGS umożliwią wybór zestawu najlepszych parametrów dla użytych algorytmów. Dzięki temu nawet mniej doświadczony użytkownik będzie miał pewność uzyskania wyników o najwyższej jakości. Jednocześnie osoby z doświadczeniem w analizie danych WSG zachowają możliwość modyfikacji zaawansowanych opcji programu w ramach dostosowania go do ich indywidualnych potrzeb. Kod źródłowy zostanie udostępniony poprzez publiczne repozytoria kodu.
Wytworzone oprogramowanie będzie skrojone pod potrzeby analiz mikrobiologicznych i epidemiologicznych specyficznych dla wybranych patogenów. Dla każdego patogenu zawsze dostępna będzie podstawowa informacja jaką jest sekwencja jego genomu. Przykładem informacji dostępnej dla konkretnego patogenu jest oporność danego szczepu wirusa grypy na jeden ze stosowanych obecnie leków antywirusowych t.j. oseltamivir, zanamivir, peramivir, laninamivir lub balamivir. Poza wynikami otrzymanymi z analizy pojedynczych próbek, zaimplementujemy metody analizy zbiorczej jak analiza filogenetyczna. Umożliwi ona identyfikację ewolucyjnych powiązań między analizowanymi wirusami lub bakteriami, co przyśpieszy identyfikację ognisk epidemiologicznych danego patogenu.
Głównym celem WP9 jest przeprowadzenie szkoleń z zakresu funkcjonalności narzędzi analitycznych, w tym bioinformatycznych, dostępnych na platformie PLEpiSeq dla jej docelowych użytkowników. Poprzez udostępnione materiały edukacyjne oraz przeprowadzone warsztaty szkoleniowe (w trybie stacjonarnym oraz online) uczestnicy uzyskają wiedzę na temat:
- ogólnych informacji dotyczących sekwencjonowania pełnogenomowego oraz jego zastosowania w nowoczesnej epidemiologii molekularnej
- funkcjonalności platformy PLEpiSeq, w tym zasad jej działania, użytkowania, dostępnych narzędzi bioinformatycznych, integracji danych epidemiczno-genomowych
- protokołów sekwencjonowania pełnogenomowego wybranych w projekcie patogenów
- analiz bioinformatycznych, możliwych do przeprowadzenia za pomocą dostępnych na platformie narzędzi
- analizy, interpretacji wyników sekwencjonowania pełnogenomowego (WGS) wraz z danymi epidemiologicznymi dla celów prowadzenia rutynowego nadzoru epidemiologicznego, identyfikacji i opracowywaniu ognisk zakażeń
- określania potencjału chorobotwórczego wybranych patogenów, oporności na stosowane antybiotyki, leki przeciwirusowe na podstawie uzyskanych danych
- podstawowej wiedzy z zakresu genomiki mikroorganizmów, epidemiologii molekularnej na potrzeby nadzoru epidemiologicznego nad chorobami zakaźnymi i zakażeniami
Ponadto, użytkownikom systemu PLEpiSeq w trakcie trwania projektu zostanie udostępniony system wsparcia „PLEpiSeq Virtual Helpdesk”, pod którym będą mogli uzyskać pomoc w rozwiązywaniu problemów technicznych jak i merytorycznych.