Załącznik do OPZ nr 9 - Centrum Onkologii
Transkrypt
Załącznik do OPZ nr 9 - Centrum Onkologii
Załącznik do OPZ nr 9 OPROGRAMOWANIE STATYSTYCZNE DO ANALIZ MOLEKULARNYCH Oprogramowanie statystyczne do analiz molekularnych powinno umożliwiać wykonywanie następujących operacji: Import danych z różnych formatów, w tym: · · · · Plików tekstowych zawierających zliczenia, nasycenie, genotypy, SAM lub BAM oraz wariantów w plikach VCF, Illumina BeadStudio Expression lub GenomeStudio Expression, SNP, liczba kopii, Pliki Affymetrix CEL i CHP, jak również pliki BAR, LOHCHP, CNCHP, CNAT, Cytogenetyczne pliki CEL i CHP, · GenePix, QuantArray oraz pliki Agilentu dla macierzy jednokolorowych idwukolorowych, · Pliki Excela i pliki tekstowe, w których poszczególne wpisy są oddzielane przecinkami (comaseparated), w tym formaty z platform NimbleGen. Program powinien zapewniać elastyczne sposoby prowadzenia analiz dla nowych i doświadczonych użytkowników w tym: · Dla badania ekspresji genów i egzonów, sekwencjonowania RNA, badania liczby kopii oraz mapowania powiązań, · Dla badania związków fenotypu z występowaniem rzadkich wariantów, Program powinien zapewniać mechanizm do budowy przez użytkownika własnych ciągów analiz. W zakresie sekwencjonowania nowej generacji program musi: · Normalizować i analizować różnymi sposobami: odczyty na poziomie egzonu, tran skryptu i genu, · Oceniać wyniki sekwencjonowania RNA za pomocą gotowych ciągów analiz wybieranych za pomocą kliknięcia, · Testować związki pomiędzy cechami i rzadkimi lub powszechnymi wariantami, · Przeprowadzać analizy korelacji krzyżowej prowadzące do ustalenia związków pomiędzy sekwencją, a innymi pomiarami dotyczącymi genomu. W zakresie oceny pełnego genomu program powinien umożliwiać: · Ocenę wzorów brakujących danych na poziomie próbki oraz na poziomie konkretnego markera, · Podsumowywać własności markera w tym, częstość konkretnych alleli i genotypów, HWE, heterozygotyczność, · Filtrowanie zbiorów danych na podstawie markerów lub testowanych cech, · Wykonywanie analiz PCA lub MDS dla obrazowania rozkładu danych i struktury populacji, · Badanie związków z jedną lub większą liczbą cech ilościowych lub binarnych, · Obliczanie interakcji i korekta w zakresie zmiennych zależnych, · Testowanie związków z wykorzystaniem przypisanych danych SNP, · Obliczanie i wizualizacja bloków sprzężeń, · Przeprowadzanie meta-analiz „GWAS” z wykorzystaniem wartości P. W zakresie badania markerów program powinien: · Umożliwiać korekty testów asocjacji ze względu na powiązania i strukturę, Centrum Onkologii – Instytut im. Marii Skłodowskiej-Curie ul. Roentgena 5 02-781 Warszawa ONKO.SYS Kompleksowa infrastruktura informatyczna dla badań nad nowotworami P O I G . 0 2. 0 3. 00- 1 4- 0 84/ 1 3 www.onkosys.pl [email protected]; [email protected] tel. 22 546 24 69, 22 546 22 56 fax: 22 546 31 74 1 · Identyfikować regiony genomu, · Obliczać IBD, IBS oraz wzory zależności determinowane identycznymi allelami, · Badanie relacji pokrewieństwa pomiędzy osobnikami i populacjami, · Poszukiwać grupy wariantów SNP w obrębie danego locus lub ścieżki, · Badać związki pomiędzy rzadkimi wariantami, analiza z opcjami permutacji, · Oceniać haplotypy i związki pomiędzy cechami haplotypów, · Selekcjonować haplotypy tagSNP lub LD tagSNP, W zakresie aplikacji wyników badań wielkoskalowych badań genomu w praktyce klinicznej oprogramowanie musi: · Wykonywać analizy asocjacyjne całego genomu w kontekście wyników klinicznych, · Identyfikować molekularne markery dla przewidywania przeżycia, · Stosować modelowanie predykcji w oparciu o walidację krzyżową oraz krzywe uczące do optymalizacji profili biomarkerów, · Integrować analizę markerów molekularnych z badaniem skuteczności klinicznej i bezpieczeństwa leków terapii celowanej, · Umożliwiać analizę podgrup dla maksymalizacji wyników leczenia, W zakresie oceny jakości wyników wielkoskalowych analiz ekspresji genów oprogramowanie musi: · Identyfikować dane o niepewnej jakości i umożliwiać usuwanie wartości odstających, · Identyfikować czynniki powodujące wysoką zmienność wyników w analizowanej grupie danych, · Obrazować rozkład danych, analizę PCA oraz grupowanie próbek, · Normalizować próbki pomiędzy sobą, · Usuwać efekty serii wynikające z przyczyn technicznych, · Korygować rozkład zliczeń za pomocą TMM i KDMM, · Normalizować wyniki metodami: loess, kwantylową, RMA, GCRMA. Program powinien zapewniać metody modelowania statystycznego umożliwiające: · Identyfikację istotnych różnic za pomocą ANOVA oraz modeli liniowych. · Korekcję dla zmiennych zależnych i efektów przypadkowych · Stosowanie wielu sposobów korekty · Nadzorowaną analizę przeżycia · Poszukiwanie ekspresji typowej dla określonych alleli · Obrazowanie profili ekspresji dla określonej próbki lub grupy z możliwością dynamicznego doboru i filtrowania danych · Wykonywanie klasteryzacji hierarchicznej i klasteryzacji „K-means” Program powinien zapewniać zaawansowane narzędzia umożliwiające · Identyfikację markerów predykcyjnych na podstawie różnego typu np.: mikromacierzowych ekspresyjnych i genotypujących, spektrometrii mas, · Podczas modelowania – filtrowanie markerów predykcyjnych na podstawie kryteriów ustalanych przez użytkownika, · Wskazywanie kluczowych klas i zmiennych, · Porównywanie wydajności wielu różnych metod, · Walidację krzyżową z dowolnym podziałem na zbiór uczący i testowy, · Analizę krzywych w celu oceny wpływu wielkości próbki. W zakresie badania liczby kopii program powinien umożliwiać: · Ocenę jakości danych za pomocą analizy głównych składowych (PCA) i analizy dystrybucji, · Korygowanie pomiarów liczby kopii z użyciem kontroli w parach i w grupie, Centrum Onkologii – Instytut im. Marii Skłodowskiej-Curie ul. Roentgena 5 02-781 Warszawa ONKO.SYS Kompleksowa infrastruktura informatyczna dla badań nad nowotworami P O I G . 0 2. 0 3. 00- 1 4- 0 84/ 1 3 www.onkosys.pl [email protected]; [email protected] tel. 22 546 24 69, 22 546 22 56 fax: 22 546 31 74 2 · · Obrazować wspólne wzory utraty lub zwiększenia liczby kopii, Identyfikację regionów genomu istotnie różniących się pomiędzy grupami badanymi i kontrolnymi i istotnie różnych indywidualnie względem grupy kontrolnej. Program powinien umożliwiać: · Łączenie danych funkcjonalnych z wynikami statystycznymi, · Eksport i import danych do/z programu Ingenuity Pathways Analysis w zakresie SNP, list genów i białek, ścieżek, · Obrazowanie zestawów genów ścieżek KEGG, · Import anotacji i bibliotek Affymetrix NetAffx, · Tworzenie diagramów Venn’a do 5 grup wyników. Program powinien umożliwiać tworzenie obrazów genomu pozwalających na: · Prezentację chromosomów z użyciem kolorów wybieranych przez użytkownika, · Porównywanie wielu doświadczeń dla identyfikacji wspólnych, istotnych regionów, · Pokazanie wybranych regionów pod kątem wartości p, genów znajdujących się w tym regionie oraz polimorfizmów pojedynczych nukleotydów (SNP), · Prezentowanie wyników w formie graficznej za pomocą kliknięcia, · Łatwe kopiowanie tworzonych grafów i wklejanie do plików Word i PowerPoint, · Program powinien współpracować z zewnętrznym środowiskiem analitycznym, w tym SAS i R. Interaktywna graficzna prezentacja danych, powinna zapewniać: · Tworzenie w trakcie analiz dynamicznych raportów, powiązanych z danymi, · Możliwość wyboru podgrupy danych za pomocą kliknięcia, · Możliwość przekształcania raportów dynamicznych w raporty statyczne. Centrum Onkologii – Instytut im. Marii Skłodowskiej-Curie ul. Roentgena 5 02-781 Warszawa ONKO.SYS Kompleksowa infrastruktura informatyczna dla badań nad nowotworami P O I G . 0 2. 0 3. 00- 1 4- 0 84/ 1 3 www.onkosys.pl [email protected]; [email protected] tel. 22 546 24 69, 22 546 22 56 fax: 22 546 31 74 3