Załącznik do OPZ nr 9 - Centrum Onkologii

Transkrypt

Załącznik do OPZ nr 9 - Centrum Onkologii
Załącznik do OPZ nr 9
OPROGRAMOWANIE STATYSTYCZNE DO ANALIZ MOLEKULARNYCH
Oprogramowanie statystyczne do analiz molekularnych powinno umożliwiać wykonywanie
następujących operacji:
Import danych z różnych formatów, w tym:
·
·
·
·
Plików tekstowych zawierających zliczenia, nasycenie, genotypy,
SAM lub BAM oraz wariantów w plikach VCF,
Illumina BeadStudio Expression lub GenomeStudio Expression, SNP, liczba kopii,
Pliki Affymetrix CEL i CHP, jak również pliki BAR, LOHCHP, CNCHP, CNAT, Cytogenetyczne pliki
CEL i CHP,
· GenePix, QuantArray oraz pliki Agilentu dla macierzy jednokolorowych idwukolorowych,
· Pliki Excela i pliki tekstowe, w których poszczególne wpisy są oddzielane przecinkami (comaseparated), w tym formaty z platform NimbleGen.
Program powinien zapewniać elastyczne sposoby prowadzenia analiz dla nowych i doświadczonych
użytkowników w tym:
· Dla badania ekspresji genów i egzonów, sekwencjonowania RNA, badania liczby kopii oraz
mapowania powiązań,
· Dla badania związków fenotypu z występowaniem rzadkich wariantów,
Program powinien zapewniać mechanizm do budowy przez użytkownika własnych ciągów analiz.
W zakresie sekwencjonowania nowej generacji program musi:
· Normalizować i analizować różnymi sposobami: odczyty na poziomie egzonu, tran skryptu
i genu,
· Oceniać wyniki sekwencjonowania RNA za pomocą gotowych ciągów analiz wybieranych za
pomocą kliknięcia,
· Testować związki pomiędzy cechami i rzadkimi lub powszechnymi wariantami,
· Przeprowadzać analizy korelacji krzyżowej prowadzące do ustalenia związków pomiędzy
sekwencją, a innymi pomiarami dotyczącymi genomu.
W zakresie oceny pełnego genomu program powinien umożliwiać:
· Ocenę wzorów brakujących danych na poziomie próbki oraz na poziomie konkretnego
markera,
· Podsumowywać własności markera w tym, częstość konkretnych alleli i genotypów, HWE,
heterozygotyczność,
· Filtrowanie zbiorów danych na podstawie markerów lub testowanych cech,
· Wykonywanie analiz PCA lub MDS dla obrazowania rozkładu danych i struktury populacji,
· Badanie związków z jedną lub większą liczbą cech ilościowych lub binarnych,
· Obliczanie interakcji i korekta w zakresie zmiennych zależnych,
· Testowanie związków z wykorzystaniem przypisanych danych SNP,
· Obliczanie i wizualizacja bloków sprzężeń,
· Przeprowadzanie meta-analiz „GWAS” z wykorzystaniem wartości P.
W zakresie badania markerów program powinien:
· Umożliwiać korekty testów asocjacji ze względu na powiązania i strukturę,
Centrum Onkologii – Instytut
im. Marii Skłodowskiej-Curie
ul. Roentgena 5
02-781 Warszawa
ONKO.SYS
Kompleksowa infrastruktura informatyczna
dla badań nad nowotworami
P O I G . 0 2. 0 3. 00- 1 4- 0 84/ 1 3
www.onkosys.pl
[email protected]; [email protected]
tel. 22 546 24 69, 22 546 22 56
fax: 22 546 31 74
1
· Identyfikować regiony genomu,
· Obliczać IBD, IBS oraz wzory zależności determinowane identycznymi allelami,
· Badanie relacji pokrewieństwa pomiędzy osobnikami i populacjami,
· Poszukiwać grupy wariantów SNP w obrębie danego locus lub ścieżki,
· Badać związki pomiędzy rzadkimi wariantami, analiza z opcjami permutacji,
· Oceniać haplotypy i związki pomiędzy cechami haplotypów,
· Selekcjonować haplotypy tagSNP lub LD tagSNP,
W zakresie aplikacji wyników badań wielkoskalowych badań genomu w praktyce klinicznej
oprogramowanie musi:
· Wykonywać analizy asocjacyjne całego genomu w kontekście wyników klinicznych,
· Identyfikować molekularne markery dla przewidywania przeżycia,
· Stosować modelowanie predykcji w oparciu o walidację krzyżową oraz krzywe uczące do
optymalizacji profili biomarkerów,
· Integrować analizę markerów molekularnych z badaniem skuteczności klinicznej
i bezpieczeństwa leków terapii celowanej,
· Umożliwiać analizę podgrup dla maksymalizacji wyników leczenia,
W zakresie oceny jakości wyników wielkoskalowych analiz ekspresji genów oprogramowanie musi:
· Identyfikować dane o niepewnej jakości i umożliwiać usuwanie wartości odstających,
· Identyfikować czynniki powodujące wysoką zmienność wyników w analizowanej grupie
danych,
· Obrazować rozkład danych, analizę PCA oraz grupowanie próbek,
· Normalizować próbki pomiędzy sobą,
· Usuwać efekty serii wynikające z przyczyn technicznych,
· Korygować rozkład zliczeń za pomocą TMM i KDMM,
· Normalizować wyniki metodami: loess, kwantylową, RMA, GCRMA.
Program powinien zapewniać metody modelowania statystycznego umożliwiające:
· Identyfikację istotnych różnic za pomocą ANOVA oraz modeli liniowych.
· Korekcję dla zmiennych zależnych i efektów przypadkowych
· Stosowanie wielu sposobów korekty
· Nadzorowaną analizę przeżycia
· Poszukiwanie ekspresji typowej dla określonych alleli
· Obrazowanie profili ekspresji dla określonej próbki lub grupy z możliwością dynamicznego
doboru i filtrowania danych
· Wykonywanie klasteryzacji hierarchicznej i klasteryzacji „K-means”
Program powinien zapewniać zaawansowane narzędzia umożliwiające
· Identyfikację markerów predykcyjnych na podstawie różnego typu np.: mikromacierzowych
ekspresyjnych i genotypujących, spektrometrii mas,
· Podczas modelowania – filtrowanie markerów predykcyjnych na podstawie kryteriów
ustalanych przez użytkownika,
· Wskazywanie kluczowych klas i zmiennych,
· Porównywanie wydajności wielu różnych metod,
· Walidację krzyżową z dowolnym podziałem na zbiór uczący i testowy,
· Analizę krzywych w celu oceny wpływu wielkości próbki.
W zakresie badania liczby kopii program powinien umożliwiać:
· Ocenę jakości danych za pomocą analizy głównych składowych (PCA) i analizy dystrybucji,
· Korygowanie pomiarów liczby kopii z użyciem kontroli w parach i w grupie,
Centrum Onkologii – Instytut
im. Marii Skłodowskiej-Curie
ul. Roentgena 5
02-781 Warszawa
ONKO.SYS
Kompleksowa infrastruktura informatyczna
dla badań nad nowotworami
P O I G . 0 2. 0 3. 00- 1 4- 0 84/ 1 3
www.onkosys.pl
[email protected]; [email protected]
tel. 22 546 24 69, 22 546 22 56
fax: 22 546 31 74
2
·
·
Obrazować wspólne wzory utraty lub zwiększenia liczby kopii,
Identyfikację regionów genomu istotnie różniących się pomiędzy grupami badanymi
i kontrolnymi i istotnie różnych indywidualnie względem grupy kontrolnej.
Program powinien umożliwiać:
· Łączenie danych funkcjonalnych z wynikami statystycznymi,
· Eksport i import danych do/z programu Ingenuity Pathways Analysis w zakresie SNP, list
genów i białek, ścieżek,
· Obrazowanie zestawów genów ścieżek KEGG,
· Import anotacji i bibliotek Affymetrix NetAffx,
· Tworzenie diagramów Venn’a do 5 grup wyników.
Program powinien umożliwiać tworzenie obrazów genomu pozwalających na:
· Prezentację chromosomów z użyciem kolorów wybieranych przez użytkownika,
· Porównywanie wielu doświadczeń dla identyfikacji wspólnych, istotnych regionów,
· Pokazanie wybranych regionów pod kątem wartości p, genów znajdujących się w tym
regionie oraz polimorfizmów pojedynczych nukleotydów (SNP),
· Prezentowanie wyników w formie graficznej za pomocą kliknięcia,
· Łatwe kopiowanie tworzonych grafów i wklejanie do plików Word i PowerPoint,
· Program powinien współpracować z zewnętrznym środowiskiem analitycznym, w tym SAS
i R.
Interaktywna graficzna prezentacja danych, powinna zapewniać:
· Tworzenie w trakcie analiz dynamicznych raportów, powiązanych z danymi,
· Możliwość wyboru podgrupy danych za pomocą kliknięcia,
· Możliwość przekształcania raportów dynamicznych w raporty statyczne.
Centrum Onkologii – Instytut
im. Marii Skłodowskiej-Curie
ul. Roentgena 5
02-781 Warszawa
ONKO.SYS
Kompleksowa infrastruktura informatyczna
dla badań nad nowotworami
P O I G . 0 2. 0 3. 00- 1 4- 0 84/ 1 3
www.onkosys.pl
[email protected]; [email protected]
tel. 22 546 24 69, 22 546 22 56
fax: 22 546 31 74
3

Podobne dokumenty