Wykład 4 - theta.edu.pl

Transkrypt

Wykład 4 - theta.edu.pl
BIOINFORMATYKA
1. Wykład wstępny
2. Struktury danych w badaniach bioinformatycznych
3. Bazy danych: projektowanie i struktura
4. Bazy danych: projektowanie i struktura
5. Równowaga Hardyego-Weinberga, współczynnik rekombinacji
6. Analiza asocjacyjna
7. Analiza asocjacyjna
8. Funkcjonalna adnotacja genomu: KEGG
9. Funkcjonalna adnotacja genomu: GO
10. Symulacje komputerowe, jackknife, bootstrap
11. Monte Carlo Markov Models
12. Metody klasyfikacyjne
13. Wykład podsumowujący
14. Zastosowanie przykładowych programów do analizy danych
15. Zastosowanie przykładowych programów do analizy danych
WSTĘP
PRZYKŁADOWE NARZĘDZIA TWORZENIA BAZ DANYCH
•
Excel
 Filtry
 Poprawność danych
•
MySQL
 Tworzenie bazy danych
 Tworzenie tabel
 Operacje na kolumnach danych
 Wprowadzanie danych do bazy
 Wybieranie rekordów danych
Copyright ©2013 Joanna Szyda
EXCEL
Copyright ©2013 Joanna Szyda
ZBIÓR DANYCH
Copyright ©2015 Joanna Szyda
ZBIÓR DANYCH
family ID individual ID ID of Father {0ID= of
notMother
in pedigree}
{0sex
= not in pedigree}
Age (at interview)
Ethnicity
{No{0=No
Info
alcohol
=Info;1=American
0} dependence
Age of Onset
{0
Indian;2=Asian;3=Pacific
=Maximum
No Info : number
1(#
= packs
"Pure
of Unaffected"
per
drinks
Islander;4=B
dayinfor
a 24
1: 2ye
h
10084
10000089
10000526
10000031 F
30
6
5
16
24
17
10084
10000758
10000526
10000031 F
31
6
5
30
12
16
10084
10001094
0
0M
0
0
0
0
-9
-9
10084
10000133
10001094
10000758 M
18
6
3
0
18
0.45
10084
10001039
10000526
10000031 M
28
6
5
16
40
0
10084
10000194
10000526
10000031 F
24
6
3
0
20
8
10084
10000526
0
0M
60
6
5
38
24
42
10084
10000031
0
0F
60
6
3
0
7
58.5
10130
10001565
10001436
10001364 F
38
6
5
18
75
30
10130
10000919
10001436
10001364 M
40
6
5
33
48
0
10130
10000299
10001436
10001364 F
32
6
5
17
36
32
10130
10000489
10001436
10001364 M
27
6
3
0
12
0
10130
10001436
0
0M
62
6
3
0
10
42
10130
10001364
0
0F
61
6
1
0
5
0.125
10038
10000572
10001250
10001511 F
28
6
5
15
48
12
10038
10000272
10001250
10001511 M
26
6
3
0
10
0
10038
10001295
10001250
10001511 F
25
6
1
0
3
0
10038
10000598
10001250
10001511 M
22
6
5
15
71
12
10038
10001250
0
0M
68
6
3
0
10
0
10038
10001511
0
0F
52
6
3
0
14
31
10006
10000264
10000130
10000650 M
34
6
5
16
26
0
10006
10000025
10000130
10000650 M
35
6
5
18
36
13
10006
10000707
10000130
10000650 M
26
6
5
20
15
6
10006
10001405
10000130
10000650 F
28
6
5
23
10
0
10006
10000130
0
0M
58
6
5
30
24
-9
10006
10000650
0
0F
59
6
1
0
3
0
10027
10000398
0
0M
58
6
5
24
42
41
N=1 615
Copyright ©2015 Joanna Szyda
EXCEL
1.
2.
3.
4.
Otworzyć dane gawdata.txt w notatniku
Otworzyć w Excelu (rozdzielane spacjami / importować wybrane kolumny)
Utworzyć prostą bazę danych
•
Nadać nazwy kolumn
•
W kolejnym arkuszu opisać nazwy kolumn = utworzyć dokumentację
•
Przekodować brakujące dane (znajdź - zamień)
•
Zaznaczyć kolorem wybrane dane (formatowanie warunkowe)
•
Filtry
o Ustawić filtr dla kolumny z płcią
o Zaznacz dane -> Dane-filtruj
o Przykładowe filtry tekstu np. kobiety
o Ustawić filtr dla kolumny z liczba drinków
o Przykładowe filtry liczbowe np. powyżej średniej
o Filtr zaawansowany (kombinacje filtrów dla jednej kolumny)
•
Zdefiniować poprawność danych przy wpisywaniu
o Zdefiniować kontrolę poprawności: Dane-poprawność np. granice
wieku - wykorzystanie opcji "pełna liczba między"; smoking status
- "wykorzystanie listy", lista, zakreśl niepoprawne dane
o Wprowadzić próbne dane: poprawne i niepoprawne
Utworzyć tabelę przestawną i raport danych
Copyright ©2015 Joanna Szyda
MySql: darmowa dystrybucja
http://dev.mysql.com/downloads
Copyright ©2013 Joanna Szyda
TWORZENIE BAZY DANYCH
1. Create database alcohol;
2. Create database bioinfo;
3. Show databases ;
4. Drop database bioinfo;
Copyright ©2013 Joanna Szyda
TWORZENIE TABEL
1. Use alcohol ;
2. Create table drinks (family int , father int, mother int, sex
char(1), age int, maxdrink int, cigarets int) ;
3. Desc drinks ;
4. Create table tmp (nr varchar(14));
5. Show tables ;
6. Drop table tmp ;
Copyright ©2013 Joanna Szyda
OPERACJE NA KOLUMNACH DANYCH
1. Alter table drinks add column age int ;
2. Alter table drinks drop column age ;
Copyright ©2013 Joanna Szyda
WPROWADZANIE DANYCH DO BAZY
1. Load data infile
→ ‘/home/szyda/PAKIETY/gaw.txt’
→ into table drinks
→ fields terminated by ‘ \t’ ;
2. Insert into drinks set nr=42, sex='M' ;
Copyright ©2013 Joanna Szyda
WYBIERANIE REKORDÓW DANYCH
1. Select * from drinks;
2. Select * from drinks where sex=‘M’ ;
3. Select * from drinks where maxdrink>50 ;
Copyright ©2013 Joanna Szyda
PODSTAWOWE OBLICZENIA
1. Select avg(ageint) from drinks;
2. Select avg(ageint) from drinks group by sex ;
3. Select sex, avg(ageint) from drinks group by sex ;
Copyright ©2016 Joanna Szyda
•
Excel
 Filtry
 Poprawność danych
•
MySQL
 Tworzenie bazy danych
 Tworzenie tabel
 Operacje na kolumnach danych
 Wprowadzanie danych do bazy
 Wybieranie rekordów danych
Copyright ©2013 Joanna Szyda