wyszukiwanie informacji 1 - Komandor Jacek Staniec Home Page

Transkrypt

wyszukiwanie informacji 1 - Komandor Jacek Staniec Home Page
Jacek Staniec
Warszawa, listopad 2003
W Y S ZU K I W A N I E
INFORMACJI TEKSTOWEJ
============================================================================================
STATYSTYKA CZĘŚCIOWA I ZAPYTANIA DYZJUNKCYJNE
============================================================================================
Część pierwsza:
Wybierz dowolny rzeczywisty tekst w języku polskim (najchętniej gazetowy) o długości około 800-900 słów (nie mniej niż 750!). Przytocz go w całości, wraz z
odpowiednią notką bibliograficzną. Sporządź statystykę częstościową jak w Przykładzie 2.1.A z wykładu, dla pierwszych 60 słów/rdzeni co do częstości
wystąpień. Sporządź wykres częstości jak na Rys. 2.1. Następnie opracuj własną „stop-listę” oraz na tle krzywej częstości naszkicuj, według własnego uznania,
krzywą znaczenia słów z zaznaczeniem poszczególnych wyróżnionych słów. Skomentuj odstępstwa od schematu z Rys.2.1.
Tekst „Jesteś biedny...” o długości 1202 słów (646 słów rdzeni) przytoczony w całości na końcu niniejszego sprawozdania:
• źródło oryginału: The Washington Post,
• przedruk polski: Tygodnik Forum,
• autor: RICK WEISS,
• data publikacji: 02.09.2003.
Zanim analizowany tekst będzie mógł służyć do celów wyszukiwania informacji, konieczne jest wykonanie operacji wstępnych.
Jedną z takich operacji jest wybór rdzeni wyrazowych.
Przykładowe „wyłuskanie” rdzeni dla analizowanego tekstu
• genetyczne
1
• genetycznego
2
• genetycznej
1
• genetycznie
4
• genetycznych
2
• genetycznymi
1
Wspólny rdzeń „genetycz” występuje łącznie 11 razy. Dla potrzeb poniższej analizy skupiłem się jednak na fleksji językowej, nie
rozbierając słów na rzeczywiście istniejące rdzenie i przyjąłem, że dla powyższego przykładu fleksja słowa „genetyczne”
wystąpiła 11 razy. Dla poniższej analizy przykładowo słowa/rdzenie: „geny”, „genetyczne” i „genetyk” postanowiłem
subiektywnie uznać za trzy różne rdzenie. Statystyka częstościowa dla najczęściej występujących w analizowanym tekście 60
słów/rdzeni:
słowo/rdzeń
w
i
z
że
na
badanie
to
geny
środowisko
dzieci
jest
iq
nie
który
wpływ
genetyczne
wśród
się
być
inteligencja
biedny
rodzin
są
do
wyniki
ma
turkheimer
bliźniaki
program
znaczenie
od
częstość występowania
41
31
24
22
21
19
18
16
16
16
16
15
15
13
12
11
11
11
11
10
10
10
10
10
9
9
8
8
8
8
8
słowo/rdzeń
społeczny
przez
klasy
jak
test
ubogich
średnia
ale
socjoekonomiczny
mówi
lat
iż
często
bardzo
a
dziedziczenie
populacja
różnice
poziom
status
genetyk
przypadku
za
większość
tak
pomiędzy
o
niemal
ich
dla
ze
2
częstość występowania
7
7
7
7
6
6
6
6
5
5
5
5
5
5
5
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
3
Rysunek 1. Najczęściej występujące słowa/rdzenie w analizowanym tekście.
Wykres częstości występowania pierwszych 60 słów/rdzeni najczęściej występujących w analizowanym tekście:
70
50
30
10
-10 0
20
40
60
Rysunek 2. Krzywa częstości.
Dla potrzeb ćwiczenia wyróżniłem 24 słowa o istotnym (wg własnego subiektywnego odczucia) znaczeniu. Poniżej
przedstawione zostały słowa istotne na tle krzywej częstości.
70,00
50,00
30,00
10,00
-10,00 1
11
21
31
41
51
61
Rysunek 3. Krzywa częstości z zaznaczonymi słowami o istotnym znaczeniu.
70,00
70,00
50,00
50,00
30,00
30,00
10,00
10,00
-10,00 1
11
21
31
41
51
-10,00 1
61
11
21
31
41
51
61
Rysunek 4. Przykładowe linie trendu dla wybranych słów o istotnym znaczeniu.
Każdemu słowu o istotnym znaczeniu przyporządkowałem różnicującą to słowo wartość znaczenia (wg subiektywnej oceny).
słowo/rdzeń częstość znaczenie
słowo/rdzeń
częstość znaczenie
iq
15
50
społeczny
7
26
turkheimer
8
48
populacja
4
24
geny
16
46
ubogich
6
22
genetyczne
11
44
biedny
10
20
inteligencja
10
42
program
8
18
bliźniaki
8
40
różnice
4
16
dziedziczenie
4
38
znaczenie
8
12
test
6
36
socjoekonomiczny
5
10
8
badanie
19
34
średnia
6
środowisko
16
32
poziom
4
6
wpływ
12
30
status
4
4
dzieci
16
28
genetyk
4
2
Rysunek 5. Subiektywne znaczenia przypisane wybranym słowom/rdzeniom.
3
70
50
30
10
-10 1
11
21
31
41
51
61
Rysunek 6. Krzywa częstości ze zróżnicowanym znaczeniem istotnych słów rdzeni.
70
50
30
10
-10 1
11
21
31
41
51
61
Rysunek 7. Krzywa częstości z nałożoną manualnie, subiektywnie dobraną krzywą znaczenia.
Na przedstawionym wykresie z zaznaczoną krzywą znaczenia nie widać odstępstw od spodziewanego rezultatu. Subiektywnie
dobrana linia znaczenia bardzo dobrze oddaje spodziewaną linię rozkładu znaczeń słów, trochę gorzej rozkład ten oddają linie
trendu zaprezentowane na rysunku 4. Jednak wszystkie krzywe znaczenia prezentują jedną wspólną, istotną cechę: wyrazy
najczęściej występujące, to wyrazy niezbyt istotne (mało znaczące) dla analizy tekstu. Zanim statystyka będzie mogła służyć do
celów wyszukiwania informacji, konieczne jest usunięcie wszystkich takich mało znaczących słów (są to najczęściej spójniki,
rodzajniki, zaimki, partykuły, liczebniki), co oznacza konieczność opracowania specjalnej „stop-listy”, czyli listy słów, które
należy usunąć.
Stoplista (wg subiektywnej oceny) wygenerowana w oparciu o najczęściej występujące słowa/rdzenie.
stop lista
częstość
stop lista
częstość
w
41
przez
7
i
31
jak
7
z
24
ale
6
że
22
iż
5
na
21
często
5
to
18
bardzo
5
jest
16
a
5
nie
15
za
4
który
13
tak
4
wśród
11
pomiędzy
4
się
11
o
4
być
11
niemal
4
są
10
ich
4
do
10
dla
4
ma
9
ze
3
od
8
Rysunek 8. Subiektywnie dobrana stoplista dla analizowanego tekstu.
4
Część druga:
Załóż, że n/ni = 256 ∀i∈I i wyznacz wij dla czterech najczęstszych znaczących słów/rdzeni, a następnie Wj(Z) wg punktów 1.3.12 i 1.3.15 wykładu dla tego tekstu
jako dokumentu, dla trzech zaprojektowanych zapytań o charakterze dyzjunkcyjnej listy pięciu słów kluczowych, a mianowicie: Z1, w którym wystąpi tylko jedno
z czterech najczęstszych słów tego tekstu, a poza tym słowa w nim nie występujące, Z2 – w którym wystąpią dokładnie dwa z najczęstszych słów, Z3 – w którym
będą dokładnie trzy z nich.
Jakość wyrazów może być mierzona liczbą wystąpień tych wyrazów w danym dokumencie. Jeśli porównujemy dane dla różnych
dokumentów, musimy częstości normalizować na przykład do postaci:
fij = mij/maxlmlj,
gdzie fij jest znormalizowaną częstością występowania słowa i w dokumencie j, zaś mij jest liczbą wystąpień słowa
i w dokumencie j, a maxlmlj liczbą wystąpień słowa/rdzenia najliczniej reprezentowanego w dokumencie. Porównanie z innymi
dokumentami jest wyrażane poprzez wielkość:
f*i = n/ni,
na potrzeby ćwiczenia przyjmujemy:
f*i = n/ni = 256,
Takie podejście nadaje wyższą wagę słowom kluczowym, znajdującym się w mniejszej liczbie dokumentów, a więc słowom
o wyższej wybiórczości. W efekcie zastosowania powyższych wskaźników możemy zastosować następujący wzór na określenie
wagi wij i-tego słowa dla j-tego dokumentu:
wij = fijlog2(n/ni),
słowo
mij
maxlmlj fij = mij/maxlmlj f*i = n/ni=256 wij = fijlog2(n/ni)
19
41
0,463414634
256
3,70731707
1. „badanie”
16
41
0,390243902
256
3,12195122
2. „dzieci”
16
41
0,390243902
256
3,12195122
3. „środowisko”
16
41
0,390243902
256
3,12195122
4. „geny”
Rysunek 9. Trywialnie obliczone, nieznormalizowane wagi wij dla czterech najczęstszych istotnych słów/rdzeni.
Modele klasyczne
• elementy indeksu to słowa lub wyrażenia w dokumencie, najlepiej oddające zawartość dokumentu. W przypadkach
skrajnych możemy mieć do czynienia z jednym słowem kluczowym, albo ze zbiorem wszystkich słów z dokumentu,
• kwerendy w modelu klasycznym składają się z elementów indeksu,
• system składa się z ustalonej liczby dokumentów
• lista elementów indeksu jest określona i stała
• zasadniczym czynnikiem zmiennym w systemie są zapytania
• struktura indeksów i zapytań jest identyczna.
Model Boole’owski
• indeksy i kwerendy są opisane wektorami, których elementy przyjmują wartości 0 lub 1, w zależności od tego, czy
dane słowo kluczowe występuje w nich, czy też nie,
• funkcja podobieństwa pomiędzy zapytaniem a indeksem dokumentu przybiera wartość 1, gdy indeks i kwerenda są
identyczne,
• funkcja podobieństwa pomiędzy zapytaniem a indeksem dokumentu przybiera wartość 0, gdy indeks i kwerenda nie
zawierają wspólnych słów,
• w modelu mamy do czynienia albo z odrzuceniem dokumentu, jeśli indeks dokumentu nie zawiera żadnych słów
kluczowych kwerendy, albo z jego akceptacją, jeśli zawiera wszystkie słowa kluczowe kwerendy,
• taki model może w sytuacjach małej liczby słów kluczowych w kwerendzie prowadzić do nadmiernej liczby
wyszukanych dokumentów,
• możliwe jest inne sformułowanie modelu, unikające tego nadmiaru.
Rozwinięty model Boole’owski
• pozwala formułować bardziej złożone kwerendy. Kwerendy takie mogą przybierać postać wyrażeń logicznych, w
których występują zmienne odnoszące się odpowiednio do występowania, lub nie, poszczególnych słów
kluczowych, powiązanych spójnikami i, lub, oraz nie. W tym przypadku kwerenda nie jest wektorem, lecz
wyrażeniem logicznym, w którym występują zi odpowiadające wprost słowom kluczowym ki, a którego wartość dla
dokumentu j-tego równa jest 0 lub 1.
5
Badany system zawiera cztery najczęściej występujące istotne słowa kluczowe:
k1 = „badanie”; k2 = „dzieci”; k3 = „środowisko”; k4 = „geny”
W systemie rozpatrujemy trzy kwerendy, Z1, Z2 i Z 3, gdzie Z1={k1}{1,0,0,0}, Z2={k1, k2}{1,1,0,0}; Z3={k1, k2, k3}{1,1,1,0,0}.
Dodatkowo dodałem dwie kwerendy porównawcze PZ1={k2}{0,1,0,0} i PZ4={k1,k2,k3,k4}{1,1,1,1}.
i
1
2
3
4
5
1
0
0
0
1
Z1
1
1
0
0
0
Z2
1
1
1
0
0
Z3
1
1
1
1
0
IC
Rysunek 10. Binarna reprezentacja dokumentu i trzech przykładowych zapytań dla czterech słów kluczowych i.
Zasadniczą korzyścią z zastosowania modeli Boole’owskich jest ich prostota i jednoznaczność. Mankamentem modeli
Boole’owskich jest brak pełnej charakterystyki dokumentu, podczas gdy jest rzeczą oczywistą, że poszczególne słowa kluczowe
mają dla danego dokumentu różne znaczenia (różne wagi).
Model algebraiczny:
• posiadają możliwość akceptacji dokumentów spełniających warunki kwerendy tylko w pewnym stopniu,
• posiadając możliwość wyznaczania wag wij przyjmujących nie tylko wartości binarne, w zależności od stwierdzonej
ważności danego słowa kluczowego dla danego dokumentu,
• najprostszy model zlicza wagi binarne, przy założeniu, że wij∈{0,1} i daje w wyniku Wj(Z)∈[0,1]. Jest to rezultat
operacji polegającej na zliczaniu jedynek występujących jednocześnie w wektorach dokumentu i zapytaniu,
a następnie podzieleniu otrzymanej liczby naturalnej przez liczbę niezerowych elementów dokumentu.
Wj(Z)=Σicijzi/Σizi
słowa i=
1
2
3
4
5
A=Σizi
B=Σicijzi Wj(Z)=B/A
nasz dokument 1 1 1 1 0
zapytanie Z1
1 0 0 0 1
2
1
0,50
zapytanie Z2
1 1 0 0 0
2
2
1,00
zapytanie Z3
1 1 1 0 0
3
3
1,00
Rysunek 11. Trywialnie obliczone wagi Wj(Z) dla czterech najczęstszych istotnych słów/rdzeni.
Wj(Z)=0 jeśli nie ma słów kluczowych wspólnych dla zapytania i dokumentu, zaś Wj(Z)=1 jeśli wszystkie elementy zapytania
znajdują odpowiedniki w indeksie dokumentu.
Model wektorowy
• jest naturalnym rozszerzeniem modelu algebraicznego,
• uwzględnia wagi wij charakteryzujące dokument,
• wprowadza definicję podobieństwa, która jest analogiem współczynnika korelacji, znanego ze statystyki.
Wj(Z)=Σiwijzi/((Σiwij2)1/2(Σizi2)1/2)
słowa i=
Α=Σizi2
1
2
3
4
5
nasz dokument
1
1
1
1
0
-
zapytanie Z1
1
0
0
0
1
2
porównanie dla Z1
0
1
0
0
1
2
zapytanie Z2
1
1
0
0
0
2
zapytanie Z3
1
1
1
0
0
3
porównanie dla Z4
1
1
1
1
0
4
3,71
3,12
3,12
3,12
0
13,7
9,75
9,75
9,75
0
wij
wij
2
42,983938
Β=Σiwijzi
3,70731707
3,12195122
6,82926829
9,95121951
13,07317073
C=(D)1/2(A)1/2
9,271886338
9,271886338
9,271886338
11,35569524
13,11242741
Wj(Z)=B/C
-
0,39984497
0,33671155
0,73655652
0,87631971
0,99700615
D=Σiwij2
Rysunek 12. Nietrywialnie obliczone, znormalizowane oceny Wj(Z) dla istotnych słów/rdzeni.
Zgodnie z oczekiwaniami zapytania wybierające słowa bardziej znacące mają większe współczynniki Wj(Z). Widać to zwłaszcza
przy porównaniu wartości Wj(Z) dla zapytań Z1 i PZ1. Dodatkowe zapytania PZ4 pokazuje, że zapytanie pokrywające ma wartość
Wj(Z) bliską jedności.
6
Analizowany tekst:
Jesteś biedny - będziesz głupi
Inteligencja jest w dużym stopniu dziedziczna, ale geny za nią odpowiedzialne znacznie silniej działają u dzieci z zamożnych rodzin.
RICK WEISS
02.09.2003
Często pada pytanie: dlaczego dzieci z ubogich rodzin, a zwłaszcza biedne dzieci czarnych, uzyskują w testach na inteligencję niższe wyniki niż biali rówieśnicy
z klasy średniej? Jest to stare i drażliwe pytanie, które często wywołuje oskarżenia o rasizm. Jak to zostało podkreślone w kontrowersyjnej książce "Krzywa Bella"
(1994), badania wielokrotnie wykazały, że ludzkie geny, a nie środowisko, są odpowiedzialne za większość różnic w poziomie IQ u ludzi. Doprowadziło to
niektórych badaczy do kontrowersyjnej tezy, że słabsze wyniki testów, osiągane przez przedstawicieli biednych mniejszości, są wynikiem ich genetycznej
niższości.
Siłaczka potrzebna na dole
Nowe badania zależności pomiędzy genami, środowiskiem i IQ wykazują, iż wpływ genów na inteligencję jest zależny od klasy społecznej. Geny pozwalają
wyjaśnić większość różnic w IQ wśród dzieci z bogatszych rodzin. Jednak wśród ubogich mniejszości etnicznych różnice w IQ okazują się rezultatem wpływu
środowiska. Z badań wynika, że programy wczesnej pomocy mogą wspierać biedne dzieci i warto, by społeczeństwo na nie więcej łożyło. Okazuje się również, że
zamożni rodzice nie powinni mieć wyrzutów sumienia, że nie kupili dziecku najnowszej zabawki, określanej przez producenta mianem "edukacyjnej" i zalecanej
jako mającej ważny wpływ na rozwój dziecka. - To, ile książek jest w domu i jak dobrzy są nauczyciele, może mieć znaczenie w przypadku dziecka z klasy
średniej, ale dopiero gdy dotyczy dzieci ze środowisk ubogich, ma znaczenie naprawdę decydujące - mówi kierujący badaniami Eric Turkheimer, psycholog
z Uniwersytetu stanu Wirginia. Nowe podejście do badań obejmujących szerzej relacje pomiędzy genami i środowiskiem, naturą i wychowaniem. Dotychczas
zakładano, że czynniki genetyczne i środowiskowe są od siebie w dużym stopniu niezależne, a ich wpływ się sumuje. Ludzie byli postrzegani jako ukształtowani
w wyniku genetycznego dziedzictwa i życiowych doświadczeń. Obecnie wyłania się pogląd, że geny wpływają na to, w jaki sposób środowisko kształtuje ludzką
osobę, a życiowe doświadczenia wpływają na to, ile do powiedzenia mają geny. Jak twierdzi Turkheimer, do niedawna badania wykazywały, że IQ jest
dziedziczone, to znaczy wpływ genów na wyniki testów IQ wydawał się dominować nad wpływami środowiskowymi. Prowadziło to do kwestionowania przez
niektórych rządowych i stanowych programów wyrównywania szans startu młodzieży, opartych na przekonaniu, iż polepszenie odżywiania, opieki i jakości
edukacji, powiększa intelektualne możliwości dziecka.
Od kukurydzy do człowieka
Okazuje się jednak, że niemal wszystkie te badania nad dziedziczeniem IQ były prowadzone wśród rodzin należących do klasy średniej i wyższej. Dopiero gdy
Turkheimer przeprowadził badania wśród biednych i u większości czarnych dzieci, stało się jasne, że w rzeczywistości wpływ genów na IQ jest znacznie mniejszy
w środowisku żyjącym w nędzy, w którym niedostatki bytowe dominują nad genetycznymi możliwościami. - Ta praca pokazuje, jakie znaczenie ma
przynależność do klasy społecznej dla wykorzystania przez dzieci ich genetycznego potencjału - mówi psycholog Sandra Scarr, autorka przełomowych badań
w dziedzinie genetyki. Konkretnie wskaźnik dziedziczności IQ wśród najuboższych wynosił zaledwie 0,1, w skali od zera do 1,0. Wśród rodzin o wysokim
poziomie socjoekonomicznym ten sam wskaźnik sięgał 0,72. Inaczej mówiąc, znaczenie wpływu czynników środowiskowych na IQ jest wśród biednych rodzin
wielokrotnie większe niż wśród rodzin zamożnych. - Oznacza to, że powyżej pewnego poziomu dalsza poprawa nie jest już możliwa, nawet gdyby jeszcze
polepszać warunki środowiskowe - twierdzi Scarr. - Jednak poniżej pewnego poziomu każde polepszenie zewnętrznych warunków ma wielkie znaczenie. Zasada
jest bardzo prosta i była od dawna rozpoznana w przypadku roślin i innych prostych organizmów. Słynny jest przykład, często podawany przez biologaewolucjonistę Richarda Lewontina, w którym z dwóch identycznych genetycznie ziaren kukurydzy, zasianych w glebie o bardzo odmiennych własnościach,
wyrastają rośliny o bardzo różnej wysokości.
Populacja ubogich
Niektórzy psychologowie społeczni i genetycy przypuszczali, że to musi być prawdą w przypadku związku pomiędzy ludzkimi genami, statusem
socjoekonomicznym i IQ. Zgodnie z tym rozumowaniem, podobnie jak ziarno w jałowej glebie, przedstawiciele upośledzonych mniejszości etnicznych i biedni (te
dwie kategorie mają ze sobą tak wiele wspólnego, że uczeni z trudem rozdzielają ich efekty) osiągają gorsze wyniki nie z powodu genów, ale dlatego że wzrastają
w środowisku zatrutym problemami rasowymi i socjalnymi. - Jest to hipoteza, która wydaje się oczywista, ale którą nie było łatwo badać - przyznaje Scarr. Jak
mówi, badania są trudne, ponieważ najlepszym sposobem rozdzielenia efektów środowiskowych od genetycznych jest badanie bliźniąt albo, w niektórych
przypadkach, dzieci adoptowanych. Niemal wszystkie bliźniaki i dzieci adoptowane, które były poddane badaniom, pochodziły z rodzin należących do klasy
średniej lub wyższej. Turkheimer pokonał ten problem, wykorzystując dane pochodzące z realizowanego od połowy lat 60. programu opieki prenatalnej. Program
realizowany przez Narodowy Instytut Zdrowia objął około 50 tys. kobiet w ciąży - większość z nich czarnych i bardzo ubogich, mieszkających w kilku głównych
miastach w USA. W ramach programu zebrano wiele danych na temat rodzin, a po siedmiu latach przeprowadzono dzieciom test inteligencji. Zakres programu był
tak szeroki, iż objął wiele par bliźniąt. Na obszarze objętym programem urodziły się 623 pary, z których 320 zostało poddane testowi na inteligencję w wieku
7 lat, na początku lat 70. Przekopując się przez dane, na temat wyników testów IQ i statusu socjoekonomicznego rodzin, Turkheimer zdołał dokonać jednej
z pierwszych analiz wpływu genów na iloraz inteligencji w populacji ubogich. Badania bliźniąt są tak użyteczne, ponieważ istnieją dwa rodzaje bliźniąt jednojajowe, które w 100 proc. są identyczne genetycznie, i dwujajowe, które (podobnie jak rodzeństwo) są tylko w połowie takie same genetycznie. Niezależnie
od tego, czy bliźnięta są jedno- czy dwujajowe, mają takie same warunki w okresie ciąży i są wychowywane w niemal identycznym środowisku. Usuwa to niemal
wszystkie środowiskowe różnice pomiędzy osobnikami z tej samej pary. Jeśli uczeni wykryją jakieś cechy, które częściej pojawiają się wśród bliźniąt
jednojajowych niż dwujajowych, to przypuszczają, iż jest to spowodowane genetycznie. Korzystając nie tylko z tej unikalnej populacji dzieci, ale także z nowych
metod statystycznych, pozwalających badać skomplikowane współzależności, Turkheimer i jego współpracownicy, wśród których był genetyk Irving Goittesman
z Uniwersytetu stanu Minnesota, odkryli, że im niższy status socjoekonomiczny, tym mniejsze znaczenie dla ilorazu inteligencji miały geny.
Brytyjska nędza mniej dotkliwa
Choć IQ pozostaje kontrowersyjnym wskaźnikiem, często krytykowanym za stronniczość rasową i kiepskie odzwierciedlenie inteligencji w najgłębszym sensie
tego słowa, Goittesman i inni zauważają, iż pozostaje on najlepszym prognostykiem szans na sukces społeczny i ekonomiczny w dzisiejszym społeczeństwie
amerykańskim. Robert Plomin, genetyk z Instytutu Psychiatrii w King's College w Londynie, który poszukiwał genów odpowiedzialnych za inteligencję, mówi, że
te wyniki nie umniejszają znaczenia genów. - Kolejne badania potwierdzają, że wpływ czynników genetycznych na IQ jest zasadniczy - twierdzi Plomin. - Tu nie
ma sprzeczności. Powstaje interesująca możliwość, że choć jest to prawdziwe dla klasy średniej i wyższej, nie ma to większego znaczenia dla osób pochodzących
ze środowisk żyjących w biedzie. Uważa on, że jego własne wyniki, oparte na badaniu 4 tys. par bliźniąt, nie potwierdzają rezultatów Turkheimera. - Badaliśmy
rodziny bezrobotnych, pozostających na zasiłku i nie odnajdujemy tego efektu, nawet wśród najuboższych. Może to oznaczać, że jego populacja nie była aż tak
biedna jak Turkheimera albo że korzystała z lepszej, brytyjskiej pomocy społecznej. Rzeczywiście rodziny objęte tymi badaniami były bardzo biedne. Średnia
dochodów wynosiła 17 000 dol. rocznie. Co piąta matka miała poniżej 21 lat. Co trzecia korzystała z pomocy społecznej. Przeszło jedna trzecia była niezamężna.
Marcus Feldman, genetyk z Uniwersytetu Stanforda, mówi, że kolejnym wielkim wyzwaniem jest określenie co konkretnie w statusie socjoekonomicznym pojęciu obejmującym nie tylko dochód, ale i wykształcenie oraz pozycję zawodową - odgrywa największą rolę w kształtowaniu inteligencji. Pomoże to realizować
programy społeczne, które skuteczniej podniosą IQ.
© The Washington Post
7