miksowanie dźwięku za pomocą gestów rąk
Transkrypt
miksowanie dźwięku za pomocą gestów rąk
14th International Symposium on Sound Engineering and Tonmeistering Wrocław, 19-21 May 2011 MIKSOWANIE DŹWIĘKU ZA POMOCĄ GESTÓW RĄK Michał LECH Politechnika Gdańska, Narutowicza 11/12, 80-233 Gdańsk [email protected] Streszczenie. W referacie przedstawiono system umożliwiający sterowanie procesami miksowania śladów nagrania muzycznego za pomocą gestów rąk. Przybliżono podstawy wielomodalnej percepcji argumentujące potrzebę powstania tego typu systemu oraz założenia przyjęte w trakcie jego tworzenia. Część sprzętowa systemu składa się z rzutnika multimedialnego, kamery internetowej, komputera klasy PC z zainstalowanym oprogramowaniem systemu oraz ekranu dla obrazu z rzutnika, umieszczonego pomiędzy monitorami studyjnymi. Oprogramowanie rozpoznaje gesty rąk i kontroluje aplikację produkcji muzycznej, taką jak na przykład Protools czy Cubase, poprzez komunikaty MIDI. Użytkownik znajduje się w polu optymalnego odsłuchu pomiędzy ekranem a rzutnikiem i poprzez ruchy rąk wpływa na cechy dźwięku. Dzięki możliwości śledzenia gestów obu rąk użytkownik może jednocześnie modyfikować więcej niż jeden parametr. 1. WPROWADZENIE Śledząc zmiany w sposobie miksowania dźwięku w nagraniu muzycznym na przestrzeni lat, zauważyć można, że w głównej mierze podyktowane one były rozwojem techniki. Początkowo, w dobie monofonicznego nośnika zapisu, etap miksowania utworu powiązany był z procesem nagrywania. Istotne było ustalenie wszelkich proporcji brzmieniowych przed rozpoczęciem rejestracji utworu. Wraz z pojawieniem się rejestratorów wielościeżkowych umożliwiających odczyt synchronizowany z zapisem (Selsync) etap miksowania zaczął być powoli oddzielany od etapu nagrywania [7]. Możliwe stało się tworzenie wersji tego samego nagrania różniących się od siebie parametrami wpływającymi na odbiór muzyki. Następnie możliwość odtwarzania nagrania z rejestratora o większej liczbie ścieżek i miksowania go z wykorzystaniem wielu kanałów stołu mikserskiego wykształciła technikę, w której niejednokrotnie parametry stołu mikserskiego modyfikowane były przez wiele osób jednocześnie. Konieczne było nauczenie się sekwencji wykonywanych czynności, a niewielki błąd implikował potrzebę ich powtórzenia [7]. Pojawienie się stołów mikserskich z automatyką umożliwiło miksowanie złożonych sesji produkcyjnych przez tylko jedną osobę. Obecnie można zauważyć tendencję do wypierania dużych, bogato wyposażonych studiów nagrań przez studia niskobudżetowe, w których dominuje podejście polegające na miksowaniu nagrań jedynie w oparciu o oprogramowanie komputerowe (ang. mixing in the box). Oczywistym uzasadnieniem takiego stanu rzeczy są względu ekonomiczne. Jednocześnie wielu znanych inżynierów miksu podkreśla fakt, że efekty miksowania nagrań z wykorzystaniem jedynie komputera często nie są tak dobre, jak w przypadku tradycyjnego podejścia, w którym wykorzystuje się stół mikserski [7]. Jako powód podaje się między innymi różnice jakościowe między algorytmami przetwarzania sygnału zaimplementowanymi w oprogramowaniu studyjnym a ich fizycznymi odpowiednikami w drogich stołach mikserskich, ale potwierdzenia tego faktu można również poszukiwać w ergonomii i psychologii kognitywnej. Konieczność obsługi wielu parametrów za pomocą myszy i klawiatury, przy jednoczesnym śledzeniu informacji wyświetlanych na ekranie, zgodnie z teorią wielomodalnej percepcji – przedstawioną w dalszej części referatu, może negatywnie wpływać na percepcję dźwięku. Negatywny wpływ na percepcję dźwięku prowadzi w konsekwencji do wykonywania zgrań o gorszych walorach estetycznych. 1 14th International Symposium on Sound Engineering and Tonmeistering - ISSET2011 W niniejszym referacie zaprezentowano system miksowania dźwięku w nagraniu muzycznym, zaprojektowany ze świadomością specyfiki wielomodalnej percepcji. Procesy miksowania obsługiwane są jedynie za pomocą gestów rąk. System opracowano w taki sposób, aby zmysły inne niż zmysł słuchu angażowane były w stopniu minimalnym. Przegląd literatury w poszukiwaniu systemów takich, jak prezentowany w referacie, pozwala stwierdzić, że nie są znane rozwiązania umożliwiające bezkontaktową obsługę za pomocą gestów rąk wszystkich kluczowych operacji towarzyszących procesowi miksowania dźwięku. Marshall i in. w 2009 roku zaprezentowali pracę [6], w której dokonali przeglądu istniejących systemów pozwalających na kontrolowanie za pomocą gestów rąk jednego z elementów każdego zgrania, jakim jest panorama dźwięku. Większość z przedstawionych systemów umożliwia dodatkowo kontrolowanie parametrów związanych z pogłosowością wirtualnego pomieszczenia, w jakim osadzane są panoramowane źródła dźwięku. Systemy te były jednak tworzone z myślą o muzykach, których gesty wykonywane naturalnie w trakcie grania na instrumencie mogłyby dodatkowo wyzwalać różne funkcje przetwarzające rejestrowany dźwięk i w ten sposób wzbogacać wykonanie. Z kolei Valbom i in [9]. zaprezentowali rozwiązanie, które umożliwia wyzwalanie za pomocą gestów rąk wybranych pętli muzycznych lub odtwarzanie dźwięków skal chromatycznych. Ruch rąk odzwierciedla ruch wirtualnych różdżek na ekranie, za pośrednictwem których możliwe jest wybieranie i zmiana położenia obiektów. 2. PERCEPCJA WIELOMODALNA I INTERAKCJA Wiele badań wskazuje, że zmysł wzroku pełni wiodącą rolę w percepcji otaczającej rzeczywistości [1]. Za przykład może posłużyć powszechne zjawisko ściągającego wpływu obrazu na lokalizację źródła dźwięku, podczas gdy zjawisko odwrotne zachodzi stosunkowo rzadko [1]. Wspólna fizjologia systemów sensorycznych, przy jednoczesnym angażowaniu zmysłu słuchu i wzroku, powoduje ograniczenie roli tego pierwszego [2]. W ogólności, zgodnie z hipotezą Welcha i Warrena, stopień zaangażowania danej modalności w procesie percepcji zależy od typu analizowanej cechy i rodzaju aktywności [1]. Powszechnie wiadomo, że trwałe wyłączenie jednego z analizatorów z procesów percepcji rzeczywistości, np. na skutek kalectwa, powoduje obniżenie się progów wrażliwości na bodźce w pozostałych analizatorach (większą wrażliwość) [8]. Natomiast, jak podaje Bogdanowicz, powołując się na prace Włodarskiego: „stymulowanie jednych narządów zmysłu powoduje różnorodne zmiany w funkcjonowaniu innych, np. pod wpływem bodźców dźwiękowych zmieniają się progi wrażliwości i czułości wzrokowej, a określone oświetlenie sprawia, że dźwięki są lepiej słyszane i wydają się głośniejsze” [2, 10]. Z tych względów, podstawowym założeniem systemu było zapewnienie możliwości wykonywania wszystkich funkcji związanych bezpośrednio z procesem miksowania nagrania muzycznego za pomocą gestów przy braku informacji wizualnej. W chwili obecnej nie są znane systemy komputerowe umożliwiające, bez zastosowania zaawansowanego kontrolera zastępującego stół mikserski, produkcję dźwięku bez angażowania w znaczącym stopniu zmysłu wzroku. Wydaje się, iż głównym powodem takiego stanu rzeczy są ograniczenia tradycyjnych i powszechnie dostępnych, a przez to też wykorzystywanych w profesjonalnych aplikacjach do pracy z dźwiękiem, interfejsów: myszy i klawiatury. Specyfika pracy z tymi interfejsami wpłynęła na wypracowanie pewnego standardu prezentowania i zarządzania informacją w aplikacjach do produkcji dźwięku. Standard ten, chociaż umożliwia relatywnie efektywne pod względem czasowym wykonywanie procesów obróbki dźwięku, w porównaniu z klasycznym sposobem miksowania dźwięku z wykorzystaniem stołu mikserskiego i zewnętrznych urządzeń przetwarzających dźwięk, jest często krytykowany przez profesjonalnych realizatorów nagrań. Przedmiotem krytyki jest między innymi wspomniana niemożność wyłączenia zmysłu wzroku z procesu miksowania nagrania, mogąca powodować zaburzenia percepcji dźwięku. Potwierdzeniem występowania takich zaburzeń może być efekt McGurka, zgodnie z którym na podstawie bodźców kierowanych jednocześnie do dwóch różnych zmysłów wypracowana zostaje przez system afe- 2 14th International Symposium on Sound Engineering and Tonmeistering - ISSET2011 rentny odpowiedź niezgodna z żadnym z pobudzeń. Przykładowo, osoba której na ekranie monitora przedstawiono obraz twarzy spikera wypowiadającego sylabę ga, ale jako bodziec akustyczny podano sylabę ba, w efekcie odpowiada, że „usłyszała” (spercypowała) sylabę da. W odniesieniu do oprogramowania miksowania dźwięku można zauważyć, że ze względu na silnie zróżnicowany charakter przetwarzanych dźwięków, nie jest możliwe jednoznaczne odzwierciedlenie zmiany danego parametru sonicznego w postaci zmiany w wyglądzie elementu graficznego. Przykładowo, niewielka różnica w ustawieniu wirtualnego pokrętła modyfikującego parametr może powodować znaczącą zmianę dźwięku i odwrotnie, istotna zmiana w wyglądzie tego samego elementu graficznego może powodować ledwie zauważalną zmianę cech dźwięku. W efekcie percypowany dźwięk może być wypadkową pobudzenia wizualnego i akustycznego. Dodatkowo, wspomniany standard prezentowania informacji użytkownikowi, może prowadzić do przywoływania z pamięci i powielania wcześniej wykorzystanych wzorców myślowych związanych z graficznym wyglądem elementu reprezentującego dany parametr lub zbiór parametrów, zamiast do podejmowania akcji faktycznie adekwatnych do percypowanego materiału dźwiękowego. Jak podaje Jakubik: „w sytuacjach niejednoznacznych o pewnym stopniu niepewności, człowiek może kierować się schematami poznawczymi”, które „powstają na podstawie dotychczasowych doświadczeń i pozwalają kształtować oczekiwania związane z przedmiotem” [3]. Jak dalej pisze autor, „zdarza się jednak, że schematy te nie są w pełni adekwatne do rzeczywistości i zniekształcają spostrzegany obiekt”. W literaturze poświęconej zagadnieniu produkcji muzycznej opis tego zjawiska tłumaczy się również jako podświadome przekonanie o tym, że to co wizualnie prezentuje się lepiej – brzmi lepiej. Fakt ten wykorzystują producenci programowych wtyczek przetwarzających dźwięk starając się, aby wygląd interfejsu graficznego jak najlepiej odzwierciedlał oczekiwane efekty brzmieniowe. Biorąc pod uwagę te spostrzeżenia i możliwości związane z zastosowaniem interfejsu HCI (ang. HumanComputer Interaction) wykorzystującego gesty rąk i palców dłoni, istotne wydaje się spełnienie postawionego wymagania, dotyczącego możliwości obsługi procesów miksowania dźwięku bez angażowania zmysłu wzroku. Jednym z ograniczeń systemów produkcji dźwięku obsługiwanych jedynie za pomocą myszy i klawiatury jest brak zapewnienia możliwości jednoczesnej edycji więcej niż jednego parametru. W istocie jest to ograniczenie znaczące, gdyż zmiana jednego parametru charakteryzującego dźwięk może wpływać na percepcję innego, kształtując w niezamierzony sposób odbiór całości. Opracowany system wychodzi naprzeciw temu problemowi poprzez udostępnianie możliwości edycji jednocześnie więcej niż jednego parametru za pomocą gestów obu rąk użytkownika. 3. OPIS SYSTEMU I METOD STEROWANIA Na opracowany system składa się komputer klasy PC, kamera internetowa, rzutnik multimedialny oraz ekran dla obrazu z rzutnika. Kamera jest umieszczona bezpośrednio przy rzutniku, a jej obiektyw skierowany jest na ekran. Użytkownik znajduje się pomiędzy ekranem a rzutnikiem, w polu optymalnego odsłuchu i za pomocą gestów rąk steruje procesami miksowania. Gesty rozpoznawane są na podstawie analizy obrazu pozyskanego z kamery. Nie wykorzystuje się rękawiczek, kolorowych znaczników na dłonie czy diod podczerwieni. Interfejs może współpracować zarówno z systemem stereofonii dwukanałowej, jak i systemem o większej liczbie kanałów (rys. 1). Biorąc pod uwagę fakt, że nie jest konieczne stosowanie sprzętu znajdującego się pomiędzy użytkownikiem a monitorami studyjnymi (np. stołu mikserskiego), wyeliminować można typowo występujące odbicia dźwięku powodujące zakolorowania. 3 14th International Symposium on Sound Engineering and Tonmeistering - ISSET2011 Rys. 1. Wizualizacja przykładowego rozmieszczenia komponentów systemu Część programowa systemu podzielona została na dwie części, tj. aplikację odpowiedzialną za rozpoznawanie gestów i wywoływanie przypisanych im akcji systemowych oraz dostosowany do obsługi za pomogą gestów interfejs, stanowiący nakładkę graficzną na system produkcji dźwięku, taki jak na przykład Protools czy Cubase. Interfejs ten komunikuje się z systemem produkcji dźwięku za pośrednictwem protokołu MIDI. Funkcje natywne, takie jak zmiana poziomu ścieżki, rozpoczęcie odtwarzania czy ustawienie śladu w tryb solo, obsługiwane są poprzez protokół MIDI Mackie Control. Parametry wtyczek spoza zbioru obsługiwanego przez protokół Mackie Control powiązane są z poszczególnymi gestami poprzez komunikaty MIDI przypisane za pomocą funkcji MIDI Learn, będącej na wyposażeniu większości profesjonalnych programów do produkcji muzycznej. Po uruchomieniu aplikacji odpowiedzialnej za rozpoznawanie gestów, użytkownik może przeprowadzić proces kalibracji barwowej, wpływającej na skuteczność detekcji oraz proces treningu zastosowanych w systemie klasyfikatorów gestów odpowiednio dla lewej i prawej dłoni. Dzięki możliwości wytrenowania systemu do rozpoznawania gestów zarówno jednej, jak i drugiej dłoni jednocześnie, użytkownik może z każdą dłonią skojarzyć wybrany parametr dla wybranego śladu i dokonywać modyfikacji dwóch parametrów w tym samym momencie. System rozpoznaje zarówno dynamiczne gesty rąk, tj. gesty bazujące na trajektorii ruchu, jak i gesty statyczne, polegające na formowaniu dłoni w określony kształt. Oba typy gestów są ze sobą powiązane, tj. wykonanie tego samego ruchu, ale z dłonią uformowaną w inny kształt interpretowane jest jako dwa różne gesty. Dodatkowo, określone gesty wykonane w odpowiedniej kolejności również reprezentują klasę gestu. Zgodnie z teorią przedstawioną w poprzednim paragrafie, wszystkie operacje związane z przetwarzaniem dźwięku mogą być wykonywane z wyłączeniem zwrotnych informacji wizualnych, chociaż opcja pracy z pełnym interfejsem graficznym jest również dostępna. Dodatkowo, niezależnie od pracy w trybie ograniczonego lub pełnego interfejsu graficznego, użytkownik ma możliwość włączenia widoku pasków menu z ikonograficznymi przyciskami reprezentującymi operacje miksowania dźwięku. W ten sposób, w zależności od potrzeb użytkownika możliwe jest wywoływanie funkcji systemu tylko za pomocą gestów lub wybieranie ich poprzez skierowanie ręki nad odpowiednią ikonę. Operacje decydujące o stanie sekwencera (np. odtwarzanie, przewijanie do przodu) lub stanie, w jakim może znajdować się dany ślad (np. tryb wyciszenia, tryb solo), pomimo dostępności naturalnego, fonicznego bodźca zwrotnego, są dodatkowo sygnalizowane w obrębie interfejsu graficznego. Funkcje, które nie są bezpośrednio związane z miksowaniem materiału muzycznego, takie jak np. wczytanie ścieżek nagrania bądź eksport sumy ścieżek do pliku, wykonywane są w typowy dla pracy z komputerem sposób, tj. przy użyciu myszy i klawiatury oraz z udostępnianą informacją wizualną. W celu obsługi operacji miksowania dźwięku zaprojektowano zunifikowany słownik gestów rąk. Przed rozpoczęciem wykonywania gestu i po jego zakończeniu, rękę w kadr wprowadza się zewnętrzną stroną dłoni do kamery, a do wykonania określonego gestu dłoń formuje się w odpowiedni kształt. Parametr do edycji wybiera się poprzez wykonanie gestu dynamicznego lub 4 14th International Symposium on Sound Engineering and Tonmeistering - ISSET2011 umieszczenie ręki nad przyciskiem menu. Domyślnie, w trakcie wykonywania gestu dynamicznego, palce dłoni tworzą kształt litery „V”. W trakcie trenowania klasyfikatorów użytkownik może zdefiniować własny gest. Starano się, aby gest dynamiczny w miarę możliwości kojarzył się z wybieraną funkcją. Z tego względu, przykładowo wybranie progu kompresji skojarzone jest z narysowaniem litery „T” w powietrzu. Wszelkie parametry modyfikuje się za pomocą ruchu ręki w górę lub w dół, odpowiednio dla zwiększania lub zmniejszania wartości, przy domyślnym uformowaniu dłoni w kształt oznaczający gest „OK”. Każdy parametr modyfikowany jest tylko za pomocą jednej ręki. Innymi słowy, dowolne dwa parametry można modyfikować jednocześnie. Jeśli po zakończeniu edycji danego parametru użytkownik chce ponownie modyfikować ten sam parametr, nie ma konieczności wykonywania gestu związanego z wyborem parametru. Wówczas wywołanie operacji sprowadza się do wykonania ruchu ręką góra / dół z dłonią uformowaną w kształt „OK”. 4. ZASTOSOWANE METODY Przedstawione rozwiązanie bazuje na odejmowaniu strumienia wizyjnego pozyskanego z kamery od obrazów wyświetlanych przez rzutnik, pozyskanych z komputera i rozpoznawaniu gestów w odpowiednio przetworzonym obrazie wynikowym. Metody wykorzystywane w systemie zostały dokładniej przedstawione we wcześniejszej publikacji autora [4], dlatego w niniejszym referacie ograniczono się do ich przywołania. Przed odjęciem obrazów, obraz pozyskany z kamery jest odpowiednio przetwarzany w celu wyeliminowania zniekształceń wprowadzanych przez obiektyw i skompensowania nierównomiernego oświetlenia [4, 5]. Do rozpoznawania gestów dynamicznych zastosowano metody oparte na logice rozmytej. Ruch rąk jest modelowany za pomocą reguł rozmytych wykorzystujących prędkość i kierunek jako zmienne lingwistyczne [4]. Gesty zamodelowano z uwzględnieniem naturalnej motoryki ludzkich ruchów. Przykładowo, uwzględniony został fakt, że ruch ręki z lewej do prawej strony lub odwrotnie, w naturalny dla człowieka sposób, odbywa się po okręgu. Z tego powodu, na przykład ruch w lewo w regułach rozmytych został wyrażony nie tylko jako wektory o kierunku oznaczonym etykietą lewo, ale też za pomocą wektorów o kierunkach, kolejno góra i lewo, dla przedstawienia początkowej fazy ruchu, i lewo, dół dla fazy końcowej. W celu redukcji błędów detekcji, śledzenie pozycji rąk, w oparciu o które tworzone są wektory ruchu, wspomagane jest filtracją Kalmana. Gesty statyczne rozpoznawane są za pomocą maszyn wektorów nośnych (SVM) typu C-SVC z jądrem RBF. Kształt dłoni parametryzowany jest za pomocą histogramów geometrycznych par zgodnych (PGH), dzięki czemu kąt obrotu dłoni nie wpływa na skuteczność klasyfikacji. System zbadano pod kątem wydajności i skuteczności detekcji gestów. Wydajność oceniono sprawdzając szybkość wykonania pojedynczej iteracji rozpoznawania gestów, mierzoną liczbą przetworzonych klatek obrazu z kamery na sekundę. Wartość ta utrzymywała się na poziomie 15 FPS (ang. frames per second) co było wystarczające dla obsługi interfejsu bez zauważalnej latencji. Globalna skuteczność rozpoznawania gestów dynamicznych, zbadana dla grupy 20 osób, wyniosła ok. 98%, z wartością minimalną równą 96,3%. 5. PODSUMOWANIE Warto zwrócić uwagę na fakt, że jak uważają niektórzy znani inżynierowie miksu, rozwój techniki niekoniecznie przyczynił się do wykształcenia sposobów miksowania dźwięku dających lepsze rezultaty pod względem wartości estetycznych [7]. Ograniczenia, z jakimi borykali się inżynierowie dźwięku w latach 50. i 60. ubiegłego wieku, wyzwalały często kreatywność w większym stopniu niż ma to miejsce dziś. Konieczność wieloosobowego miksowania nagrań i brak narzędzi dostępnych obecnie sprawiały, że praca inżynierów miksu miała więcej cech 5 14th International Symposium on Sound Engineering and Tonmeistering - ISSET2011 pracy artystycznej, co niekiedy prowadziło do powstawania nagrań o większym ładunku emocjonalnym. W tym kontekście zasadne wydaje się rozwinięcie zaprezentowanego systemu do postaci umożliwiającej miksowanie nagrań za pomocą gestów więcej niż dwóch rąk. Jednoczesna praca dwóch i więcej osób przy miksowaniu danego materiału muzycznego za pomocą gestów z pewnością stanowiłaby interesujący obszar badań w dziedzinie psychologii kognitywnej. W kolejnych etapach prac przeprowadzone zostaną testy z udziałem studentów specjalności Inżynieria Dźwięku i Obrazu Politechniki Gdańskiej oraz inżynierów miksu, mające na celu ocenę ergonomii opracowanego rozwiązania i zbadanie różnic pomiędzy zgraniami wykonanymi z wykorzystaniem komputera w typowy sposób, a zgraniami wykonanymi wyłącznie za pomocą gestów rąk bez udostępnionej informacji wizualnej. PODZIĘKOWANIA Praca została wykonana w ramach projektu POIG.01.03.01-22-017/08 pt.: "Opracowanie typoszeregu komputerowych interfejsów multimodalnych oraz ich wdrożenie w zastosowaniach edukacyjnych, medycznych, w obronności i w przemyśle". Projekt jest współfinansowany ze środków Europejskiego Funduszu Rozwoju Regionalnego i budżetu państwa. BIBLIOGRAFIA [1] AVANZINI F., Interactive Sound, W: Sound to Sense, Sense to Sound – A State of the Art in Sound and Music Computing, Davide Rocchesso and Pietro Polotti (red.), Information Society Technologies, 2007, 302–345. [2] BOGDANOWICZ M., Integracja Percepcyjno-Motoryczna, teoria – diagnoza – terapia, Warszawa, Centrum Metodyczne Pomocy Psychologiczno-Pedagogicznej, Wydanie III, 2000. [3] JAKUBIK A., Spostrzeganie, uzyskano 26.04.2011 z sieci www: http://www.psychologia.net.pl/slownik.php?level=30 [4] LECH M., KOSTEK B., Fuzzy Rule-based Dynamic Gesture Recognition Employing Camera & Multimedia Projector, W: Advances in Intelligent and Soft Computing: Multimedia & Network Information Systems, Springer-Verlag, 2010, 69–78. [5] LECH M., KOSTEK B., Wydajność Środowisk J2SE i C++/OpenCV w Zagadnieniu Sterowania Komputerem za Pomocą Gestów, W: Metody wytwarzania i zastosowania systemów czasu rzeczywistego, L. Trybus, S. Samolej (red.), Rzeszów, WKŁ, 2010, 187–196. [6] MARSHALL M.T., MALLOCH J. and WANDERLEY M.M., Gesture Control of Sound Spatialization for Live Musical Performance, W: GW 2007, LNAI 5085, M. Sales Dias et al. (red.), Berlin, Heidelberg, Springer-Verlag, 2009, 227–238. [7] OWSINSKI B., The Mixing Engineer’s Handbook: Second Edition, Boston, Thomson Course Technology PTR, 2006. [8] SZEWCZUK W., Atlas psychologiczny, Warszawa, PWN, 1976. [9] VALBOM L., MARCOS A., WAVE: Sound and music in an immersive environment, Computers & Graphics 29, Elsevier, 2005, 871–881. [10] WŁODARSKI Z., Odbiór treści w procesie uczenia się, Warszawa, PWN, 1985. MUSIC MIXING PROCESS CONTROLLED BY HAND GESTURES In the paper a system enabling to control sound mixing process by hand gestures is presented. Multimodal perception basis are shortly reviewed, justifying the need for such a system development and system assumptions are given. The hardware part of the system is composed of a multimedia projector with a webcam attached and a screen for projected image placed between front studio monitors of surround sound system. An interface that works on a standard PC, recognizes gestures and controls music production system such as Protools or Cubase by sending MIDI messages, is engineered. A user is situated in a sweet spot between the monitors and the projector and performs hand gestures influencing sound characteristics. Dynamic hand gestures, i.e. the ones based on hand motion trajectories, and the static gestures, i.e. based on forming a hand in particular shape, are recognized by the system. 6