miksowanie dźwięku za pomocą gestów rąk

Transkrypt

miksowanie dźwięku za pomocą gestów rąk
14th International Symposium on Sound Engineering and Tonmeistering
Wrocław, 19-21 May 2011
MIKSOWANIE DŹWIĘKU ZA POMOCĄ GESTÓW RĄK
Michał LECH
Politechnika Gdańska, Narutowicza 11/12, 80-233 Gdańsk
[email protected]
Streszczenie. W referacie przedstawiono system umożliwiający sterowanie procesami miksowania
śladów nagrania muzycznego za pomocą gestów rąk. Przybliżono podstawy wielomodalnej percepcji
argumentujące potrzebę powstania tego typu systemu oraz założenia przyjęte w trakcie jego tworzenia.
Część sprzętowa systemu składa się z rzutnika multimedialnego, kamery internetowej, komputera klasy PC z zainstalowanym oprogramowaniem systemu oraz ekranu dla obrazu z rzutnika, umieszczonego
pomiędzy monitorami studyjnymi. Oprogramowanie rozpoznaje gesty rąk i kontroluje aplikację produkcji muzycznej, taką jak na przykład Protools czy Cubase, poprzez komunikaty MIDI. Użytkownik
znajduje się w polu optymalnego odsłuchu pomiędzy ekranem a rzutnikiem i poprzez ruchy rąk wpływa na cechy dźwięku. Dzięki możliwości śledzenia gestów obu rąk użytkownik może jednocześnie
modyfikować więcej niż jeden parametr.
1. WPROWADZENIE
Śledząc zmiany w sposobie miksowania dźwięku w nagraniu muzycznym na przestrzeni lat,
zauważyć można, że w głównej mierze podyktowane one były rozwojem techniki. Początkowo,
w dobie monofonicznego nośnika zapisu, etap miksowania utworu powiązany był z procesem
nagrywania. Istotne było ustalenie wszelkich proporcji brzmieniowych przed rozpoczęciem
rejestracji utworu. Wraz z pojawieniem się rejestratorów wielościeżkowych umożliwiających
odczyt synchronizowany z zapisem (Selsync) etap miksowania zaczął być powoli oddzielany od
etapu nagrywania [7]. Możliwe stało się tworzenie wersji tego samego nagrania różniących się
od siebie parametrami wpływającymi na odbiór muzyki. Następnie możliwość odtwarzania
nagrania z rejestratora o większej liczbie ścieżek i miksowania go z wykorzystaniem wielu kanałów stołu mikserskiego wykształciła technikę, w której niejednokrotnie parametry stołu mikserskiego modyfikowane były przez wiele osób jednocześnie. Konieczne było nauczenie się
sekwencji wykonywanych czynności, a niewielki błąd implikował potrzebę ich powtórzenia [7].
Pojawienie się stołów mikserskich z automatyką umożliwiło miksowanie złożonych sesji produkcyjnych przez tylko jedną osobę. Obecnie można zauważyć tendencję do wypierania dużych, bogato wyposażonych studiów nagrań przez studia niskobudżetowe, w których dominuje
podejście polegające na miksowaniu nagrań jedynie w oparciu o oprogramowanie komputerowe (ang. mixing in the box). Oczywistym uzasadnieniem takiego stanu rzeczy są względu ekonomiczne. Jednocześnie wielu znanych inżynierów miksu podkreśla fakt, że efekty miksowania
nagrań z wykorzystaniem jedynie komputera często nie są tak dobre, jak w przypadku tradycyjnego podejścia, w którym wykorzystuje się stół mikserski [7]. Jako powód podaje się między
innymi różnice jakościowe między algorytmami przetwarzania sygnału zaimplementowanymi
w oprogramowaniu studyjnym a ich fizycznymi odpowiednikami w drogich stołach mikserskich, ale potwierdzenia tego faktu można również poszukiwać w ergonomii i psychologii kognitywnej. Konieczność obsługi wielu parametrów za pomocą myszy i klawiatury, przy jednoczesnym śledzeniu informacji wyświetlanych na ekranie, zgodnie z teorią wielomodalnej
percepcji – przedstawioną w dalszej części referatu, może negatywnie wpływać na percepcję
dźwięku. Negatywny wpływ na percepcję dźwięku prowadzi w konsekwencji do wykonywania
zgrań o gorszych walorach estetycznych.
1
14th International Symposium on Sound Engineering and Tonmeistering - ISSET2011
W niniejszym referacie zaprezentowano system miksowania dźwięku w nagraniu muzycznym, zaprojektowany ze świadomością specyfiki wielomodalnej percepcji. Procesy miksowania
obsługiwane są jedynie za pomocą gestów rąk. System opracowano w taki sposób, aby zmysły
inne niż zmysł słuchu angażowane były w stopniu minimalnym.
Przegląd literatury w poszukiwaniu systemów takich, jak prezentowany w referacie, pozwala stwierdzić, że nie są znane rozwiązania umożliwiające bezkontaktową obsługę za pomocą
gestów rąk wszystkich kluczowych operacji towarzyszących procesowi miksowania dźwięku.
Marshall i in. w 2009 roku zaprezentowali pracę [6], w której dokonali przeglądu istniejących
systemów pozwalających na kontrolowanie za pomocą gestów rąk jednego z elementów każdego zgrania, jakim jest panorama dźwięku. Większość z przedstawionych systemów umożliwia
dodatkowo kontrolowanie parametrów związanych z pogłosowością wirtualnego pomieszczenia, w jakim osadzane są panoramowane źródła dźwięku. Systemy te były jednak tworzone
z myślą o muzykach, których gesty wykonywane naturalnie w trakcie grania na instrumencie
mogłyby dodatkowo wyzwalać różne funkcje przetwarzające rejestrowany dźwięk i w ten sposób wzbogacać wykonanie. Z kolei Valbom i in [9]. zaprezentowali rozwiązanie, które umożliwia wyzwalanie za pomocą gestów rąk wybranych pętli muzycznych lub odtwarzanie dźwięków skal chromatycznych. Ruch rąk odzwierciedla ruch wirtualnych różdżek na ekranie, za
pośrednictwem których możliwe jest wybieranie i zmiana położenia obiektów.
2. PERCEPCJA WIELOMODALNA I INTERAKCJA
Wiele badań wskazuje, że zmysł wzroku pełni wiodącą rolę w percepcji otaczającej rzeczywistości [1]. Za przykład może posłużyć powszechne zjawisko ściągającego wpływu obrazu na
lokalizację źródła dźwięku, podczas gdy zjawisko odwrotne zachodzi stosunkowo rzadko [1].
Wspólna fizjologia systemów sensorycznych, przy jednoczesnym angażowaniu zmysłu słuchu i
wzroku, powoduje ograniczenie roli tego pierwszego [2]. W ogólności, zgodnie z hipotezą
Welcha i Warrena, stopień zaangażowania danej modalności w procesie percepcji zależy od
typu analizowanej cechy i rodzaju aktywności [1]. Powszechnie wiadomo, że trwałe wyłączenie
jednego z analizatorów z procesów percepcji rzeczywistości, np. na skutek kalectwa, powoduje
obniżenie się progów wrażliwości na bodźce w pozostałych analizatorach (większą wrażliwość)
[8]. Natomiast, jak podaje Bogdanowicz, powołując się na prace Włodarskiego: „stymulowanie
jednych narządów zmysłu powoduje różnorodne zmiany w funkcjonowaniu innych, np. pod
wpływem bodźców dźwiękowych zmieniają się progi wrażliwości i czułości wzrokowej, a
określone oświetlenie sprawia, że dźwięki są lepiej słyszane i wydają się głośniejsze” [2, 10]. Z
tych względów, podstawowym założeniem systemu było zapewnienie możliwości wykonywania wszystkich funkcji związanych bezpośrednio z procesem miksowania nagrania muzycznego
za pomocą gestów przy braku informacji wizualnej. W chwili obecnej nie są znane systemy
komputerowe umożliwiające, bez zastosowania zaawansowanego kontrolera zastępującego stół
mikserski, produkcję dźwięku bez angażowania w znaczącym stopniu zmysłu wzroku. Wydaje
się, iż głównym powodem takiego stanu rzeczy są ograniczenia tradycyjnych i powszechnie
dostępnych, a przez to też wykorzystywanych w profesjonalnych aplikacjach do pracy z dźwiękiem, interfejsów: myszy i klawiatury. Specyfika pracy z tymi interfejsami wpłynęła na wypracowanie pewnego standardu prezentowania i zarządzania informacją w aplikacjach do produkcji dźwięku. Standard ten, chociaż umożliwia relatywnie efektywne pod względem czasowym
wykonywanie procesów obróbki dźwięku, w porównaniu z klasycznym sposobem miksowania
dźwięku z wykorzystaniem stołu mikserskiego i zewnętrznych urządzeń przetwarzających
dźwięk, jest często krytykowany przez profesjonalnych realizatorów nagrań. Przedmiotem krytyki jest między innymi wspomniana niemożność wyłączenia zmysłu wzroku z procesu miksowania nagrania, mogąca powodować zaburzenia percepcji dźwięku. Potwierdzeniem występowania takich zaburzeń może być efekt McGurka, zgodnie z którym na podstawie bodźców
kierowanych jednocześnie do dwóch różnych zmysłów wypracowana zostaje przez system afe-
2
14th International Symposium on Sound Engineering and Tonmeistering - ISSET2011
rentny odpowiedź niezgodna z żadnym z pobudzeń. Przykładowo, osoba której na ekranie monitora przedstawiono obraz twarzy spikera wypowiadającego sylabę ga, ale jako bodziec akustyczny podano sylabę ba, w efekcie odpowiada, że „usłyszała” (spercypowała) sylabę da. W
odniesieniu do oprogramowania miksowania dźwięku można zauważyć, że ze względu na silnie
zróżnicowany charakter przetwarzanych dźwięków, nie jest możliwe jednoznaczne odzwierciedlenie zmiany danego parametru sonicznego w postaci zmiany w wyglądzie elementu graficznego. Przykładowo, niewielka różnica w ustawieniu wirtualnego pokrętła modyfikującego parametr może powodować znaczącą zmianę dźwięku i odwrotnie, istotna zmiana w wyglądzie
tego samego elementu graficznego może powodować ledwie zauważalną zmianę cech dźwięku.
W efekcie percypowany dźwięk może być wypadkową pobudzenia wizualnego i akustycznego.
Dodatkowo, wspomniany standard prezentowania informacji użytkownikowi, może prowadzić
do przywoływania z pamięci i powielania wcześniej wykorzystanych wzorców myślowych
związanych z graficznym wyglądem elementu reprezentującego dany parametr lub zbiór parametrów, zamiast do podejmowania akcji faktycznie adekwatnych do percypowanego materiału
dźwiękowego. Jak podaje Jakubik: „w sytuacjach niejednoznacznych o pewnym stopniu niepewności, człowiek może kierować się schematami poznawczymi”, które „powstają na podstawie dotychczasowych doświadczeń i pozwalają kształtować oczekiwania związane
z przedmiotem” [3]. Jak dalej pisze autor, „zdarza się jednak, że schematy te nie są w pełni
adekwatne do rzeczywistości i zniekształcają spostrzegany obiekt”. W literaturze poświęconej
zagadnieniu produkcji muzycznej opis tego zjawiska tłumaczy się również jako podświadome
przekonanie o tym, że to co wizualnie prezentuje się lepiej – brzmi lepiej. Fakt ten wykorzystują producenci programowych wtyczek przetwarzających dźwięk starając się, aby wygląd interfejsu graficznego jak najlepiej odzwierciedlał oczekiwane efekty brzmieniowe. Biorąc pod
uwagę te spostrzeżenia i możliwości związane z zastosowaniem interfejsu HCI (ang. HumanComputer Interaction) wykorzystującego gesty rąk i palców dłoni, istotne wydaje się spełnienie
postawionego wymagania, dotyczącego możliwości obsługi procesów miksowania dźwięku bez
angażowania zmysłu wzroku.
Jednym z ograniczeń systemów produkcji dźwięku obsługiwanych jedynie za pomocą myszy
i klawiatury jest brak zapewnienia możliwości jednoczesnej edycji więcej niż jednego parametru. W istocie jest to ograniczenie znaczące, gdyż zmiana jednego parametru charakteryzującego dźwięk może wpływać na percepcję innego, kształtując w niezamierzony sposób odbiór
całości. Opracowany system wychodzi naprzeciw temu problemowi poprzez udostępnianie
możliwości edycji jednocześnie więcej niż jednego parametru za pomocą gestów obu rąk użytkownika.
3. OPIS SYSTEMU I METOD STEROWANIA
Na opracowany system składa się komputer klasy PC, kamera internetowa, rzutnik multimedialny oraz ekran dla obrazu z rzutnika. Kamera jest umieszczona bezpośrednio przy rzutniku, a
jej obiektyw skierowany jest na ekran. Użytkownik znajduje się pomiędzy ekranem
a rzutnikiem, w polu optymalnego odsłuchu i za pomocą gestów rąk steruje procesami miksowania. Gesty rozpoznawane są na podstawie analizy obrazu pozyskanego z kamery. Nie wykorzystuje się rękawiczek, kolorowych znaczników na dłonie czy diod podczerwieni. Interfejs
może współpracować zarówno z systemem stereofonii dwukanałowej, jak i systemem o większej liczbie kanałów (rys. 1). Biorąc pod uwagę fakt, że nie jest konieczne stosowanie sprzętu
znajdującego się pomiędzy użytkownikiem a monitorami studyjnymi (np. stołu mikserskiego),
wyeliminować można typowo występujące odbicia dźwięku powodujące zakolorowania.
3
14th International Symposium on Sound Engineering and Tonmeistering - ISSET2011
Rys. 1. Wizualizacja przykładowego rozmieszczenia komponentów systemu
Część programowa systemu podzielona została na dwie części, tj. aplikację odpowiedzialną
za rozpoznawanie gestów i wywoływanie przypisanych im akcji systemowych oraz dostosowany do obsługi za pomogą gestów interfejs, stanowiący nakładkę graficzną na system produkcji
dźwięku, taki jak na przykład Protools czy Cubase. Interfejs ten komunikuje się z systemem
produkcji dźwięku za pośrednictwem protokołu MIDI. Funkcje natywne, takie jak zmiana poziomu ścieżki, rozpoczęcie odtwarzania czy ustawienie śladu w tryb solo, obsługiwane są poprzez protokół MIDI Mackie Control. Parametry wtyczek spoza zbioru obsługiwanego przez
protokół Mackie Control powiązane są z poszczególnymi gestami poprzez komunikaty MIDI
przypisane za pomocą funkcji MIDI Learn, będącej na wyposażeniu większości profesjonalnych programów do produkcji muzycznej.
Po uruchomieniu aplikacji odpowiedzialnej za rozpoznawanie gestów, użytkownik może
przeprowadzić proces kalibracji barwowej, wpływającej na skuteczność detekcji oraz proces
treningu zastosowanych w systemie klasyfikatorów gestów odpowiednio dla lewej i prawej
dłoni. Dzięki możliwości wytrenowania systemu do rozpoznawania gestów zarówno jednej, jak
i drugiej dłoni jednocześnie, użytkownik może z każdą dłonią skojarzyć wybrany parametr dla
wybranego śladu i dokonywać modyfikacji dwóch parametrów w tym samym momencie.
System rozpoznaje zarówno dynamiczne gesty rąk, tj. gesty bazujące na trajektorii ruchu,
jak i gesty statyczne, polegające na formowaniu dłoni w określony kształt. Oba typy gestów są
ze sobą powiązane, tj. wykonanie tego samego ruchu, ale z dłonią uformowaną w inny kształt
interpretowane jest jako dwa różne gesty. Dodatkowo, określone gesty wykonane w odpowiedniej kolejności również reprezentują klasę gestu.
Zgodnie z teorią przedstawioną w poprzednim paragrafie, wszystkie operacje związane
z przetwarzaniem dźwięku mogą być wykonywane z wyłączeniem zwrotnych informacji wizualnych, chociaż opcja pracy z pełnym interfejsem graficznym jest również dostępna. Dodatkowo, niezależnie od pracy w trybie ograniczonego lub pełnego interfejsu graficznego, użytkownik ma możliwość włączenia widoku pasków menu z ikonograficznymi przyciskami
reprezentującymi operacje miksowania dźwięku. W ten sposób, w zależności od potrzeb użytkownika możliwe jest wywoływanie funkcji systemu tylko za pomocą gestów lub wybieranie
ich poprzez skierowanie ręki nad odpowiednią ikonę. Operacje decydujące o stanie sekwencera
(np. odtwarzanie, przewijanie do przodu) lub stanie, w jakim może znajdować się dany ślad
(np. tryb wyciszenia, tryb solo), pomimo dostępności naturalnego, fonicznego bodźca zwrotnego, są dodatkowo sygnalizowane w obrębie interfejsu graficznego. Funkcje, które nie są bezpośrednio związane z miksowaniem materiału muzycznego, takie jak np. wczytanie ścieżek nagrania bądź eksport sumy ścieżek do pliku, wykonywane są w typowy dla pracy z komputerem
sposób, tj. przy użyciu myszy i klawiatury oraz z udostępnianą informacją wizualną.
W celu obsługi operacji miksowania dźwięku zaprojektowano zunifikowany słownik gestów
rąk. Przed rozpoczęciem wykonywania gestu i po jego zakończeniu, rękę w kadr wprowadza się
zewnętrzną stroną dłoni do kamery, a do wykonania określonego gestu dłoń formuje się w odpowiedni kształt. Parametr do edycji wybiera się poprzez wykonanie gestu dynamicznego lub
4
14th International Symposium on Sound Engineering and Tonmeistering - ISSET2011
umieszczenie ręki nad przyciskiem menu. Domyślnie, w trakcie wykonywania gestu dynamicznego, palce dłoni tworzą kształt litery „V”. W trakcie trenowania klasyfikatorów użytkownik
może zdefiniować własny gest. Starano się, aby gest dynamiczny w miarę możliwości kojarzył
się z wybieraną funkcją. Z tego względu, przykładowo wybranie progu kompresji skojarzone
jest z narysowaniem litery „T” w powietrzu. Wszelkie parametry modyfikuje się za pomocą
ruchu ręki w górę lub w dół, odpowiednio dla zwiększania lub zmniejszania wartości, przy domyślnym uformowaniu dłoni w kształt oznaczający gest „OK”. Każdy parametr modyfikowany
jest tylko za pomocą jednej ręki. Innymi słowy, dowolne dwa parametry można modyfikować
jednocześnie. Jeśli po zakończeniu edycji danego parametru użytkownik chce ponownie modyfikować ten sam parametr, nie ma konieczności wykonywania gestu związanego z wyborem
parametru. Wówczas wywołanie operacji sprowadza się do wykonania ruchu ręką góra / dół z
dłonią uformowaną w kształt „OK”.
4. ZASTOSOWANE METODY
Przedstawione rozwiązanie bazuje na odejmowaniu strumienia wizyjnego pozyskanego
z kamery od obrazów wyświetlanych przez rzutnik, pozyskanych z komputera i rozpoznawaniu
gestów w odpowiednio przetworzonym obrazie wynikowym. Metody wykorzystywane w systemie zostały dokładniej przedstawione we wcześniejszej publikacji autora [4], dlatego w niniejszym referacie ograniczono się do ich przywołania. Przed odjęciem obrazów, obraz pozyskany z kamery jest odpowiednio przetwarzany w celu wyeliminowania zniekształceń
wprowadzanych przez obiektyw i skompensowania nierównomiernego oświetlenia [4, 5].
Do rozpoznawania gestów dynamicznych zastosowano metody oparte na logice rozmytej. Ruch
rąk jest modelowany za pomocą reguł rozmytych wykorzystujących prędkość i kierunek jako
zmienne lingwistyczne [4]. Gesty zamodelowano z uwzględnieniem naturalnej motoryki ludzkich ruchów. Przykładowo, uwzględniony został fakt, że ruch ręki z lewej do prawej strony lub
odwrotnie, w naturalny dla człowieka sposób, odbywa się po okręgu. Z tego powodu, na przykład ruch w lewo w regułach rozmytych został wyrażony nie tylko jako wektory o kierunku
oznaczonym etykietą lewo, ale też za pomocą wektorów o kierunkach, kolejno góra i lewo, dla
przedstawienia początkowej fazy ruchu, i lewo, dół dla fazy końcowej. W celu redukcji błędów
detekcji, śledzenie pozycji rąk, w oparciu o które tworzone są wektory ruchu, wspomagane jest
filtracją Kalmana. Gesty statyczne rozpoznawane są za pomocą maszyn wektorów nośnych
(SVM) typu C-SVC z jądrem RBF. Kształt dłoni parametryzowany jest za pomocą histogramów geometrycznych par zgodnych (PGH), dzięki czemu kąt obrotu dłoni nie wpływa na skuteczność klasyfikacji.
System zbadano pod kątem wydajności i skuteczności detekcji gestów. Wydajność oceniono
sprawdzając szybkość wykonania pojedynczej iteracji rozpoznawania gestów, mierzoną liczbą
przetworzonych klatek obrazu z kamery na sekundę. Wartość ta utrzymywała się na poziomie
15 FPS (ang. frames per second) co było wystarczające dla obsługi interfejsu bez zauważalnej
latencji. Globalna skuteczność rozpoznawania gestów dynamicznych, zbadana dla grupy 20
osób, wyniosła ok. 98%, z wartością minimalną równą 96,3%.
5. PODSUMOWANIE
Warto zwrócić uwagę na fakt, że jak uważają niektórzy znani inżynierowie miksu, rozwój
techniki niekoniecznie przyczynił się do wykształcenia sposobów miksowania dźwięku dających lepsze rezultaty pod względem wartości estetycznych [7]. Ograniczenia, z jakimi borykali
się inżynierowie dźwięku w latach 50. i 60. ubiegłego wieku, wyzwalały często kreatywność
w większym stopniu niż ma to miejsce dziś. Konieczność wieloosobowego miksowania nagrań
i brak narzędzi dostępnych obecnie sprawiały, że praca inżynierów miksu miała więcej cech
5
14th International Symposium on Sound Engineering and Tonmeistering - ISSET2011
pracy artystycznej, co niekiedy prowadziło do powstawania nagrań o większym ładunku emocjonalnym. W tym kontekście zasadne wydaje się rozwinięcie zaprezentowanego systemu do
postaci umożliwiającej miksowanie nagrań za pomocą gestów więcej niż dwóch rąk. Jednoczesna praca dwóch i więcej osób przy miksowaniu danego materiału muzycznego za pomocą gestów z pewnością stanowiłaby interesujący obszar badań w dziedzinie psychologii kognitywnej.
W kolejnych etapach prac przeprowadzone zostaną testy z udziałem studentów specjalności
Inżynieria Dźwięku i Obrazu Politechniki Gdańskiej oraz inżynierów miksu, mające na celu
ocenę ergonomii opracowanego rozwiązania i zbadanie różnic pomiędzy zgraniami wykonanymi z wykorzystaniem komputera w typowy sposób, a zgraniami wykonanymi wyłącznie za pomocą gestów rąk bez udostępnionej informacji wizualnej.
PODZIĘKOWANIA
Praca została wykonana w ramach projektu POIG.01.03.01-22-017/08 pt.: "Opracowanie typoszeregu
komputerowych interfejsów multimodalnych oraz ich wdrożenie w zastosowaniach edukacyjnych, medycznych, w obronności i w przemyśle". Projekt jest współfinansowany ze środków Europejskiego Funduszu Rozwoju Regionalnego i budżetu państwa.
BIBLIOGRAFIA
[1] AVANZINI F., Interactive Sound, W: Sound to Sense, Sense to Sound – A State of the Art in Sound
and Music Computing, Davide Rocchesso and Pietro Polotti (red.), Information Society Technologies, 2007, 302–345.
[2] BOGDANOWICZ M., Integracja Percepcyjno-Motoryczna, teoria – diagnoza – terapia, Warszawa,
Centrum Metodyczne Pomocy Psychologiczno-Pedagogicznej, Wydanie III, 2000.
[3] JAKUBIK A., Spostrzeganie, uzyskano 26.04.2011 z sieci www:
http://www.psychologia.net.pl/slownik.php?level=30
[4] LECH M., KOSTEK B., Fuzzy Rule-based Dynamic Gesture Recognition Employing Camera &
Multimedia Projector, W: Advances in Intelligent and Soft Computing: Multimedia & Network Information Systems, Springer-Verlag, 2010, 69–78.
[5] LECH M., KOSTEK B., Wydajność Środowisk J2SE i C++/OpenCV w Zagadnieniu Sterowania
Komputerem za Pomocą Gestów, W: Metody wytwarzania i zastosowania systemów czasu rzeczywistego, L. Trybus, S. Samolej (red.), Rzeszów, WKŁ, 2010, 187–196.
[6] MARSHALL M.T., MALLOCH J. and WANDERLEY M.M., Gesture Control of Sound
Spatialization for Live Musical Performance, W: GW 2007, LNAI 5085, M. Sales Dias et al. (red.),
Berlin, Heidelberg, Springer-Verlag, 2009, 227–238.
[7] OWSINSKI B., The Mixing Engineer’s Handbook: Second Edition, Boston, Thomson Course Technology PTR, 2006.
[8] SZEWCZUK W., Atlas psychologiczny, Warszawa, PWN, 1976.
[9] VALBOM L., MARCOS A., WAVE: Sound and music in an immersive environment, Computers &
Graphics 29, Elsevier, 2005, 871–881.
[10] WŁODARSKI Z., Odbiór treści w procesie uczenia się, Warszawa, PWN, 1985.
MUSIC MIXING PROCESS CONTROLLED BY HAND GESTURES
In the paper a system enabling to control sound mixing process by hand gestures is presented. Multimodal perception basis are shortly reviewed, justifying the need for such a system development and system assumptions are given. The hardware part of the system is composed of a multimedia projector with a
webcam attached and a screen for projected image placed between front studio monitors of surround
sound system. An interface that works on a standard PC, recognizes gestures and controls music production system such as Protools or Cubase by sending MIDI messages, is engineered. A user is situated in a
sweet spot between the monitors and the projector and performs hand gestures influencing sound characteristics. Dynamic hand gestures, i.e. the ones based on hand motion trajectories, and the static gestures,
i.e. based on forming a hand in particular shape, are recognized by the system.
6

Podobne dokumenty