Choqueuse  Vincent라는 분이 MATLAB Central에 

부부젤라 소리를 없애는 코드와 데모 wav를 올렸네요[1].

 

Spectral subtraction을 사용했다고 하는데

왜곡이 좀 심하네요. 하지만 누구도 있으면 좋겠다라고 하는 것을 빠른 시간에 해본다는 것. 

그건만으로도 충분히 가치 있는 일이라고 생각합니다.

 

부연설명 : 

살짝 코드를 보니 간단하게 구성이 되어 있네요.

먼저 앞의 묵음구간을 자르고 난 뒤 0.4-1.0초간의 데이터는 noise 구간으로 판단. 부부젤라 소리가 있다고 생각하고 noise pwr를 est.(이건 앞으로도 변하지 않는다고 가정)

그 후 각 frame의 time-frequency 별로 SNR을 measure 하여 gain을 곱해주었네요.

고칠 수 있는 부분이 많을 것 같으니,

좀 더 고쳐서 올려보면 서로 재미나게 communication할 수 있겠네요. ^^

 

부연설명 2 :

모 생각난 김에 가지고 있던 코드 뒤져서 한 번 돌려봤습니다.

역시 spectral subtraction보다는 왜곡이 훨씬 적네요.

다음은 MATLAB central에 올라온 spectral subtraction 방식(anti_Vuvuzela.mp3)과 집에서 돌려본 방식(Vuvuzela_ouput.mp3)의 비교입니다.

No processing [1] : Vuvuzela_short.mp3 

Spectral subtraction [1] : anti_Vuvuzela.mp3 

집에서 그냥 돌려본 것 : Vuvuzela_output.mp3 


 이번에는 두 알고리즘의 spectrogram 비교입니다.

Spectral subtraction [1] : 구멍이 송송 뚫린것이 좀 무섭습니다. 이것들이 왜곡이 되는것이겠죠.. 


Output
집에서 그냥 돌려본 것: 잡음이 살짝 남아 있는 것을 알 수 있습니다. 그래도 좀 덜 구멍이 뚫려있죠.. 어찌되었건 speech enhancement는 왜곡과 잡음제거의 trade off 싸움이니까요..




나중에 강의할 때 project 숙제로 내면 재밌겠네요.. ㅎㅎ

이번학기 대학원 강의는 이것으로 당첨될 확률 99.9999%%%%%

 

아래는 퍼온 글 입니다[1]. 

The sound denoising algorithm is based on the popular spectral subtraction technique. Based on the spectrum of the vuvuzela sound, this denoising technique simply computes an antenuation map in the time-frequency domain. Then, the audio signal is restored by computing the inverse STFT. See [1-3] for more detail about the algorithm.

The zip file contains:

- the vuvuzela_denoising.m file 
- the vuvuzela.wav audio file

To hear the result of this algorithm, go directly to: http://soundcloud.com/choc29/vuvuzela-correction-with-matlab

Note that better denoising audio results could be obtained by properly tuning the algorithm parameters.

References:

[1] Steven F. Boll, "Suppression of Acoustic Noise in Speech Using Spectral Subtraction", IEEE Transactions on Signal Processing, 27(2),pp 113-120, 1979

[2] Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean square error short-time spectral amplitude estimator," IEEE. Transactions in Acoust., Speech, Signal Process., vol. 32, no. 6, pp. 1109–1121, Dec. 1984.

[3] S. Mallat, "A Wavelet Tour of Signal Processing", Academic Press, 3rd edition, 2008.

 

References
References

[1] http://www.mathworks.com/matlabcentral/fileexchange/27912-vuvuzela-sound-denoising-algorithm

신고
크리에이티브 커먼즈 라이선스
Creative Commons License
  1. henney 2010.07.01 22:38 신고

    앱TV 시대가 되면, 테레비에 바로 올려 돌려볼 수 있을텐데요... 2014년 월컵때쯤엔 보편화 될테죠...

  2. 각종 전자기기들의 변화속도가 요즘같이 빠르다고 느껴본적이 없던거 같은데.. 갈수록 더 빨라지겠죠? 앱TV도 그 중 하나일테구요.. 앱TV가 빨리 보편화되면 좋겠네요.. 그때가 오면 인터넷 요금제 35000원에 24개월약정 무료로 풀HD 3D TV 50인치 공짜~ 이렇게 되려나요? ^^

 

Architecture of Brain

Brain은 크게 cerebral cortex(대뇌피질)과 sub-cortical regions(피질하부)로 구분된다고 합니다. Sub-cortical region의 경우 주로 기초대사운동을 관장하게 되는데, 숨쉬기, 심장박동, 온도조절, emotional response, 반사작용, learning과 memory등등이 그것들이죠. 또한 Celebral cortex의 경우 주로 sensory and motor processing을 관장하게 되는데 language processing이나 pattern recognition과 같은 high-level function을 지원한다고 합니다. 따라서 현재의 brain computer interface는 celebral cortex를 이용하고 있지요.

 

Cortex Mapping

Cerebral cortex는 left hemisphere(좌뇌)와 right hemisphere(우뇌)로 나뉘며, 이것들은 또 다시 영역별로 다양한 기능을 담당하게 됩니다. 다음 그림 1은 brodmann area라는 cortex map [1] 을 나타냅니다. 각각의 번호에 해당하는 영역이 하는 일은 http://en.wikipedia.org/wiki/Brodmann_area 에서 찾아볼 수 있는데, 뇌의 뒤쪽 부분은 visual 에 관련된 감각을 담당하는 것이 그런 일례일 것입니다(그림의 17,18,19번이 visual cortex입니다.).

Figure 1. Brodmann Area

 

Brain Imaging

사람의 뇌는 수백만의 neuron(신경세포)들로 이루어져 있는데, 이 각각의 neuron이 정보를 주고 받을 때 electrical signal, chemicals, blood flow 등이 오고 갑니다. 고등학교 시절에 배웠듯이 neuron의 synapse(시냅스)에서 화학적 성분이 여차저차하여 전기적 전위를 발생시키고, 이런 일련의 과정을 위해 oxygen(산소)과 glucose(글루코오즈)가 필요한데 이것은 blood flow의 증가를 가져온다.. 뭐 이런류의 내용이겠지요.. 여튼 뇌에 어떤 자극이 주어졌을 때 또는 뇌가 어떤 정보처리를 하고 있을 때, 뇌의 변화를 살펴보기 위해 다양한 방법으로 eletrric, chemical, blood flow의 change(변화량)을 image화 하여 볼 수 있습니다. 이것을 brain imaging technology라고 하지요. 주로 EEG, MEG, fMRI 등이 사용됩니다.

한가지 중요한 점은 현재 기술로는 이사람이 생각을 하고 있구나~ 정도는 알 수 있어도 이 사람이 무슨 생각을 하고 있는지를 알 수는 없다고 합니다. 아마도 이정도 수준을 detect가능케하는 temporal/spatial resolution을 가지는 측정법이 없는 것이 문제인 것 같네요. 다음 Figure 2는 여러 brain imaging technology의 비교표입니다[2]. EEG를 이용하면 시간적으로는 빠르게 측정이 가능한데 공간적인 resolution(분해능력)이 떨어지네요. MEG같은 경우는 공간분해능도 좋습니다만 장치가 너무 거대하고 비싸서… 각각의 장단점을 한눈에 보기 쉽게 잘 정리해 놓은 듯 합니다.

Figure 2. 여러 뇌기능 탐색 기법의 비교

 

Brain Imaging Techniques(BIT)

Figure 2에서 살펴보았듯이 BIT에는 다양한 방법이 있습니다. 이에 대해 잘 정리해 둔 자료가 있어서 가져왔습니다[3]. 바로 brain computer interface 라는 책의 chapter 1 appendix에 있는 표입니다. 각각의 방법은 뇌표면에서의 전기적 변화, 자기적 변화, 화학적 변화, 혈류량 변화, 산소량 변화 등을 이용한다고 나와있네요. 각 기법들의 장단점까지 자세히 나와 있습니다. 참고하세요.

 

 

 

 

References

[1] Brodmann Area from Wikepedia, http://en.wikipedia.org/wiki/Brodmann_area

[2] 임창환, Human brain mapping강의자료 중에서, http://bem.yonsei.ac.kr/BioEST/Kor/lecture.html

[3] D. Tan and A. Nijholt, Brain Computer Interfaces : Applying our minds to human-computer interaction, Springer.

신고
크리에이티브 커먼즈 라이선스
Creative Commons License
백우현 LG CTO께서 2009년 CES에서 발표하셨던 기술입니다.
그때 당시 CTO의 10대기술로 선정되어 팀 내부적으로 매우 자랑스러웠던 솔루션이기도 하구요.
팀에서 이거 준비하느라고 밤샜던 기억들이 새록새록 납니다. 즐거웠던 추억이네요 ^^

참고로 DSE(Dual Speech Enhancement)은 제가 지은 이름인데요.. 왠만한 이름은 전부다 googling으로 찾을 수 있어서 다른 사람들이 아직 사용하지 않은 이름을 선택하느라 이름이 좀 어색합니다..-_- 
DSE의 경우 DSE.T 와 DSE.R 두가지 버전이 존재합니다.
DSE.T (Dual Speech Enhancement for Talk) : 통화용 솔루션
DSE.R(Dual Speech Enhancement for Recording) : 비디오 레코딩용 솔루션
추후에
DSE.C DSE.E 등 여러가지 버전이 올라가리라는 원대한 꿈을 안고 만들었었던 기억이..

DSE관련 동영상을 쓸 일이 있어서 찾은 김에 올려봅니다. ^^



신고
크리에이티브 커먼즈 라이선스
Creative Commons License

+ Recent posts