음성감정인식 프로그램을 만드려는데 mfcc 질문드려요!

조회수 500회

안녕하세요 일본에서 인공지능을 공부하고 있는 학생입니다.

다름이 아니라 이번에 졸업작품으로 음성감정인식 프로그램을 만들게 됐는데요.

과제로 개와 고양이를 분류하는 간단한 프로그램을 만들어 본 적이 있습니다.

그 때는 하나의 이미지를 28x28로 사이즈를 변경 해 3차원 배열로 쉐이프가 (트레이닝 데이터 수, 28, 28)이 됐었는데요.

음성 데이터를 MFCC로 추출하니 20, 프레임 수가 되더라구요.

그렇다면 인공지능의 학습 데이터로써 사용할 때, 이 프레임 수를 맞춰야 하는 건가요?

어느 포스팅을 보면서 하고 있는데, 거기서는 60(트레이닝 데이터 수가 60의 경우) by 20으로 맞추라고 해서요..

음성 데이터를 다뤄보는 건 처음이라 질문드려요.

아시는 분 계시면 답변 부탁드립니다!! ㅜㅜ

  • (•́ ✖ •̀)
    알 수 없는 사용자

답변을 하려면 로그인이 필요합니다.

프로그래머스 커뮤니티는 개발자들을 위한 Q&A 서비스입니다. 로그인해야 답변을 작성하실 수 있습니다.

(ಠ_ಠ)
(ಠ‿ಠ)