노래 가사를 텍스트로 보고 처리하는 과정에서 흥미로운 내용이 있어서 정리했습니다. 자연어 처리 관점에서 노래 가사를 다루니 일반적인 텍스트와 다른 점이 많이 보이네요.
- 구두점의 활용이 불명확함
예:
이런 그대를 믿으라고 했나요..예:
그 때 왜 나를 사랑한다 했나요..그대가 바랬던 마음을 그려왔었던..그 모습에 내가 많이 모자란 건가요..
첫 번째 예는 문장 끝마다 '..' 을 붙였습니다. 반면 두 번째 예는 문장 끝에 마침표가 전혀 찍혀있지 않습니다. 결론적으로 노래 가사에서 마침표, 쉼표, 느낌표 등 모든 구두점은 전부 없애버리는 편이 처리하기에 수월해보입니다. 노래 가사는 일관된 규칙으로 작성하지 않으니까요.버리고 싶은 건 니가 아니었어버려지는 건 내가 되어줄께이렇게 그냥 버려둬 오지마
자연어 처리를 단어 레벨에서 한다면 큰 문제는 없습니다. 다만 문장 레벨로 처리하려면 좀 곤란하겠죠.
- 특수문자의 활용이 다양하고 다채로움
예:
예:사르륵녹은 그대를 보면 사랑을 느끼죠oh so beautiful 사랑을 말해봐요매일 너와 함께! ~~해!~~~조금더 다가와줘
위의 예를 보시면 물결과 느낌표, 대쉬 기호가 같은 것을 의미합니다. 이 외에도 -, - - , ---, ~, 등 아주 다양합니다.다가와- 느껴봐 음-
- 사용하는 언어가 다양하다
(극단적인) 예:
무슨 노래인지는 모르겠지만 이 노래는 영어가사, 일본어, 일본어 발음, 한국어 해석이 적혀있습니다. 위의 예가 조금 특이한 경우지만 영어 단어/문장과 국문이 섞여서 나오는 가사는 아주 흔하죠.簡単に(칸탄니)간단히You make me happy一言で(히토코토데)한마디로夕べの すれ違い(유우베노 스레치가이)저녁때의 엇갈림まだまだ 埋まってない(마다마다 우맛테나이)아직아직 채워지지 않아So I'm waiting ソワソワ Oh(소와소와)안절부절
- 각종 잡; 내용
예:
예:Simply just look at youWhy must I fall for you? Ooo-Ooo-OooOr why I can't think of words when I,Simply approach youI don't know what to do, Ooo-Ooo-Ooo^ㅅ^/
[Chorus]Yeah (yeah)Shorty got down to come and get me [x2]
첫 번째 예는 잘 나가는데 가사 맨 끝에 왠 이모티콘을 넣어놨습니다. 두번째 예는 [chorus], [x2] 와 같은 부가적인 정보가 그대로 텍스트에 포함되어있습니다.
- 예 워 오 우
노래 가사에 yeah, oh, whoa, 예, 워, 예이예, 라라라, 워, 오, 오오, .... 가 아주 많이 나옵니다.
- 그 외에 나를 힘들게 하는 것들
예:
to moonn6pence from shootingstar
가사입력 papayeverte
[Jazz Instrumental]
가사 어쩌구저쩌구<br>가사 다음줄<br>가사 가사 <br>
from A-Zlyrics, ...
- 위의 내용을 다 보듬어 보면 아래와 같은 식의 Stopword를 추가해야 한다는 결론이 나옵니다. 물론 이외에도 많이 있겠죠.
- 일반적으로 stopword로 인식되는 값 확인사살
- * ** *** + " ' ` . .. ... / ~ ~~ ~~~ ~~~~ ~~~~~ ? - -- --- ^, ^^, a, b, c,...z,...
- 노래 가사에 붙어있는 불필요한 단어
- chorus, verse, pre-chorus, bridge, feat, hook, song, solo, twice, outro, sabi, intro, pre-hook, rap, x2, x3, x4, x5, x6, x7, x8, x9, x10, copyright, azlyrics, writer, br, choir, guitar
- 간주, 후렴, 반복, 가사입력, 출처, 작성자, 악보, 연주곡, 간주중
No comments:
Post a Comment