machine learning
딥러닝을 이용한 자연어 처리(3)
딥러닝을 이용한 자연어 처리(3)
2019.07.19이제껏 classification에 대해서 공부했는데 generation 또한 이와 더붙어 자연어리에서 중요합니다. Language Modeling이란 input으로 하나의 문장이 들어왔을때 output으로 그에 대한 확률을 알려주는 모델입니다. 즉 기존의 데이터 문장을 토대로 문장이 등장할 확률을 계산 , scoring하는것으로 이해할 수 있습니다. 기존의 classification은 supervised learning 이였지만 , 언어 모델링은 비지도학습입니다. 그러나 순서가 있는 지도학습으로 바꿔서 풀 수 있습니다.(?) 이를 풀기 위해 Autoregressive language modeling(자기회귀 언어 모델링)에 대해 알아봅시다. n-gram language model이란 연속적인 n개의 토..
딥러닝을 이용한 자연어처리(2)
딥러닝을 이용한 자연어처리(2)
2019.07.11Sentence representation을 어떻게 할까 Continous bag-of words(CBow) 단어장을 단어 주머니로 보게되고, 이에 따라 단어의 순서는 무시합니다. 문장에 대해서는 token의 순서를 무시하고 각각의 개별 토큰의 벡터화한 합을 average한다. 효과가 제일 좋기 때문에(경험상) classification 할 때 baseline으로 두고 시도하는게 좋다고 합니다. 관련해서 FastText[Bojanowski, 2017]를 언급하셨는데 저번에 sentiment analysis 공부하다 pytorch로 구현한 링크를 보아서 첨부하겠습니다. https://github.com/bentrevett/pytorch-sentiment-analysis/blob/master/3%20-%20..
딥러닝을 이용한 자연어 처리(1)
딥러닝을 이용한 자연어 처리(1)
2019.06.29edwith에서 조경현 교수님의 nlp에 대한 강의가 있어 이를 수강하고 정리하여 포스팅해보려고 합니다. https://www.edwith.org/deepnlp/joinLectures/17363 Text Classification 텍스트에서 분류는 input으로 자연어로 된 문장(sentence)나 문단(paragraph) 혹은 Document가 들어왔을 때, output으로 해당 텍스트가 어떤 카테고리에 속하는 지를 알려주는 것입니다. 카테고리가 몇개냐에 따라서 어떤 분류 모델인지를 나눌 수 있습니다. Sentiment analysis : 카테고리가 positive인지 negative인지 2개 binary한 classification이며 흔히 영화 등의 리뷰 데이터를 예시로 들 수 있습니다. Text ..