-
문제 05. n-gramNLP/NLP100 2021. 1. 4. 18:16
주어진 시퀀스(문자열이나 리스트 등)에서 n-gram을 만드는 함수를 작성하시오. 이 함수를 이용해 "I am an NLPer"라는 문장에서 단어 Bigram과 문자 Bigram을 구하시오.
s = "I am an NLPer" def bigram(idx, n): return [idx[i:i+n] for i in range(len(idx)-n+1)] w = s.split(" ") print(bigram(w,2)) print(bigram(s,2))
[출력 결과]
[['I', 'am'], ['am', 'an'], ['an', 'NLPer']] ['I ', ' a', 'am', 'm ', ' a', 'an', 'n ', ' N', 'NL', 'LP', 'Pe', 'er']
- 언어 모델 (language model)
단어 시퀀스에 확률(probability)을 부여(assign)하는 모델
+) Bigram: 단어의 활용이 바로 전 단어에만 의존
[참고]
ratsgo.github.io/from%20frequency%20to%20semantics/2017/09/16/LM/
언어모델(Language Model) · ratsgo's blog
이번 글에서는 유니그램 모델(unigram model)을 중심으로 통계적 언어모델(Statistical Language Model, 언어모델)에 대해 살펴보도록 하겠습니다. 이 글은 고려대 정순영 교수님 강의를 정리했음을 먼저 밝
ratsgo.github.io
pdfs.semanticscholar.org/7958/db0c6d4ee4453e133f6479cb05bb88f9c37c.pdf
www.slideshare.net/hunglq/lecture-6-56160116
Lecture 6
Language Models Data-Intensive Information Processing Applications ! Session #6 Jordan Boyd-Graber University of Maryland Thursday, March 10, 2011 This work is…
www.slideshare.net
datascienceschool.net/view-notebook/a0c848e1e2d343d685e6077c35c4203b/
'NLP > NLP100' 카테고리의 다른 글
문제 07. 템플릿을 이용한 문자열 생성 (0) 2021.01.04 문제 06. 집합 (0) 2021.01.04 문제 04. 원소 기호 (0) 2021.01.04 문제 03. 원주율 (0) 2021.01.04 문제 02. "shoe" + "cold" = "schooled" (0) 2021.01.04