문제 05. n-gram

NLP/NLP100 2021. 1. 4. 18:16

주어진 시퀀스(문자열이나 리스트 등)에서 n-gram을 만드는 함수를 작성하시오. 이 함수를 이용해 "I am an NLPer"라는 문장에서 단어 Bigram과 문자 Bigram을 구하시오.

s = "I am an NLPer"

def bigram(idx, n):
    return [idx[i:i+n] for i in range(len(idx)-n+1)]

w = s.split(" ")

print(bigram(w,2))
print(bigram(s,2))

[출력 결과]

[['I', 'am'], ['am', 'an'], ['an', 'NLPer']]
['I ', ' a', 'am', 'm ', ' a', 'an', 'n ', ' N', 'NL', 'LP', 'Pe', 'er']

- 언어 모델 (language model)

단어 시퀀스에 확률(probability)을 부여(assign)하는 모델

+) Bigram: 단어의 활용이 바로 전 단어에만 의존

[참고]

ratsgo.github.io/from%20frequency%20to%20semantics/2017/09/16/LM/

언어모델(Language Model) · ratsgo's blog

이번 글에서는 유니그램 모델(unigram model)을 중심으로 통계적 언어모델(Statistical Language Model, 언어모델)에 대해 살펴보도록 하겠습니다. 이 글은 고려대 정순영 교수님 강의를 정리했음을 먼저 밝

ratsgo.github.io

pdfs.semanticscholar.org/7958/db0c6d4ee4453e133f6479cb05bb88f9c37c.pdf

www.slideshare.net/hunglq/lecture-6-56160116

Lecture 6

Language Models Data-Intensive Information Processing Applications ! Session #6 Jordan Boyd-Graber University of Maryland Thursday, March 10, 2011 This work is…

www.slideshare.net

datascienceschool.net/view-notebook/a0c848e1e2d343d685e6077c35c4203b/

'NLP > NLP100' 카테고리의 다른 글

문제 07. 템플릿을 이용한 문자열 생성 (0)	2021.01.04
문제 06. 집합 (0)	2021.01.04
문제 04. 원소 기호 (0)	2021.01.04
문제 03. 원주율 (0)	2021.01.04
문제 02. "shoe" + "cold" = "schooled" (0)	2021.01.04

ABOUT ME

P1ZZ4 P1ZZ4

'NLP > NLP100' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'NLP > NLP100' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바