-
질문 내용뉴스를 크롤링하는 과정에서 비슷한 내용에 제목만 다른 중복된 기사가 여러 개 있어서 문제인 상황입니다. 제프의 답변방법은 크게 두 가지가 있다. 1. 한글 tokenizer를 사용하는 방법문장을 분석하여 형태소를 추출해주는 라이브러리가 있으니, 이를 활용하여 명사가 어느 정도로 일치하는지 확인하고 걸러내는 방법이 있다. 2. LLM을 사용하는 방법LLM에게 두 문장의 유사도를 분석해달라고 요청한 후에, 해당 유사도를 기준으로 중복을 걸러내는 방법이 있다. 추가 질문Q. LLM에게 유사도를 분석해달라고 요청하는 대신, 두 기사가 같은 내용을 다루고 있을지 예상해달라는 요청은 어떨까요? |
Beta Was this translation helpful? Give feedback.
Replies: 1 comment
-
답변
|
Beta Was this translation helpful? Give feedback.
답변