본문 바로가기
반응형
[NLU] 의미망 분석(Semantic Network Analysis)을 통한 관계 파악 Intro초창기 데이터과학을 공부할 때 월마트에서 맥주와 기저귀의 동시 구매 빈도가 높다는 것을 활용해서 상품 배치를 근처에 해두었더니 매출이 향상되었다는 이야기를 한번쯤은 접해보셨을 거라 생각합니다. 당시에는 장바구니 분석이라고 배웠던 내용이지만 이번에 공부할 의미망 분석도 이처럼 Token과 Token 사이에 동시 출현 빈도가 얼마나 되는지에 대한 관측을 통해 관계를 파악하고 의미를 부여하는 분석을 의미합니다.단어의 동시 출현 빈도 구하기단어의 동시출현 빈도를 구하는 과정에서 당연히 문장 단위의 데이터로 나누고 해당 데이터들을 형태소 분해하여 각각의 토큰이 의미를 가지는 최소 말의 단위로 구분될 수 있게 전처리를 수행해줍니다. 이후 특정 토큰과 해당 문장과단어 간의 상관관계를 구해보자두개의 단어가 .. 2024. 11. 10.
[NLU] Doc에 대한 감성 분석(Sentiment Analysis) Intro어떤 문서에 대한 긍정/중립/부정의 감정이 어느정도인지 전체적인 감성이 어떤지에 대한 분석 결과는 해당 문서의 전체적인 감성을 정의함에 유용하게 사용될 수 있을 것입니다. 이런 감정 분석의 결과들이 시간 종속적인 데이터의 결과로 누적되면 감정 변화 패턴이라는 분석의 결과물로도 활용될 수 있을 것입니다. 따라서 자연어를 통해 해당 doc의 감성을 분석하는 방법에 대해서 이해하는 것도 중요한 내용이라 할 수 있습니다.기준을 어떻게 정의해야하지?감성 분석의 기준은 특정 토큰을 기준으로 긍정적인지 부정적인지를 수치화해놓은 Vocabulary를 활용해서 점수를 측정합니다. 이 Vocabulary를 감정사전이라고 부릅니다. 이 감정사전을 통해서 각각의 토큰에 대해서 긍정/부정으로 labeling을 할 수 .. 2024. 11. 10.
[NLP] Retriver에서 사용되는 비교분석(Comparative Analysis) Intro형태소 분석 이후 배울 내용은 비교분석입니다. 비교분석은 리트리버(Retriever) 시스템에서 중요한 역할을 합니다. 특히, 정보 검색이나 문서 검색 시스템에서 다양한 정보를 비교하고 분석하는 과정에서 얻은 정보는 매우 중요하게 사용됩니다. ODQA같은 Task에 대해서 정리할 때, 적절한 Document를 선정하는 리트리버 시스템에서 비교분석이 적용될 수 있습니다. 따라서 두 Corpus를 비교하는 원리에 대해서 명확하게 이해하고 정보검색의 한 분야인 Retriver에서 이를 적용해보겠습니다.비교분석은 일종의 Metric으로 유용하게 사용된다.비교분석에서 사용되는 공식들은 Retriver같은 Task를 수행할 때 Metric으로 유용하게 사용됩니다. 보통 많이 사용되는 공식으로는 로그오즈비와.. 2024. 11. 10.
[NLU] LOR과 TF-IDF를 통한 비교분석(Comparative Analysis) Intro비교라는 것은 여러 대상에 대한 상대적인 차이를 논할 때 사용되는 단어이다. 자연어 처리에서 비교분석은 두개 이상의 Docs 중 어떤 Docs의 빈도가 더 높은지를 측정할 때 사용되곤 합니다. 특히나 logit 같은 경우에는 정말 빈도의 상대적인 차이 정도를 수치화 시켜놓았습니다. 반면 TF-IDF 단순히 Score의 개념을 넘어 Vector로 확장시켜 Semilarity를 계산하는 측도로도 사용되곤 합니다. 이번 칼럼을 통해서 logit과 TF-IDF에 대한 개념을 학습하게 보겠습니다.LOR : log + Odds RatioLOR에 대해서 이해하기 위해서는 먼저 odds가 무엇인지에 대해서 이해해야 합니다.  odds란 발생한 횟수 / 발생하지 않은 횟수로 나눈 상대적인 값입니다. 확률이랑은 .. 2024. 11. 10.
반응형