[NLU] 의미망 분석(Semantic Network Analysis)을 통한 관계 파악 Intro초창기 데이터과학을 공부할 때 월마트에서 맥주와 기저귀의 동시 구매 빈도가 높다는 것을 활용해서 상품 배치를 근처에 해두었더니 매출이 향상되었다는 이야기를 한번쯤은 접해보셨을 거라 생각합니다. 당시에는 장바구니 분석이라고 배웠던 내용이지만 이번에 공부할 의미망 분석도 이처럼 Token과 Token 사이에 동시 출현 빈도가 얼마나 되는지에 대한 관측을 통해 관계를 파악하고 의미를 부여하는 분석을 의미합니다.단어의 동시 출현 빈도 구하기단어의 동시출현 빈도를 구하는 과정에서 당연히 문장 단위의 데이터로 나누고 해당 데이터들을 형태소 분해하여 각각의 토큰이 의미를 가지는 최소 말의 단위로 구분될 수 있게 전처리를 수행해줍니다. 이후 특정 토큰과 해당 문장과단어 간의 상관관계를 구해보자두개의 단어가 .. 2024. 11. 10. [NLU] Doc에 대한 감성 분석(Sentiment Analysis) Intro어떤 문서에 대한 긍정/중립/부정의 감정이 어느정도인지 전체적인 감성이 어떤지에 대한 분석 결과는 해당 문서의 전체적인 감성을 정의함에 유용하게 사용될 수 있을 것입니다. 이런 감정 분석의 결과들이 시간 종속적인 데이터의 결과로 누적되면 감정 변화 패턴이라는 분석의 결과물로도 활용될 수 있을 것입니다. 따라서 자연어를 통해 해당 doc의 감성을 분석하는 방법에 대해서 이해하는 것도 중요한 내용이라 할 수 있습니다.기준을 어떻게 정의해야하지?감성 분석의 기준은 특정 토큰을 기준으로 긍정적인지 부정적인지를 수치화해놓은 Vocabulary를 활용해서 점수를 측정합니다. 이 Vocabulary를 감정사전이라고 부릅니다. 이 감정사전을 통해서 각각의 토큰에 대해서 긍정/부정으로 labeling을 할 수 .. 2024. 11. 10. [NLP] Retriver에서 사용되는 비교분석(Comparative Analysis) Intro형태소 분석 이후 배울 내용은 비교분석입니다. 비교분석은 리트리버(Retriever) 시스템에서 중요한 역할을 합니다. 특히, 정보 검색이나 문서 검색 시스템에서 다양한 정보를 비교하고 분석하는 과정에서 얻은 정보는 매우 중요하게 사용됩니다. ODQA같은 Task에 대해서 정리할 때, 적절한 Document를 선정하는 리트리버 시스템에서 비교분석이 적용될 수 있습니다. 따라서 두 Corpus를 비교하는 원리에 대해서 명확하게 이해하고 정보검색의 한 분야인 Retriver에서 이를 적용해보겠습니다.비교분석은 일종의 Metric으로 유용하게 사용된다.비교분석에서 사용되는 공식들은 Retriver같은 Task를 수행할 때 Metric으로 유용하게 사용됩니다. 보통 많이 사용되는 공식으로는 로그오즈비와.. 2024. 11. 10. [NLU] LOR과 TF-IDF를 통한 비교분석(Comparative Analysis) Intro비교라는 것은 여러 대상에 대한 상대적인 차이를 논할 때 사용되는 단어이다. 자연어 처리에서 비교분석은 두개 이상의 Docs 중 어떤 Docs의 빈도가 더 높은지를 측정할 때 사용되곤 합니다. 특히나 logit 같은 경우에는 정말 빈도의 상대적인 차이 정도를 수치화 시켜놓았습니다. 반면 TF-IDF 단순히 Score의 개념을 넘어 Vector로 확장시켜 Semilarity를 계산하는 측도로도 사용되곤 합니다. 이번 칼럼을 통해서 logit과 TF-IDF에 대한 개념을 학습하게 보겠습니다.LOR : log + Odds RatioLOR에 대해서 이해하기 위해서는 먼저 odds가 무엇인지에 대해서 이해해야 합니다. odds란 발생한 횟수 / 발생하지 않은 횟수로 나눈 상대적인 값입니다. 확률이랑은 .. 2024. 11. 10. [NLU] 기본적인 명사 형태소 분석과 Tokenize의 필요성 IntroNLP에 대해서 제대로 공부하기 전에 NLU에 대해서 먼저 공부하는 이유는 NLP Task를 처리하기 위해서 비정형 Text Data를 Embedding하기 전 수행하는 전처리 과정에 대해서 보다 직관적으로 정리하고 이해할 수 있기 때문에 NLU를 먼저 정리하면서 공부합니다. 이 과정에 대해서 공부하고 나면 자연어의 전처리와 이후 분석 방향에 대한 방향을 잡을 수 있습니다.형태소란?자연어 처리를 위해서 우리는 원본 데이터를 어떤 기준에 의해서 분해하는 작업을 수행하게 됩니다. 그중 형태소 분해는 형태소를 기준으로 데이터를 분해하는 과정을 이르는 말입니다. 형태소란 의미를 가진 가장 작은 말의 단위입니다. 자연어의 문맥(Context)를 이해하기 위해서 의미 단위의 토큰을 담기 위해 형태소로 문장.. 2024. 11. 9. NLP에 대한 기본 이해 Intro학교에서 NLP의 세부 분야 중 NLU에 대한 내용에 대해서 수업시간에 다뤘습니다. 이전 Boostcamp AI Tech - NLP 과정을 공부할 때는 '이해'라는 과정에 초점을 맞추기보다는 특정 Task를 수행할 수 있는 모델 개발에 좀 더 초점을 맞춰서 공부했습니다. 그래서 이번 시간에는 NLP의 세부분야 중 NLU에 대한 정리를 해볼 생각입니다. 아마 정리가 끝난 후에는 실제 자연어 처리에 대한 여러 Task와 기술들을 정리하는 시간을 가져보도록 하겠습니다. Data Structure에 대한 이해보통 Tabular 즉, Table 구조에 정의되어 있는 데이터를 우리는 Structure data라고 합니다. 이는 다른 말로 Formal data라고도 부릅니다. 하지만 모든 데이터가 이렇게 T.. 2024. 11. 9. 이전 1 다음 반응형