Features

project details

사용법

1. 고유 명사를 고려한 토큰화
  • 기존의 라이브러리가 인식하지 못하는 고유 명사를 쉽게 지정하여 토큰화 결과에 반영할 수 있도록 합니다.
  • 여러 개의 고유 명사가 존재하는 경우 명사별로 점수를 지정하여 우선순위를 결정할 수 있습니다.
  • 2. 중복 명사 제거
  • 사용자의 필요에 따라 중복되는 명사를 제거하여 결과를 보여줍니다.
  • 3. 명사 개수 카운팅
  • 특정 명사의 빈도수를 빠르게 확인할 수 있습니다.
  • 4. [진행중] 시각화
  • 토큰화 된 결과를 빈도수 등에 따라 워드클라우드,막대그래프로 나타내어 텍스트의 탐색을 도와줍니다.
  • How to Use

    1. Tokenization considering proper nouns
  • It makes it easy to designate proper nouns that existing libraries do not recognize so that they can be reflected in tokenization results.
  • If there are multiple proper nouns, you can prioritize by scoring for each noun.
  • 2. Removing duplicate nouns
  • It shows the results by removing duplicate nouns according to the user’s needs.
  • 3. Counting the number of nouns
  • You can quickly check the frequency of certain nouns.
  • 4. [In progress] Visualizing
  • The tokenized results are displayed in word clouds and bar graphs according to the frequency to help analyze the text.