IT박스

감정 분석을위한 훈련 데이터

itboxs 2020. 12. 31. 08:06
반응형

감정 분석을위한 훈련 데이터


기업 도메인에서 이미 긍정 / 부정적 감정으로 분류 된 문서 모음은 어디에서 얻을 수 있습니까? 분석가와 미디어가 제공하는 회사 리뷰와 같이 회사에 대한 리뷰를 제공하는 대용량 문서를 원합니다.

제품과 영화에 대한 리뷰가있는 말뭉치를 찾습니다. 비즈니스 언어와 일치하는 회사 리뷰를 포함하여 비즈니스 도메인에 대한 코퍼스가 있습니까?


http://www.cs.cornell.edu/home/llee/data/

http://mpqa.cs.pitt.edu/corpora/mpqa_corpus

다음과 같이 스마일리와 함께 트위터를 사용할 수 있습니다. http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a- 감정을위한 말뭉치 분석 및 의견 채굴 .pdf

당신이 시작되기를 바랍니다. 부정, 감정 범위 등과 같은 특정 하위 작업에 관심이 있다면 문헌에 더 많은 것이 있습니다.

회사에 초점을 맞추기 위해 방법을 주제 감지와 결합하거나 주어진 회사에 대한 많은 언급을 저렴하게 사용할 수 있습니다. 또는 Mechanical Turkers에 의해 주석이 달린 데이터를 얻을 수 있습니다.


이것은 몇 주 전에 블로그 에서 작성한 목록 입니다. 이러한 데이터 세트 중 일부는 최근 NLTK Python 플랫폼에 포함되었습니다.

어휘


데이터 세트


References:


Here are a few more;

http://inclass.kaggle.com/c/si650winter11

http://alias-i.com/lingpipe/demos/tutorial/sentiment/read-me.html


If you have some resources (media channels, blogs, etc) about the domain you want to explore, you can create your own corpus. I do this in python:

  • using Beautiful Soup http://www.crummy.com/software/BeautifulSoup/ for parsing the content that I want to classify.
  • separate those sentences meaning positive/negative opinions about companies.
  • Use NLTK to process this sentences, tokenize words, POS tagging, etc.
  • Use NLTK PMI to calculate bigrams or trigrams mos frequent in only one class

Creating corpus is a hard work of pre-processing, checking, tagging, etc, but has the benefits of preparing a model for a specific domain many times increasing the accuracy. If you can get already prepared corpus, just go ahead with the sentiment analysis ;)


I'm not aware of any such corpus being freely available, but you could try an unsupervised method on an unlabeled dataset.


You can get a large select of online reviews from Datafiniti. Most of the reviews come with rating data, which would provide more granularity on sentiment than positive / negative. Here's a list of businesses with reviews, and here's a list of products with reviews.

ReferenceURL : https://stackoverflow.com/questions/7551262/training-data-for-sentiment-analysis

반응형