감정 분석을위한 훈련 데이터
기업 도메인에서 이미 긍정 / 부정적 감정으로 분류 된 문서 모음은 어디에서 얻을 수 있습니까? 분석가와 미디어가 제공하는 회사 리뷰와 같이 회사에 대한 리뷰를 제공하는 대용량 문서를 원합니다.
제품과 영화에 대한 리뷰가있는 말뭉치를 찾습니다. 비즈니스 언어와 일치하는 회사 리뷰를 포함하여 비즈니스 도메인에 대한 코퍼스가 있습니까?
http://www.cs.cornell.edu/home/llee/data/
http://mpqa.cs.pitt.edu/corpora/mpqa_corpus
다음과 같이 스마일리와 함께 트위터를 사용할 수 있습니다. http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a- 감정을위한 말뭉치 분석 및 의견 채굴 .pdf
당신이 시작되기를 바랍니다. 부정, 감정 범위 등과 같은 특정 하위 작업에 관심이 있다면 문헌에 더 많은 것이 있습니다.
회사에 초점을 맞추기 위해 방법을 주제 감지와 결합하거나 주어진 회사에 대한 많은 언급을 저렴하게 사용할 수 있습니다. 또는 Mechanical Turkers에 의해 주석이 달린 데이터를 얻을 수 있습니다.
이것은 몇 주 전에 블로그 에서 작성한 목록 입니다. 이러한 데이터 세트 중 일부는 최근 NLTK Python 플랫폼에 포함되었습니다.
어휘
Bing Liu의 의견 사전
- URL : http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#lexicon
- PAPERS : 고객 리뷰 마이닝 및 요약
- 참고 : NLTK Python 플랫폼에 포함됨
MPQA 주관성 사전
SentiWordNet
- URL : http://sentiwordnet.isti.cnr.it
- 참고 : NLTK Python 플랫폼에 포함됨
Harvard General Inquirer
언어 문의 및 단어 수 (LIWC)
- URL : http://www.liwc.net
Vader Lexicon
데이터 세트
MPQA 데이터 세트
- URL : http://mpqa.cs.pitt.edu
참고 : GNU Public License.
- 정치 토론 데이터
- 제품 토론 데이터
- 주관성 감각 주석
Sentiment140 (트윗)
STS- 골드 (트윗)
- URL : http://www.tweenator.com/index.php?page_id=13
- 논문 : 트위터 감정 분석을위한 평가 데이터 세트 (Saif, Fernandez, He, Alani)
- 참고 : Sentiment140과 같지만 데이터 세트는 더 작고 사람 어노 테이터가 있습니다. 트윗, 엔티티 (감정 포함) 및 집계 세트의 3 개 파일이 함께 제공됩니다.
고객 리뷰 데이터 세트 (제품 리뷰)
- URL : http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets
- PAPERS : 고객 리뷰 마이닝 및 요약
- NOTES : 리뷰 제목, 제품 기능, 의견 강도가있는 긍정 / 부정 레이블, 기타 정보 (비교, 대명사 해결 등)
NLTK Python 플랫폼에 포함
장단점 데이터 세트 (장단점 문장)
- URL : http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets
- 논문 : 비교 문장에서의 채굴 의견 (Ganapathibhotla, Liu 2008)
- 참고 : 태그가 붙은 문장 목록
<pros>
또는<cons>
NLTK Python 플랫폼에 포함
비교 문장 (리뷰)
- URL : http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets
- 논문 : 텍스트 문서에서 비교 문장 식별 (Nitin Jindal 및 Bing Liu) , 고객 리뷰의 Mining Opinion 기능 (Minqing Hu 및 Bing Liu)
- NOTES: Sentence, POS-tagged sentence, entities, comparison type (non-equal, equative, superlative, non-gradable)
Included in the NLTK Python platform
Sanders Analytics Twitter Sentiment Corpus (Tweets)
5513 hand-classified tweets wrt 4 different topics. Because of Twitter’s ToS, a small Python script is included to download all of the tweets. The sentiment classifications themselves are provided free of charge and without restrictions. They may be used for commercial products. They may be redistributed. They may be modified.
Spanish tweets (Tweets)
SemEval 2014 (Tweets)
You MUST NOT re-distribute the tweets, the annotations or the corpus obtained (from the readme file)
Various Datasets (Reviews)
Various Datasets #2 (Reviews)
References:
- Keenformatics - Sentiment Analysis lexicons and datasets (my blog)
- Personal experience
Here are a few more;
http://inclass.kaggle.com/c/si650winter11
http://alias-i.com/lingpipe/demos/tutorial/sentiment/read-me.html
If you have some resources (media channels, blogs, etc) about the domain you want to explore, you can create your own corpus. I do this in python:
- using Beautiful Soup http://www.crummy.com/software/BeautifulSoup/ for parsing the content that I want to classify.
- separate those sentences meaning positive/negative opinions about companies.
- Use NLTK to process this sentences, tokenize words, POS tagging, etc.
- Use NLTK PMI to calculate bigrams or trigrams mos frequent in only one class
Creating corpus is a hard work of pre-processing, checking, tagging, etc, but has the benefits of preparing a model for a specific domain many times increasing the accuracy. If you can get already prepared corpus, just go ahead with the sentiment analysis ;)
I'm not aware of any such corpus being freely available, but you could try an unsupervised method on an unlabeled dataset.
You can get a large select of online reviews from Datafiniti. Most of the reviews come with rating data, which would provide more granularity on sentiment than positive / negative. Here's a list of businesses with reviews, and here's a list of products with reviews.
ReferenceURL : https://stackoverflow.com/questions/7551262/training-data-for-sentiment-analysis
'IT박스' 카테고리의 다른 글
비밀번호 안전성 검사 라이브러리 (0) | 2020.12.31 |
---|---|
하나 이상의 단어로 gem의 이름을 지정할 때 대시 나 밑줄을 사용해야합니까? (0) | 2020.12.31 |
MySQL의 빈 IN 절 매개 변수 목록 (0) | 2020.12.31 |
다음에 'StopIteration'을 발생 시키는데 'for'가 정상적인 반환을하는 이유는 무엇입니까? (0) | 2020.12.31 |
GSON-문자열에서 JSON 값 가져 오기 (0) | 2020.12.31 |