揭秘scikit-learn：轻松掌握文本分析与情感分析实战技巧

引言

文本分析与情感分析是自然语言处理（NLP）领域的重要应用，它们在市场调研、舆情监控、客户服务等多个行业中扮演着关键角色。scikit-learn，作为Python中最受欢迎的机器学习库之一，提供了丰富的工具和算法，使得文本分析与情感分析变得更为简单和高效。本文将深入探讨如何利用scikit-learn进行文本分析与情感分析，并通过实战案例展示其应用。

文本预处理

在进行文本分析与情感分析之前，文本预处理是必不可少的步骤。这一步骤主要包括以下内容：

1. 文本清洗

文本清洗的目的是去除文本中的无用信息，如标点符号、数字、停用词等。以下是一个简单的文本清洗示例代码：

import re from nltk.corpus import stopwords from nltk.tokenize import word_tokenize def clean_text(text): # 移除标点符号和数字 text = re.sub(r'[^ws]', '', text) text = re.sub(r'd+', '', text) # 分词 tokens = word_tokenize(text) # 移除停用词 stop_words = set(stopwords.words('english')) tokens = [word for word in tokens if word.lower() not in stop_words] return ' '.join(tokens)

2. 词干提取和词形还原

词干提取和词形还原可以帮助我们处理单词的不同形式，从而将它们归为一个统一的词性。以下是一个使用scikit-learn进行词干提取的示例代码：

from sklearn.feature_extraction.text import TfidfVectorizer def stem_text(text): vectorizer = TfidfVectorizer() tfidf_matrix = vectorizer.fit_transform([text]) return tfidf_matrix.toarray()[0]

情感分析模型

情感分析是文本分析的一个重要应用，它旨在判断文本的情感倾向，如正面、负面或中性。以下是一些常用的情感分析模型：

1. 基于词典的方法

基于词典的方法通过查找文本中特定情感词汇的频率来判断情感倾向。以下是一个简单的基于词典的情感分析示例代码：

def sentiment_analysis(text): positive_words = {'happy', 'joy', 'love'} negative_words = {'sad', 'angry', 'hate'} words = text.split() positive_count = sum(word in positive_words for word in words) negative_count = sum(word in negative_words for word in words) if positive_count > negative_count: return 'Positive' elif negative_count > positive_count: return 'Negative' else: return 'Neutral'

2. 基于机器学习的方法

基于机器学习的方法利用大量标注数据进行训练，从而学习到情感倾向的规律。以下是一个使用scikit-learn进行情感分析的示例代码：

from sklearn.model_selection import train_test_split from sklearn.feature_extraction.text import CountVectorizer from sklearn.naive_bayes import MultinomialNB def train_sentiment_model(data, labels): vectorizer = CountVectorizer() X = vectorizer.fit_transform(data) X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.2) model = MultinomialNB() model.fit(X_train, y_train) return model, vectorizer def predict_sentiment(model, vectorizer, text): X = vectorizer.transform([text]) return model.predict(X)[0]