IMDB 电影评论情感分类数据集

发布时间:2025-08-11 03:36

收集信息:通过讨论、问卷调查或数据分析收集所有相关数据 #生活技巧# #团队建设技巧# #团队决策流程#

[源代码]

load_data 函数

keras.datasets.imdb.load_data( path="imdb.npz", num_words=None, skip_top=0, maxlen=None, seed=113, start_char=1, oov_char=2, index_from=3, **kwargs )

加载 IMDB 数据集。

这是一个包含 25,000 条来自 IMDB 的电影评论数据集,按情感(正面/负面)进行标记。评论已经过预处理,每条评论都编码为词索引(整数)列表。为方便起见,词语按数据集中总体频率进行索引,例如整数“3”表示数据中第 3 个最常出现的词。这允许进行快速过滤操作,例如:“只考虑最常见的 10,000 个词,但排除最常见的 20 个词”。

约定上,“0”不代表特定词,而是用于编码填充标记。

参数

path:数据缓存位置(相对于 ~/.keras/dataset)。 num_words:整数或 None。词语按其出现频率(在训练集中)进行排名,只保留 num_words 个最常出现的词。任何出现频率较低的词将以 oov_char 值出现在序列数据中。如果为 None,则保留所有词。默认为 None。 skip_top:跳过前 N 个最常出现的词(这些词可能不具信息性)。这些词将以 oov_char 值出现在数据集中。当为 0 时,不跳过任何词。默认为 0。 maxlen:整数或 None。最大序列长度。任何更长的序列都将被截断。None 表示不截断。默认为 None。 seed:整数。用于可重现数据混洗的种子。 start_char:整数。序列的开头将用此字符标记。0 通常是填充字符。默认为 1。 oov_char:整数。词汇表外字符。因 num_words 或 skip_top 限制而被切除的词语将替换为此字符。 index_from:整数。实际词语从此索引及更高索引开始。

返回

Numpy 数组元组:(x_train, y_train), (x_test, y_test)。

x_train, x_test:序列列表,即索引(整数)列表。如果指定了 num_words 参数,则最大可能的索引值为 num_words - 1。如果指定了 maxlen 参数,则最大可能的序列长度为 maxlen。

y_train, y_test:整数标签列表(1 或 0)。

注意: “词汇外”字符仅用于存在于训练集中但因未达到 num_words 限制而被排除的词。在训练集中未出现但在测试集中出现的词语已被简单跳过。

[源代码]

get_word_index 函数

keras.datasets.imdb.get_word_index(path="imdb_word_index.json")

获取一个将词语映射到其在 IMDB 数据集中索引的字典。

参数

path:数据缓存位置(相对于 ~/.keras/dataset)。

返回

词语索引字典。键是词语字符串,值是其索引。

示例

# Use the default parameters to keras.datasets.imdb.load_data start_char = 1 oov_char = 2 index_from = 3 # Retrieve the training sequences. (x_train, _), _ = keras.datasets.imdb.load_data( start_char=start_char, oov_char=oov_char, index_from=index_from ) # Retrieve the word index file mapping words to indices word_index = keras.datasets.imdb.get_word_index() # Reverse the word index to obtain a dict mapping indices to words # And add `index_from` to indices to sync with `x_train` inverted_word_index = dict( (i + index_from, word) for (word, i) in word_index.items() ) # Update `inverted_word_index` to include `start_char` and `oov_char` inverted_word_index[start_char] = "[START]" inverted_word_index[oov_char] = "[OOV]" # Decode the first sequence in the dataset decoded_sequence = " ".join(inverted_word_index[i] for i in x_train[0])

网址:IMDB 电影评论情感分类数据集 https://klqsh.com/news/view/136247

相关内容

《哪吒2》海外“风评”如何?AI大数据这样分析
基于网络爬虫的电影评论爬取以及数据分析
深入解析:NLP实战(5):基于LSTM的电影评论情感分析模型研究
电影推荐:求推荐的电影有哪些软件(有啥推荐的电影吗)
数据集
python 爬取电影评论
PyTorch 实例 – 文本情感分析项目
中国的电影评论网站前十名有哪些?
电影评论
热门综艺节目数据分析

随便看看