这部电影在1995年获得了10项奥斯卡提名 , 以及金球奖、土星奖等多项提名 。
热门电影评论在标签链接报告中 , 如下所示:
图12
当我们使用for循环使用requests+bs4来抓取上述信息时 。
图13
4.1热门影评的探索与分析
表1
等级
电影
主管
类型
国家
标签
一个
肖申克的救赎
弗兰克·达拉邦特
阴谋 , 犯罪
美利坚合众国
经典 , 灵感 , 信仰 , 自由 , 人性 , 生活 , 美国 , 希望
2
霸王别姬
陈凯歌
情节 , 爱情 , 同性恋
中国
经典 , 人性 , 文艺 , 爱情 , 生活 , 文革 , 剧情 , 同志 。
三
《阿甘正传》
罗伯特·泽米基斯
剧情 , 爱情
美利坚合众国
励志 , 经典 , 生活 , 成长 , 美国 , 信仰 , 情节 , 人性
1)《肖申克的救赎》
图14
影片主要讲述了银行家安迪被错杀妻子和情人 , 并被囚禁的故事 。一个小偷因盗窃入狱 , 知道了安迪妻子和情人死亡的真相 , 典狱长拒绝帮他翻案 。知道真相后 , 安迪决定通过自己的救赎获得自由 , 最终成功越狱 。影片以“希望”为主题 , 通过监狱这个强制剥夺自由、高度强调纪律的特殊背景 , 展现了个体对“时间流逝和环境改造”的恐惧 。电影的结局有《基督山伯爵》的复仇宣泄 。《肖申克的救赎》是一部不可多得的优秀励志电影 。个人认为 , 我之所以保留它作为一部电影 , 是因为它的主题深远 。它给了人们一种无形的力量 , 它让我知道了人一生中应该拥有的最珍贵的东西 。这样才能珍惜你还有的机会 。
2)《霸王别姬》
图15
主演:张国荣(霸王 , 人称‘哥哥’)、程蝶衣(虞姬) , 导演:陈凯歌 。这是一部震撼和感动观众的经典中国历史电影 。讲述了霸王项羽和虞姬的爱情故事 。
3)《阿甘正传》
图16
阿甘和珍妮是青梅竹马 , 阿甘喜欢珍妮 。两个人成年后走不同的路 。阿甘天生智商低 , 专门从事诚实坦率的工作 , 毕业后去服兵役 。珍妮叛逆又爱冒险 , 四处游荡 。在经历了人生的种种磨难之后 , 阿甘保持了自己的本心 , 始终深爱着珍妮 , 愚者有愚者有福报 , 事业一直在上坡 。珍妮迷失在生活中 , 迷失了方向 , 想过自杀 。阿甘从未放弃珍妮 。珍妮终于想通了 , 放弃了散漫的生活 , 回到了阿甘身边 。
4.2常见标签分析
图17
下表显示了PMI最高的前15个标签:
表2
一个
默片
卓别林
6.965784285
2
清新
敏感
6.965784285
三
情绪
旅行
6.965784285
四
英雄
诺兰
5.965784285
五
记忆
中国制造
5.965784285
六
人种
非洲
5.965784285
七
自然
新鲜/美味的食物
5.965784285
八
大块
新西兰
5.795859283
九
张国荣
梁朝伟
5.64385619
10
生活
新鲜/美味的食物
5.64385619
11
信仰;相信
钢琴
5.380821784
12
“文化大革命”(1966-1976)
姜文
5.380821784
13
灾难
大块
5.380821784
14
温暖
环境保护
5.380821784
15
理由
法律
5.380821784
在本节中 , 我们将使用KMeans进行聚类 。k- medoids聚类不以类对象的平均值为中心点 。中心对象是数据集中的实际对象 , 而k均值聚类中的类中心对象是通过计算类中每个对象的均值得到的虚拟对象 。它对中小数据集有效 , 但不适用于大数据集的聚类 。构建词袋模型后 , 生成文档词矩阵cv_fit并进行聚类 。然后绘制聚类结果的散点图 , 如下图所示 。
图18
4.3分类模型和预测电影类别
K-近邻分类算法(kNN)是一种“近邻决定类别”的分类算法 , 属于示例匹配算法 。本节我们将使用分类或监督机器学习方法(Knn算法)对文档进行分类 , 预测《小红花》的类别 , 并预测其属于剧情 , 准确率为0.7572 , 召回率为100% 。
推荐阅读
- 如何治疗浅表性胃炎? 浅表性胃炎吃什么好
- 干鱿鱼怎么泡发最好 鱿鱼干怎么做好吃
- 为什么接吻要伸舌头 接吻的好处
- 背带裤怎么穿才好看? 背带裤怎么搭配
- 安徽农业大学怎么样(安徽农业大学研究生好吗)
- 宝宝腹泻用什么药效果好 孩子拉肚子吃什么药见效快
- 变白的好方法 怎样让皮肤变白
- 如何创作出一部优秀的网络文学作品? 怎样写好一本网络小说
- 温泉怎么样(女人经常泡温泉的好处跟坏处)
- 高层楼房住几层最好(1