八月下旬,又有一大批进口大片上映,如何甄别出好片烂片,避免花冤枉钱,已经成为了中国影迷的必修课。
我想说的是,除了豆瓣电影之外,你还需要记住一个网站,那就是传说中的IMDb。
互联网电影资料库(Internet Movie Database,简称IMDb),是一个关于电影演员、电影、电视节目、电视明星和电影制作的在线数据库。IMDb的资料中包括了影片的众多信息、演员、片长、内容介绍、分级、评论等。对于电影的评分目前使用最多的就是IMDb评分。
我利用数据分析的手段,分析了近5000部IMDb上的中外电影,就是为了告诉你,哪10部电影最值得看。
展开全文
另外,我还希望通过IMDB数据,来了解全球电影近些年的一些现状:
1.全球电影的地域性分布如何;
2.高质量电影的地域性分布如何;
3.演员热度情况;
4.中国电影在IMDB情况;
以下为精彩的数据分析,耐不住性子的童鞋可以直接下拉到后部。
数据集
这次数据的字段描述如下:color 色彩 、director_name 导演 、num_critic_for_reviews 评论数 、duration 片长、director_facebook_likes 导演、facebook粉丝数 、actor_3_facebook_likes 主演3Facebook粉丝数 、actor_2_name 主演2姓名 、actor_1_facebook_likes 主演1Facebook粉丝数 、gross 总收入 、genres 类型等等。
技术和工具
数据分析部分主要以 Python 编程语言为基础,使用 pandas 作为数据整理和统计分析的工具,matplotlib 用于制作图形,再加上Tableau的数据可视化分析。
数据整理&数据加载
数据清洗-去重
不知道数据有没有重复,数据太多使用duplicated()函数看不出来是否重复,保险起见,使用drop_duplicates()直接就地去除重复项。
比对结果来看,是有重复项的。
数据清洗-处理缺失值
从上述处理来看,总共有4998部电影,很多字段都有缺失值,但细细想来,很多缺失值是可以理解的,比如actor,如果是动画片的话,确实没有主演之说,再比如budget,很多电影方确实不愿透露,片长duration:我选择用平均数来填充缺失值。
数据分析
这部分内容我主要通过描述性统计、探索性分析、推论统计:假设检验来完成。其实上部分数据整理也算是数据分析的内容,为了思路贯穿,我单摘出来了。
描述性统计
描述性统计对整体统计量进行一个客观描述。
探索性分析——全球电影的地域性分布
至2016年来,电影产出数量排名前10的国家。
下图为地图热度图。
综上可见,美国以压倒式3773的优势稳夺第一,英国443位居第二,法国154位居第三,中国28位居第9,话说这么多年来,中国就28部电影?数据待考证。
高质量电影的分布
我们依据什么定义高质量呢?有人觉得85%以上是优秀电影,有人觉得90%是。在这里,根据imdb_score的四分位数统计情况,我选择8分这个阈值,因为最高值也才9.5分,观众的标准还是很苛刻的。
我先用pie图直观展示下高质量电影的分布占比情况,因为国家数量太多,名称重叠,不太美观,在正式报告时不可取,正式报告时可以节选前n项。
然后用tableau做出高质量电影的区域分布图,展示各国家的具体分布情况。我们发现美国仍然以压倒式的优势排列第一。虽然日本电影不在高产前十,但却出现在高质量前10排名里,事实证明日本人的创作力值得学习。
然后我筛选出高质量电影的前10国家和具体数量。
然后输出imdb_score分数最高的10部电影,先mark了可以一部部阅。
IMDb评分排名前十的电影
1.The Dark Knight 《蝙蝠侠:黑暗骑士》
2.The Shawshank Redemption 《肖申克的救赎》
3.Towering Inferno《火烧摩天楼》
4.Dekalog《十诫》
5.The Godfather: Part II 《教父2》
6.Pulp Fiction《低俗小说》
7.The Godfather 《教父》
8. Fargo《冰血暴》
9.Kickboxer: Vengeance 《搏击之王:复仇》
10.The Good, the Bad and the Ugly 《黄金三镖客》
你以为就这么结束了?还没呢!我还分析了时下Facebook最受关注的演员!下图是主演在Facebook的热度词云,主要是通过主演的粉丝数来衡量的。
主演1的词云,我筛选出粉丝数25000以上的演员在facebook上关注度。
ok,你们的杰克船长Johnny Depp拔得头筹~
主演3的词云,我筛选出粉丝数10000以上的演员在facebook上关注度。
曾经演过《一天》、《悲惨世界》、《公主日记》的好莱坞花旦Anne Hathaway拔得头筹。
词云这部分主要是通过tableau实现的,本来我是打算用Python+word cloud实现词云的,但在做地图热度图的时候,脑子里闪现一个想法,“能不能用tableau来做词云”呢?然后就用tableau来试了下,发现结果不错。
中国电影在IMDB情况
可以看出中国电影的数据是不全的,从2005到2016年才28部电影,我想可能有以下几点原因:
1.本土产品竞争; 国人有豆瓣、时光网、猫眼,不用费劲上imdb。
2.中国大陆对外网的限制; 大陆网民的网络活动受限制,很多人可能不知道imdb。
3.中国电影在imdb上活跃度低; imdb中国电影数据少,imdb中国注册用户也少,一般就算有中国电影,外国人也不会太过于主动关注。
根据提出的问题和分析过程,得出一些简单的结论,如下:
1.全球电影的地域性分布,主要集中在北美洲的美国、加拿大,欧洲的英法德意,亚洲的中印,大洋洲的澳大利亚等。
2,高质量电影的地域性分布,主要集中在高产量国家,除此之外,日本像是一匹黑马也跻身高质量前十。
3.近年来评分前10电影,主要有《蝙蝠侠:黑暗骑士》、《肖申克的救赎》、《火烧摩天楼》等。
4.演员热度情况,粉丝关注的演员有约翰·尼德普、罗宾·威廉姆斯等等;
5.中国电影在IMDB情况,由于数据原因,没有分析价值;
End.
51Testing:专注于软件测试领域,自主研发软件测试工具,为客户提供全球领先的软件测试整体解决方案。