二手车交易价格保值率影响因素分析

(新增变量)二手车的价格保值率 = 二手车报价/汽车原价

该新增变量反映了二手车与一手车的价格差距

数据预处理部分进行了描述性统计和特征工程

剩余部分主要研究了二手车价格保值率主要受哪些因素影响

主要方法是可视化分析和使用回归树进行回归分析


标签:经管类

关于员工缺勤时长的因素分析

21世纪是竞争日益激烈的时代,时间就是金钱,各个公司都对员工的工作时间做了严格要求,员工缺勤不仅会影响了自身的薪资水平,还会间接影响到整个企业的利益。本文使用UCI数据库的缺勤数据集,建立多元回归模型,分析了个体特征、工作压力、生育状况与缺勤时长之间的关系,结果表明:员工的年龄和孩子数量对其缺勤时长有着显著的影响。

标签:经管类

新冠病毒疫情数据可视化分析

本案例应用Python网络爬虫方法,在腾讯新闻网站爬取新冠肺炎实时数据,通过数据可视化,展现中国各省市的疫情分布情况以及新发地新冠病毒爆发之后北京的战疫情况。

案例主要包含以下内容:1.爬取腾讯新闻网站实时更新的疫情数据,绘制疫情分布地图、柱状图、玫瑰图,展现中国各省市新冠肺炎确诊人数的分布情况;2.爬取北京市的每日疫情数据,选取新发地疫情爆发之后(2020年6月11日以来)的数据绘制折线图,反映北京面对新一轮新冠病毒爆发的应对情况。


标签:经管类

信用卡评分建模分析

信用评分技术是一种常见的应用统计模型,是一种对贷款申请人(信用卡申请人)做风险评估分值的方法。有了信用评分技术,在借贷的过程中,银行就可以对风险进行有效的评估,从而最大程度地规避信用风险。

标签:经管类

新冠肺炎疫情背景下学生的在线学习满意度分析

本研究通过设计问卷收集数据,评估了新冠肺炎疫情期间学生对于在线学习以及传统学习的满意度。主要内容包括:(1)学生对在线学习的经历如何评价;(2)检验在线学习与传统学习整体满意度之间是否存在显著性的差异;(3)检验学生在线学习满意度与学生的性别,年龄,教育水平之间是否有相关关系;(4)检验哪些是影响学生对在线学习满意度的关键因素。

标签:经管类

消费者投诉举报咨询信息挖掘分析

本案例数据包含了12315消费者投诉举报咨询等信息共65535条,本案例旨在研究针对消费者繁杂的投诉数据,将数据进行分类整理,并进行词云可视化的呈现。目的是为了挖掘出繁杂的投诉信息中,消费者主要关注商品的哪些地方,找出消费者在哪方面进行投诉并分析投诉原因。

标签:经管类

上海市摩拜单车使用数据的探索性分析

本案例基于摩拜单车2016年8月上海市的骑行记录数据.主要研究内容包括以下几点:1. 休息日和工作日的使用是否有明显区别? 2. 早高峰和晚高峰的用车哪个更大? 3. 一周内某天的逐小时使用累计量. 4. 骑行距离和骑行时长,并据此筛选异常骑行记录. 5. 根据track列重新计算骑行距离,并在此筛选异常骑行记录.

标签:社会学

疫情期间大学生线上学习情况调研

案例基于电子问卷回收数据(调查得到大学生群体在疫情期间的线上学习经历与态度),对问卷结果进行描述性统计分析与推论性统计分析。探究高校学生的线上学习情况、体验感、满意度等方面,以此分析网络教学的优点与弊端,进而对线上教学提出合理的改进措施。

标签:社会学

2019年世界幸福状况相关研究——基于K均值聚类

随着人类的进步与发展,有关“幸福”定义也越来越深刻,幸福不再仅仅局限于物质方面,个人的主观感受也成为了定义幸福感的一个方面。联合国发布的《世界幸福报告》是对全球幸福状况比较权威的一个调查。2012年第一个世界幸福报告于全球发布,一时间引起了世界各地广泛而深刻的讨论。随着评判标准的越加科学与完整,这个报告得到了越来越多人的认可。对幸福感的一个正确度量,有利于政府的决策和国家各方面的发展。 本案例将对2019年世界幸福报告的数据进行研究,运用可视化方法来分析2019年世界各国的幸福状况,探讨影响幸福指数的因素,并依据数据对各国进行聚类分析,研究幸福感较强国家存在的普遍特点,并得出结论。

标签:经管类

游客情感分析及可视化—以苏州拙政园为例

2020年初新冠疫情的爆发重创了旅游景区的发展,现如今各大景区急需从新冠阴影中走出。TrustYou的最新研究发现,年轻的游客越来越相信网络评论,而那些拥有良好的网络影响的景区会从这些评论中受益。因此,随着网络的普及和大数据的发展,游客的网络评论不仅对于景区摆脱新冠疫情的阴影至关重要呢,还有助于其他潜在的游客深入地了解景区并唤起其旅游的意愿。

本次数据科学实战训练营中,我学习到关于文本分析以及网络爬虫的知识,所以运用学到的知识来对苏州拙政园的游客评论进行文本挖掘和分析。

标签:经管类

新零售目标产品的精准需求预测

本案例通过数据分析方法,对于新零售企业的“精准需求预测问题”给出了一套方案。首先根据层级复杂,品类繁多的历史销售数据,从区域、小类以及skc多个层面对大量数据进行预处理;之后利用统计学中的三大相关系数,从门店skc(单款单色)层级分析影响产品销量的相关因素,同时从小类和skc两个层级分别预测产品销量,并分析二者间的联系;最后通过MAPE的计算对预测结果进行评价,并给出后续的优化方向。

标签:经管类

深圳地区二手车价格分析及预测

由于二手车市场管理混乱,车辆品质良莠不齐,经常有劣币驱逐良币的情况出现,由于信息不对称的原因,买方和卖方均对价格设定有一定疑惑。本文爬取了深圳地区二手市场的车辆状况和价格,对其进行分析。采用机器学习的线性回归的方法对二手车价格进行预测。然后进行结巴分词,利用pyecharts做了词云。可以得出二手市场网站对于车辆的一些描述。

标签:经管类

豆瓣电影数据分析

豆瓣电影通过收集用户观看电影后进行的打分、写的影评等信息,给出一个电影的排名。目前对于豆瓣电影的数据分析不在少数,但大多都只是对于各类信息的描述统计,本篇报告旨在针对豆瓣电影给出的排名前250名的电影数据,分别从各州、亚洲、中国三个层面来对入围电影的年份、数量和类型进行分析,希望发现层面间及层面内的电影行业发展特点。  首先通过编写网络爬虫爬取了排名前250名的250条电影数据,采集对象包括:影片的中文名、外文名、评分、评价数、概述及相关信息。经过对相关信息列的数据提取整理及其他数据的整理,最后得到了影片中文名、评分、评价数、年份、国家、剧情类型六类信息。  然后根据入围电影所属的国家,从各州、亚洲、中国三个层面来对入围电影所属的年份进行了描述统计,分析各层面高分电影产出的时间特点。接着,分别从三个层面对所入围电影所属国家(地区)的入围数量进行分析,然后从这三个层面对入围电影的类型进行描述统计,分析各层面在高分电影类型上的不同点。最后,对影片的概述进行词频统计,并制作词云,分析高分电影所共同突出的主题。

标签:经管类

2014-2019年高考数据分析与可视化

本项目使用主要使用Python中的Pandas和Pyecharts工具包,利用2014-2019年中国各省份本科分数线,以及各大学的招生分数线数据,对高考近几年在各省的情况作出分析。

标签:经管类

2018北京积分落户数据分析

本案例基于北京积分落户数据,使用Python中pandas, numpy, matplotlib包进行数据统计分析,分析积分落户人群的一些显著特征。分析2018年通过积分落户居民的显著特征。案例主要内容包括以下几点:1. 落户人员就职公司分布分析及可视化 2. 落户人员积分数分析3.落户人员年龄分析 。

标签:经管类

电商企业用户消费行为分析

进入信息化时代后,如何选择高质量客户是当前企业普遍面临的现实问题。文章选取电商平台下的某企业客户消费数据进行研究,从而挖掘出高质量客户作为企业营销的目标群体。

标签:经管类

罗斯曼商店的销售数据“销售列”的预测

 本篇报告通过利用工具python,利用Rossmann(欧洲的一家连锁药店)的数据来预测德国各地1115家店铺的6周销量为了更好的实现目的,在数据处理部分我解决了一些数据集方面的问题,运用不同的方法对不同的特征缺失值进行了填充。又因为train和test数据集都与store产生了分离。而store中的特征又与预测结果息息相关。因此要做好一个完整的训练和测试集,必须用合理的方式把store得数据与train和test合并起来。 只有理解各个特征的现实意义才能做出更合理的特征工程,而这个理解需要通过一些统计上的知识与时机生活中的常识。在这里我运用matplot和seaborn的绘图工具中的统计工具对数据可视化后,洞察数据之间的相关性。然后辅助一些生活常识,进一步理解特征。 最后一部分,选取了几种方法对其进行优化,可以看出模型效果有显著提升。但是最终发现通过混合多种模型得到的结果比单个模型的效果更好,即加权融合的效果更好。

标签:经管类

江西省南昌市8月气温分析

本案例基于江西省南昌市8月气温时间序列数据,研究南昌市8月气温的变化。案例主要内容包括以下几点:1.对2011年至2019年的江西省南昌市的历史天气数据进行爬取;2.自2011年起,江西省南昌市8月气温的变化情况(当日最高温度,月平均气温),并用可视化手段展现出来;3.对数据进行移动平均预测和指数平滑预测。

标签:经管类

学生考试成绩影响因素的相关性分析和分类预测算法应用

在当今的教育手段和背景下,学生的学习成果一向是通过考试这种形式来进行考核和计量的。因此学生的学习效果的好坏优劣直接体现在了考试成绩上。

随着教育学、社会心理学、认知心理学、发展心理学等学科不断地融合发展和深入探索,人类的学习行为得到了研究者们越来越多的关注,因此对于“学习行为以及学习效果的影响因素”这一主题探索越来越丰富、越来越多元。

人们已经意识到,对于不同种类的知识,最有效的学习方式大不相同,而对于不同种类知识的认知优势更是因人而异。除了知识的种类之外,学习者的性别、身体状况、心理状况、早期教育、家庭氛围、勤奋程度和生活习惯都会对学习者的学习效果,也就是考试成绩产生一定的影响。 本案例旨在探讨几种常见影响因素对于考试成绩的影响。

值得说明的是,我作为一名会计专业的本科学生,对于python、统计分析、机器学习的了解和应用都非常粗陋和浅显,但是在学习和实践的过程中,我自认为对于这些工具和知识的掌握程度有了长足的提高,其收获甚至远远胜过平常的被动式学习。这也印证了此次课程学习中,让我印象非常深刻的谢斐教授的一句话,他说“学习是要在解决问题和不断实践中完成的,否则效果很不理想”。事实证明,动手实践、解决问题确实让我获益良多。


标签:经管类

模塑科技股票未来价格趋势分析

通过调取2010.1.1-2020.7.20的模塑科技的股票信息,进行数据清洗、分析,和模型搭建,调参模型拟合。

标签:经管类

北京二手房价格基本情况分析

房价与现代人生活息息相关,一线城市的二手房交易更是在房产交易中占据了重要地位,通过抓取北京市二手房交易数据,有助于了解在新冠肺炎控制期间,北京市二手房市场的基本情况,为交易决策提供支持。

标签:经管类

房屋贷款违约风险预测分析

本案例利用Dream Housing Finance公司房屋贷款历史数据,对数据进行预处理后,尝试使用python构建逻辑回归模型(logistic regression),利用模型预测货款入的违约情况,房屋贷款违约预测模型的建立以及后期的关键指标的探索,给银行业或者小额贷款机构的贷前审批以及贷中的管理决策提供指导。

标签:经管类

新冠疫情对保险业影响分析及行业发展预测

 2019年末的新冠疫情对中国各行各业均造成了一定的影响,特别是对第二和第三产业的影响更剧烈。本人研究生期间研究方向为保险学,所以想引入2019年和2020年1-5月的数据探讨此次疫情对保险行业的具体影响情况,并对2020年保险行业的发展做出预测分析。

标签:经管类

深交所上市公信息披露评级的可视化和决策树分析

上市公司根据相关监管和法规的要求会公布反映公司业绩的报告,报告可分为定期报告(季报、半年报和年报等)和不定期报告(包括重大师姐公告等),上市公司信息披露作为外界了解公司的主要途径,但是上市公司由于各种原因,并不能保障其信息披露的质量。深交所会定期公布上市公司信息披露评级数据,本文基于此对影响上市公司信息披露质量的因素展开分析。

标签:经管类