2023年12月25日星期一14:30-17:30分,在书新五号楼西303进行了一场大数据决策与思维的课程学习,本次课程的主讲老师是吕威老师,有许多必威的学生来听取该课程。
课程伊始,吕威老师接着上节课程的内容进行讲解,对于完成一个项目需要的步骤,问题定义描述问题,描述解决问题的方法以及所需结果。如何加载数据集,吕威老师给同学们提供了阿里云的TIANCH天地、百度的飞奖两个国内较好的数据集,以及国外的kaggle和Product两个数据集,可以从上述数据集中搜集所需要的数据集来进行项目的实现。
紧接着,吕威老师讲述对搜集的数据要进行探索初步了解得到的数据的数据类型,查看每个维度的含义以及数据的分布情况,并且对所搜集的数据根据不同的情况对数据中不认识的数据进行专业的找寻,然后对数据进行可视化,可以运用常使用的matplotlib对数据进行可视化,该matplotlib可视化是以蓝色为基调较有着很强的严肃感可以应用于毕业项目和一些较为严肃的项目的使用,随后就是seaborn和plotly两个工具的可视化,这两个工具能使用3D的方式将数据可视化,还能在可视化过程中对数据进行更改,是两个非常酷炫的工具,用于课程展示能更好的展示自己讲解的课程。
随后,吕威老师讲述如何对数据进行处理,这也是较为重要的一个步骤,我们在所得数据要对数据进行清洗对原始数据进行处理和筛选,去除不必要的信息、纠正错误和缺失值,使数据更加准确、完整和可用。数据清洗的目的是为了提高数据的质量,确保数据分析和挖掘的准确性和可靠性。随后就是讲述了模型的评估以及优化,最终确实模型。
课程最后,吕威老师运用数字资产比特币2012年至2021年实际涨幅数据中的其中10万条数据来构建了一个实际项目,运用金融学的知识黄金交叉分析比特币的涨幅情况,并且在项目过程中更新特征模型特征来与之前的特征进行比较,最后对得到的模型进行评估和优化完成了该实际数据项目。
本次课程,吕威老师的详细讲解使同学们认识到在解决问题目标中遇到的一个大问题就是整个数据集中大量的数据,要如何减少计算训练和评估的成本,如何尽可能的减少不必要的特征,来平衡模型精确性和训练/预测速度之间的关系。