R语言学习:字符串替换、tidy系列包、Bland-Altman图、RODBC包、UMAP降维 作者:陆勤个人:R语言 知乎专栏:R语言学习 2021年第35周。 这一周R语言学习,记录如下。 01 字符串替换 数据清洗的时候,会用到字符串的替换操作,以实现数据的整洁性。 stringr包 第一组: 1 str_replace函数 2 str_replace_all函数 第二组: 1 str_remove函数 2 str_remove_all函数
02 tidy系列包 我常用的tidy开头的R包 tidyverse:包含了数据科学工作R包套件,提升了数据科学工作的效率。 tidymodels:适合于数据建模,提升建模的效率。 tidyquant:适合金融数据分析和时序数据处理。 tidytext:适合文本数据分析。 (欢迎你补充) 03 Bland-Altman图 应用场景:一个产品,20个受试者,两种测量方式 使用Bland-Altman图直观了解两组测量数据的一致性 x轴表示两组测量的平均值,y轴表示两组测量的差异
参考资料: https://www.r-bloggers.com/2021/08/plot-differences-in-two-measurements-bland-altman-plot-in-r/ https://statisticsglobe.com/change-font-size-of-ggplot2-plot-in-r-axis-text-main-title-legend 04 快捷键 Rmd插入R代码块: Ctrl + Alt + I R脚本自定义函数添加注释: Ctrl+Alt+Shift+R 05 本地化安装github包 三步骤: 1 利用git clone命令克隆一份github上的R包 2 在RStudio进入终端(Terminal)窗口,用命令 R CMD build xx 编译R文件,生成后缀名为tar.gz的压缩文件 3 安装编译好的文件 R CMD INSTALL xx.tar.gz 06 RODBC包连接数据库 实际工作,利用RODBC包连接HIVE平台,访问大数据里面表。 操作步骤: 1 配置ODBC数据源 2 加载RODBC包 3 建立ODBC数据库连接 4 编写取数的SQL语句 5 执行SQL语句,读取表数据 6 关闭连接 参考资料: https://blog.csdn.net/zjlamp/article/details/ 07 PCA降维技术及应用 PCA,一种常用的数据降维技术。 PCA的算法原理,借用《深度学习》书籍的讲解。
(源自:深度学习2.12的内容) 作者们利用线性代数知识来推导和解析PCA算法的思想和原理。 利用R语言来实现PCA数据降维,并且做可视化表示。
08 UMAP数据降维技术 生物信息高维数据处理和分析,经常会用到UMAP这个算法,一种基于流形拓扑结构的数据降维技术。 承接07的内容,采用UMAP数据降维和可视化表示。
学习资料: https://juliasilge.com/blog/cocktail-recipes-umap/ 09 R做数据科学工作的常用R包 R做数据科学的常用R包 1 ggplot2包,最流行的数据可视化包 2 tidyr包,数据整洁包 3 dplyr包,数据处理和分析包 4 tidyquant包,适合金融分析的包 5 caret包,适合分类和回归问题的包 6 tidyverse包,数据科学工作套件 7 e1071包,可做SVM、朴素贝叶斯、聚类、傅里叶变换的包 8 plotly包,生成动态图的包 9 knitr包,适合做可重复性研究的包,方便生成各种格式的报告 10 mlr3包,用于做机器学习的包 11 xgboost包,实现xgboost算法的包 参考资料: https://finnstats.com/index.php/2021/04/07/essential-packages-in-r/ 10 查看R语言函数源代码 R语言是一个开源的软件和平台 研读R源代码,是一种有效提升R语言能力的好办法 查看源代码的常用方式 方式一:直接写函数名
方式二:page函数 用记事本查看
方式三:edit函数
方式四:对于计算方法不同的函数,用methods函数
方式五:对于methods得出的带星号标注的源代码,用函数getAnywhere
(说明:函数代码太长,展示了其中一部分) 方式六:直接下载源代码包,进行阅读。 自动化变量分箱的包woeBinning,在CRAN网站上面可以找到源代码包,如下图。
下载并解压,就可以查看了。 参考资料: https://blog.csdn.net/funny75/article/details/ 11 预测:方法与实践 本周发现了一本优质的在线电子书《预测:方法与实践》。 阅读网址: https://otexts.com/fppcn/ https://otexts.com/fpp2/ 本书聚焦时间序列预测。 本书使用R语言,可以让你学会如何让R做预测。 R语言是免费的、开源的、跨平台的,是统计分析和预测分析的绝佳工具。 作者们在1.1节提出了一个问题: 什么是可预测的? 这个问题很有意思,我们都想做预测或者喜欢预测。 在做预测之前,我们需要想一想什么是可以预测的?什么是不可以预测的?只有这样,我们才能对症下药、有的放矢,以发挥预测的真正价值。 关于这个问题,作者们的回答。
(来源:书籍的1.1节内容) 12 双y轴图 利用ggplot2包绘制双y轴图,把条形图和折线图放在一起来展示。 效果图
学习资料: https://datageeek.com/2021/08/23/wildfires-comparison-with-ggplot2-dual-y-axis-and-forecasting-with-knn/ R语言资料专辑: R语言书籍分享 R数据可视化书籍分享
2024最新激活全家桶教程,稳定运行到2099年,请移步至置顶文章:https://sigusoft.com/99576.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。 文章由激活谷谷主-小谷整理,转载请注明出处:https://sigusoft.com/78856.html