R 如何解决R在大样本回归中?数据分析 电脑 /本本 配置
回归算法会比较花费时间,而且针对不同的数据还有不同的优化方式。
常见优化的思路:
①. 考虑算法层面的优化,比如是否正定,用cholesky分解代替原生的QR分解等。
②. 考虑模型的优化,比如是否写成MapReduce,或者采用 @伊首衡 提到的boostrap的方式等等。
③. 考虑计算引擎的优化,是否使用SparkR, BLAS/LAPACK 。
④. 考虑外部环境层面的优化,是否有足够的内存配置。
⑤. 考虑内存管理的优化,是否使用gc、Rcpp等内存控制方式。
也可以参考陈雁平老师的文章:用R处理大数据集下面是①些节选:分析大数据集的包
R提供了几种分析大数据集的包:
biglm 和 speedglm 包可以针对大数据集有效地拟合线性和广义线性模型。在处理大规模数据集时,这两个包提供了类似lm()和glm()的功能。由 bigmemory 包可产生大规模矩阵,①些包可以提供分析这些大规模矩阵的函数。bigannalytics 包提供了k-means聚类、行统计量(column statistics)和①个对biglm()的封装。bigtabulate 包提供了table()、split()和tapply()的功能,bigalgebra 包提供了高等线性代数的函数。biglars 包提供了最小角回归(least-angle regression)、lasso以及针对大数据集的逐步回归,数据集因太大而不能读入到内存中,这时候要配合 ff 包使用。Brobdingnag 包可以用来处理大数字(大于②^①⓪②④)
处理从GB到TB级的数据对于任何数据都是极大的挑战。如果想查看R的更多方法,请看CRAN task View: High-Performance and Parallel Computing with R ()。
译者注
李舰曾经在第④届R语言会议(北京会场)上做了题为《 R与高性能运算 》的报告,报告slides及代码请见会议纪要
那M⑥⑧⓪⓪吧
【戴尔移动工作站M⑥⑧⓪⓪】戴尔(DELL)M⑥⑧⓪⓪ ①⑦.③英寸移动工作站I⑦-④⑦①⓪MQ/⑧G/②T硬盘/DVDRW/M⑥①⓪⓪ ②G独立/摄蓝指背/⑨芯/高分/DOS/③年【行情 报价 价格 评测】
如果需要用CUDA相关的软件那就
【戴尔移动工作站M④⑧⓪⓪】戴尔(DELL)M④⑧⓪⓪ 移动工作站 I⑦-④⑦①⓪MQ/⑧G/①T/K①①⓪⓪M ②G独立/摄蓝指纹/⑥芯/①⑨②⓪*①⓪⑧⓪高分/①⑤.⑥寸/③年服务【行情 报价 价格 评测】
台式推荐迷你工作站P③⓪⓪ SFF
麻雀很小如左图,⑤脏俱全易拆
支持i⑦ · E③处理器,自己装
支持④根内存,最大⑥④GB
能装下专业显卡,跑CUDA可以加速处理数据
支持③个硬盘,③.⑤寸/②.⑤寸/pcie SSD
- 5星
- 4星
- 3星
- 2星
- 1星
- 暂无评论信息
