Ignite实战( 九 )


Ignite实战

文章插图
1.零 ETL 和大规模可扩展性Ignite 机器学习依赖于 Ignite 以内存为中心的存储 , 它为 ML 和 DL 任务带来了巨大的可扩展性,并消除了 ETL 在不同系统之间施加的等待 。例如 , 它允许用户直接在 Ignite 集群中跨内存和磁盘存储的数据上运行 ML/DL 训练和推理 。接下来,Ignite 提供了大量针对 Ignite 的并置分布式处理进行优化的 ML 和 DL 算法 。当针对大量数据集或增量针对传入数据流运行时 , 这些实现提供内存速度和无限的水平可扩展性,而无需将数据移动到另一个存储中 。通过消除数据移动和较长的处理等待时间
2.容错和持续学习Apache Ignite 机器学习可以容忍节点故障 。这意味着在学习过程中出现节点故障的情况下,所有的恢复过程对用户都是透明的,学习过程不会中断,我们会在类似于所有节点都正常工作的情况下得到结果 。
3.算法和适用性3.1 分类根据训练集识别新观察属于哪个类别 。
  • 适用性:垃圾邮件检测、图像识别、信用评分、疾病识别 。
  • 算法: 逻辑回归、线性 SVM(支持向量机)、k-NN 分类、朴素贝叶斯、决策树、随机森林、多层感知器、梯度提升、ANN(近似最近邻)
3.2 回归对标量因变量 (y) 与一个或多个解释变量或自变量 (x) 之间的关系进行建模 。
  • 适用性:药物反应、股票价格、超市收入 。
  • 算法:线性回归、决策树回归、k-NN 回归 。
3.3 聚类以这样一种方式对一组对象进行分组,即同一组(称为集群)中的对象彼此之间(在某种意义上)比其他组(集群)中的对象更相似 。
  • 适用性:客户细分、实验结果分组、购物项目分组 。
  • 算法: K-Means 聚类、高斯混合 (GMM) 。
3.4 推荐构建推荐系统,它是信息过滤系统的子类 , 旨在预测用户对项目的“评分”或“偏好” 。
  • 适用性: 视频和音乐服务的播放列表生成器,服务的产品推荐器
  • 算法: 矩阵分解 。
3.5 预处理特征提取和归一化 。
  • 适用性:转换输入数据(例如文本)以用于机器学习算法,以提取我们需要适应的特征,对输入数据进行规范化 。
  • 算法: Apache Ignite ML 支持使用基于分区的数据集功能进行自定义预处理,并具有默认预处理器,例如规范化预处理器、one-hot-encoder、min-max 缩放器等 。
3.总结Ignite和Hadoop解决的是不同业务场景的问题,即使在一定程度上可能应用了类似的底层基础技术 。Ignite是一种多用途,和OLAP/ OLTP内存中数据结构相关的,而Hadoop仅仅是Ignite原生支持的诸多数据来源之一 。
Spark是一个和Ignite类似的项目 。但是Spark聚焦于OLAP , 而Ignite凭借强大的事务处理能力在混合型的OLTP/ OLAP场景中表现能力更好 。特别是针对Hadoop,Ignite将为现有的MapReduce框架,Hive作业提供即插即用模式的加速,避免了推倒重来的做法,而Spark需要先做数据ETL,更适合开发新的分析应用 。
4.结束语这篇博客就和大家分享到这里,如果大家在研究学习的过程当中有什么问题,可以加群进行讨论或发送邮件给我,我会尽我所能为您解答,与君共勉!
另外 , 博主出书了《Kafka并不难学》和《Hadoop大数据挖掘从入门到进阶实战》,喜欢的朋友或同学,可以在公告栏那里点击购买链接购买博主的书进行学习,在此感谢大家的支持 。关注下面公众号 , 根据提示,可免费获取书籍的教学视频 。

推荐阅读