Ignite实战( 九 ) _生活百科

文章插图
1.零 ETL 和大规模可扩展性Ignite 机器学习依赖于 Ignite 以内存为中心的存储，它为 ML 和 DL 任务带来了巨大的可扩展性，并消除了 ETL 在不同系统之间施加的等待。例如，它允许用户直接在 Ignite 集群中跨内存和磁盘存储的数据上运行 ML/DL 训练和推理。接下来，Ignite 提供了大量针对 Ignite 的并置分布式处理进行优化的 ML 和 DL 算法。当针对大量数据集或增量针对传入数据流运行时，这些实现提供内存速度和无限的水平可扩展性，而无需将数据移动到另一个存储中。通过消除数据移动和较长的处理等待时间
2.容错和持续学习Apache Ignite 机器学习可以容忍节点故障。这意味着在学习过程中出现节点故障的情况下，所有的恢复过程对用户都是透明的，学习过程不会中断，我们会在类似于所有节点都正常工作的情况下得到结果。
3.算法和适用性3.1 分类根据训练集识别新观察属于哪个类别。

适用性：垃圾邮件检测、图像识别、信用评分、疾病识别。
算法：逻辑回归、线性 SVM（支持向量机）、k-NN 分类、朴素贝叶斯、决策树、随机森林、多层感知器、梯度提升、ANN（近似最近邻）

3.2 回归对标量因变量 (y) 与一个或多个解释变量或自变量 (x) 之间的关系进行建模。

适用性：药物反应、股票价格、超市收入。
算法：线性回归、决策树回归、k-NN 回归。

3.3 聚类以这样一种方式对一组对象进行分组，即同一组（称为集群）中的对象彼此之间（在某种意义上）比其他组（集群）中的对象更相似。

适用性：客户细分、实验结果分组、购物项目分组。
算法： K-Means 聚类、高斯混合 (GMM) 。

3.4 推荐构建推荐系统，它是信息过滤系统的子类，旨在预测用户对项目的“评分”或“偏好” 。

适用性：视频和音乐服务的播放列表生成器，服务的产品推荐器
算法：矩阵分解。

3.5 预处理特征提取和归一化。

适用性：转换输入数据（例如文本）以用于机器学习算法，以提取我们需要适应的特征，对输入数据进行规范化。
算法： Apache Ignite ML 支持使用基于分区的数据集功能进行自定义预处理，并具有默认预处理器，例如规范化预处理器、one-hot-encoder、min-max 缩放器等。

3.总结Ignite和Hadoop解决的是不同业务场景的问题，即使在一定程度上可能应用了类似的底层基础技术。Ignite是一种多用途，和OLAP/ OLTP内存中数据结构相关的，而Hadoop仅仅是Ignite原生支持的诸多数据来源之一。
Spark是一个和Ignite类似的项目。但是Spark聚焦于OLAP ，而Ignite凭借强大的事务处理能力在混合型的OLTP/ OLAP场景中表现能力更好。特别是针对Hadoop，Ignite将为现有的MapReduce框架，Hive作业提供即插即用模式的加速，避免了推倒重来的做法，而Spark需要先做数据ETL，更适合开发新的分析应用。
4.结束语这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！
另外，博主出书了《Kafka并不难学》和《Hadoop大数据挖掘从入门到进阶实战》，喜欢的朋友或同学，可以在公告栏那里点击购买链接购买博主的书进行学习，在此感谢大家的支持。关注下面公众号，根据提示，可免费获取书籍的教学视频。