在大数据分析与机器学习场景中,应用对数据访问的吞吐性能和延迟有较高要求。而文件存储HDFS能够提供高吞吐量和低延迟的访问能力,无需将数据迁移到计算资源本地,因此在该场景下推荐使用文件存储HDFS存储数据。云技术在线工程师为您提供技术支持。
将数据存入文件存储HDFS ,ECS实例或其他计算资源即可直接访问这些数据。将 Hadoop 或其他机器学习应用部署在多个计算资源上,这样应用可以直接通过Hadoopfs接口访问数据进行离线或在线计算,也可以直接将计算结果输出到文件存储HDFS做永久保存。
文件存储HDFS允许您就像在Hadoop分布式文件系统 (Hadoop Distributed File System) 中管理和访问数据。您无需对现有大数据分析应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件系统。
文件存储HDFS适用于互联网行业、金融行业等有大数据计算与存储分析需求的行业客户,进行海量数据存储和离线计算的业务场景,充分满足以Hadoop为代表的分布式计算业务类型对分布式存储性能、容量和可靠性的多方面要求。
创建文件存储HDFS实例后,即可在ECS及容器服务等计算资源内通过标准的HDFS协议接口访问文件系统。此外,多个计算节点可以同时访问同一个文件存储HDFS,共享文件和目录。
功能特点
无缝集成
- 文件存储HDFS允许您就像在Hadoop分布式文件系统 (HDFS)中管理和访问数据。
- 文件存储HDFS SDK可在所有Apache Hadoop 2.x环境中使用,包括阿里云EMR和阿里云Flink。
- 文件存储HDFS支持的原生文件系统语义被开发人员和用户熟知,您无需在迁移到云时学习新的存储范例。
- 从传统HDFS迁移到文件存储HDFS,不会丢失任何文件元信息,包括目录结构、文件创建时间等。
共享访问
一个文件存储HDFS实例可以被多个计算节点同时访问,非常适合跨多个ECS或容器服务实例部署的应用程序访问相同数据来源的应用场景。
安全控制
文件存储HDFS具有文件系统标准权限控制、权限组访问控制和RAM主子账号授权等多种安全机制,从而保证文件系统数据安全万无一失。
线性扩展
文件存储HDFS能够为应用负载提供高吞吐量、高IOPS及低时延的存储性能。同时,其性能与容量成线性关系,可满足业务增长时对更高容量与存储性能的需求。
云技术在线为您提供以下技术支持:
开通文件存储HDFS服务
创建文件系统
创建权限组
创建权限组规则
添加挂载点
挂载文件系统
文件存储HDFS和对象存储OSS双向数据迁移
文件存储HDFS和数据库MySQL双向数据迁移
迁移开源HDFS的数据到文件存储HDFS
在文件存储HDFS上使用CDH6
在文件存储HDFS上使用E-MapReduce
文件存储HDFS性能优化和测试
在文件存储HDFS上使用Apache Spark
在文件存储HDFS上使用Apache Flink
使用Fuse-DFS挂载文件存储HDFS
在文件存储HDFS上使用Presto
使用云企业网跨VPC访问文件存储HDFS
在文件存储HDFS上使用TensorFlow
文件存储HDFS和MaxCompute双向数据迁移