Java开发人员使用哪些大数据工具？

发布时间：2025-02-13 点击：50

1、mongodb——最受欢迎的，跨平台的，面向文档的数据库。
mongodb是一个基于分布式文件存储的数据库，使用c++语言编写。旨在为web应用提供可扩展的高性能数据存储解决方案。应用性能高低依赖于数据库性能，mongodb则是非关系数据库中功能最丰富，最像关系数据库的，随着mongdb 3.4版本发布，其应用场景适用能力得到了进一步拓展。
3、cassandra——开源分布式数据库管理系统
最初是由facebook开发的，旨在处理许多商品服务器上的大量数据，提供高可用性，没有单点故障。
apache cassandra是一套开源分布式nosql数据库系统。集google bigtable的数据模型与amazon dynamo的完全分布式架构于一身。于2008开源，此后，由于cassandra良好的可扩展性，被digg、twitter等web 2.0网站所采纳，成为了一种流行的分布式结构化数据存储方案。
因cassandra是用java编写的，所以理论上在具有jdk6及以上版本的机器中都可以运行，官方测试的jdk还有openjdk 及sun的jdk。 cassandra的操作命令，类似于我们平时操作的关系数据库，对于熟悉mysql的朋友来说，操作会很容易上手。
4、redis ——开源(bsd许可)内存数据结构存储，用作数据库，缓存和消息代理。
redis是一个开源的使用ansi c语言编写的、支持网络、可基于内存亦可持久化的日志型、key-value数据库，并提供多种语言的api。redis 有三个主要使其有别于其它很多竞争对手的特点：redis是完全在内存中保存数据的数据库，使用磁盘只是为了持久性目的; redis相比许多键值数据存储系统有相对丰富的数据类型; redis可以将数据复制到任意数量的从服务器中。
spark 是一种与 hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些不同之处使 spark 在某些工作负载方面表现得更加优越，换句话说，spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。
spark 是在 scala 语言中实现的，它将 scala 用作其应用程序框架。与 hadoop 不同，spark 和 scala 能够紧密集成，其中的 scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
10、memcached ——通用分布式内存缓存系统。
memcached是一套分布式快取系统，当初是danga interactive为了livejournal所发展的，但被许多软件(如mediawiki)所使用。memcached作为高速运行的分布式缓存服务器，具有以下的特点：协议简单，基于libevent的事件处理，内置内存存储方式。
11、apache hive ——在hadoop之上提供类似sql的层。
hive是一个基于hadoop的数据仓库平台。通过hive，可以方便地进行etl工作。hive定义了一个类似于sql的查询语言，能够将用户编写的sql转化为相应的mapreduce程序基于hadoop执行。目前，已经发布了apache hive 2.1.1 版本。
12、apache kafka ——最初是由linkedin开发的高吞吐量，分布式订阅消息系统。
apache kafka是一个开源消息系统项目，由scala写成。该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。kafka维护按类区分的消息，称为主题(topic)。生产者(producer)向kafka的主题发布消息，消费者(consumer)向主题注册，并且接收发布到这些主题的消息。kafka以一个拥有一台或多台服务器的集群运行着，每一台服务器称为broker。
13、akka ——用于在jvm上构建高并发，分布式和弹性消息驱动应用程序的工具包。
akka 是一个用 scala 编写的库，用于简化编写容错的、高可伸缩性的 java 和 scala 的 actor 模型应用。它已经成功运用在电信行业，系统几乎不会宕机。
14、hbase ——开放源代码，非关系型，分布式数据库，采用google的bigtable建模，用java编写，并在hdfs上运行。
与fujitsu cliq等商用大数据产品不同，hbase是google bigtable的开源实现，类似google bigtable利用gfs作为其文件存储系统，hbase利用hadoop hdfs作为其文件存储系统;google运行mapreduce来处理bigtable中的海量数据，hbase同样利用hadoop mapreduce来处理hbase中的海量数据;google bigtable利用 chubby作为协同服务，hbase利用zookeeper作为对应。
15、neo4j ——在java中实现的开源图形数据库。
neo4j是一个高性能的nosql图形数据库，它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全事务特性的java持久化引擎。
16、couchbase ——开源分布式的nosql面向文档数据库，针对交互式应用程序进行了优化。
如果以前没有nosql的使用经验，那么理解couchbase的时候关键有两点：延后写入和松散存储。该产品基于apache couchdb，并整合了geocouch(一个基于erlang、紧密集成的地理空间索引系统，可支持lbs应用)。
17、apache storm——开源分布式实时计算系统。
apache storm 是一个能近实时地在数据之上运行用户代码片段的流式数据处理框架。它实际上是一系列连在一起的管道。通常用于简单的分析任务，诸如计算，以及清洗，使其常规化，并且准备摄入用于长期存储的数据。
18、couchdb——开源的面向文档的nosql数据库，使用json存储数据。
couchdb 是一个开源的面向文档的数据库管理系统，可以通过 restful javascript object notation (json) api 访问。couchdb落实到最底层的数据结构就是两类b+tree 。
19、oracle coherence——内存数据网格解决方案，通过提供对常用数据的快速访问，使企业能够可预测地扩展关键任务应用程序。
简单来说，coherence仅支持java，.net和c++ api三个版本，这三个都是面向对象的语言，这也说明coherence和应用开发的亲和性。
20、titan——可扩展的图形数据库，优化用于存储和查询包含分布在多机集群上的数百亿个顶点和边的图形。
支持不同的分布式存储层：cassandra 1.1和hbase 0.92。原生实现 blueprints graph api，gremlin graph traversal language，frames graph-to-object mapper，rexster graph server。
21、amazon dynamodb——快速，灵活的全面管理nosql的数据库服务，适用于任何规模的要求一致性，单位毫秒延迟的应用程序。
amazon dynamodb 是一种完全托管的 nosql 数据库服务，提供快速而可预测的性能，能够实现无缝扩展。
22、amazon kinesis——aws上的实时流式传输数据平台。
web 应用程序、移动设备、可穿戴设备、行业传感器和许多软件应用程序和服务都可能生成大量的流数据(有时达到每小时数 tb)，需要对其进行连续地收集、存储和处理。amazon kinesis 就是针对这种需求产生的。
23、datomic——完全事务，云就绪，分布式数据库，用clojure编写。
datomic 是一个灵活的、基于时间因子的数据库，支持联合查询，具有弹性的可扩展性以及支持acid事务性。datomic 提供高可用的、分布式存储服务

湖州网站改版设计哪家公司好？
怎么才能做到网站页面的收录呢？
如何用微信公众号做企业营销推广?
松溪在线教育直播平台APP定制开发解决方案
告诉你一种有用的思维：“通道思维
H5响应式网站建设能给我们带来什么
企业互联网营销应该自己招人还是找代运营？
如何申请好域名？

上一篇：分享企业网站建设中提升人气的三大法宝

下一篇：为什么说东丽网站建设市场调研很重要?