数据工具大全--大数据开源处理工具汇总(100工具)

Dremel实现,它能够运行在上千个节点的服务器集群上,且能在几秒内处理PB级或者万亿条的数据记录。Drill能够帮助企业用户快速、高效地进行Hadoop数据查询企业级大数据分析。Drill于2012年8月份由Apache推出。 从Drill官方对其架构的介绍中 ...
来自: 云栖社区 > 论坛 作者: 爱慕 浏览:651 回复:9

第三章 声明数据

_         任何数据 对象(参见 数据对象 ( 3–8) ) _         字段符号 或形式参数 (参见 使用字段符号通过参数传递数据) 根据上下文 ...
来自: 云栖社区 > 论坛 作者: 刘先生的悲剧 浏览:224 回复:0

日志服务数据加工最佳实践: 多子键为组的复杂JSON加工

程序构建的日志经常会以一种统计性质的JSON格式写入, 通常其包含一个基础信息, 以及多个子健为组的形式. 本篇如何使用日志服务数据加工处理多子键为组的复杂JSON. 加工需求 统计类日志形式 程序构建的日志经常会以一种统计性质的JSON格式写入 ...
来自: 云栖社区 > 博客 作者: 成喆 浏览:55 回复:0

5款主流NoSQL数据库到底哪家强?

被称为数据结构服务器,因为值(value)可以是 字符串(String), 哈希(Hash/Map), 列表(list), 集合(sets) 有序集合(sorted sets)五种类型,操作非常方便。比如,如果你在做好友系统,查看自己的好友关系,如果 ...
来自: 云栖社区 > 论坛 作者: 两丢丢 浏览:288 回复:0

结合使用HadoopCouchbase

),将该信息转换为一种可更轻松地使用、查询处理的结构。 例如,一种典型的用途是处理来自百个不同应用程序的日志信息,以便可以识别特定的问题、计数或其他事件。通过使用 MapReduce 格式,您可以开始度量并查找趋势,将平常非常多的信息转换为更小的数据块 ...
来自: 云栖社区 > 论坛 作者: cherryyala 浏览:225 回复:0

使用StormTrident进行实时趋势分析(一)

旨在水平扩展对大的商软件支持每秒十万的消息。 Kafka spout Kafka spout从Kafka队列中读取数据并发给Storm或者Trident拓扑。Kafka spout最初是由Nathan Marz编写,现在是一个storm-contrib ...
来自: 云栖社区 > 论坛 作者: 科星 浏览:175 回复:5

数据访问技术的演变

Wei-Meng Lee 在数据库出现的早期,开发人员只需要了解正在使用的数据库产品的详尽知识。但数据库产品技术发展很快。从关系数据库到非关系数据存储区(如电子邮件文件系统),数据访问技术必须始终追随技术的飞速变化。并且,随着客户端/服务器及多层应用 ...
来自: 云栖社区 > 论坛 作者: 雨中小精灵_0424 浏览:275 回复:0

MySQL5.7特性:JSON数据类型学习

格式来存储表示数据。简洁清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读编写,同时也易于机器解析生成,并有效地提升网络传输效率。 MySQL原始JSON类型的优势在哪? 原生的JSON优势如下: 存储上类似text,可以存非常大的 ...
来自: 云栖社区 > 博客 作者: 高木易 浏览:90 回复:0

何夕:数据战略不仅是技术问题,更是业务组织问题 | 智加速度03课回顾

的方式——打造数据门户,能够帮助企业各部门打通数据流程、推动企业智化转型节奏。 数据门户可以理解为「数据」,就像电话黄一样,能够在上面查到有哪些数据数据在哪里、应该找谁要对应的数据、应该怎么要、是否有使用分析的权限等等 ...
来自: 云栖社区 > 博客 作者: startdtsms 浏览:29 回复:0

Hadoop应用实例

相册 2014-5-26 12:42 上传   ▲   最终输出文件被收集后复制到服务器端,在这里一个Web服务程序使Last.fm网站能得到并展示这些数据。如图16-3所示,这个网页展示了一个音频的使用统计信息:接听者总数播放总次。    14 ...
来自: 云栖社区 > 论坛 作者: 秀兰 浏览:749 回复:7

【阿里云产品公测】大数据下精确快速搜索OpenSearch

。问题是如果数据丢失或者重构索引我应该一次push多少在表结构不是很确定的情况下。     2:查看API 搜索返回的格式 有xml, jsonprotobuf 这三种、是否可以像solr一样导入@FILE 直接 ...
来自: 云栖社区 > 论坛 作者: 小柒2012 浏览:38456 回复:45

[心得分享]网站服务器管理软件LuManager正式版教程

事情)。最简单的应用:可以非常轻松实现让电信用户访问电信服务器,网通用户访问网通服务器,老外就访问放在国外的服务器。..可以增加任意多台服务器。支持更新缓存,用json数据格式返回删除结果。由于LUM自带了网站监控流量统计功能,所以可以使用LUM搭建 ...
来自: 云栖社区 > 论坛 作者: holdb 浏览:19182 回复:14

HTTP头部信息错误代码详解-《HTTP权威指南》

Accept默认设置为“text/javascript, text/html, application/xml, text/xml, /”。这是因为Ajax默认获取服务器返回的Json数据模式。 在Ajax代码中,可以使用 ...
来自: 云栖社区 > 博客 作者: 优惠活动 浏览:36 回复:0

数据库性能连接属性

_PROCEDURE 选项 [database]   LoginTime  建立连接的日期时间。   LogWrite  已写入事务日志的。   Max ...
来自: 云栖社区 > 论坛 作者: 糖果美妆001 浏览:277 回复:0

26.2. 日志传送后备服务器

_timeout进行限制,它可以被设置成低至秒。 但是这样低的设置大体上会增加文件传送所需的带宽。 流复制(见第26.2.5节)允许更小的数据丢失窗口。 这种配置的恢复性能是足够好的,后备服务器在被激活后通常只有片刻就可以达到完全可用。 因此,这被称为一种提供高 ...
来自: 云栖社区 > 博客 作者: 机器的心脏 浏览:13 回复:0

手把手教你使用Python抓取QQ音乐数据(第三弹)

歌词指定歌曲首热评。 【一、项目目标】 通过手把手教你使用Python抓取QQ音乐数据(第一弹)我们实现了获取 QQ 音乐指定歌手单曲排行指定的歌曲的歌名、专辑名、播放链接。 通过手把手教你使用Python抓取QQ音乐数据(第二弹)我们实现了获取 ...
来自: 云栖社区 > 博客 作者: python进阶者 浏览:31 回复:0

用Flink取代Spark Streaming!知乎实时仓架构演进

数据的查询可视化,下图是实时仓 1.0 版本的整体数据架构图。 第一部分是数据采集,由三端 SDK 采集数据并通过 Log Collector Server 发送到 Kafka。第二部分是数据 ETL,主要完成对原始数据的清洗加工并分实时离线导入 ...
来自: 云栖社区 > 博客 作者: 巴蜀真人 浏览:71 回复:0

OpenStack M版(keystone) 分代码实现及讲解

记录在数据库中的位置,以此来获取上一或者下一数据。如果不怕麻烦可以通过django的Paginator分模块,传递参数(当前、每显示多少条记录)到底层进行分,这种实现机制或更好一些,这里不再具体来说明,要实现时比较简单。 [Python ...
来自: 云栖社区 > 论坛 作者: 从未放弃飞翔 浏览:456 回复:0

盘点大数据分析的十二大杀手锏

网络的各类评论,成为了海量信息的多种形式。   极具挑战性的是,传统的数据库部署不能处理TB数据,也不能很好的支持高级别的数据分析。在过去十几年中,大规模并行处理(MPP)平台列存储数据库开启了新一轮数据分析史上的革命。而且近年来技术不断发展,我们开始 ...
来自: 云栖社区 > 论坛 作者: spartak 浏览:193 回复:1

负载均衡技术全攻略

当前业务量的需求。于是,负载均衡机制应运而生。 负载均衡(Load Balance)建立在现有网络结构之上,它提供了一种廉价有效透明的方法扩展网络设备服务器的带宽、增加吞吐量、加强网络数据处理能力、提高网络的灵活性可用性。 负载均衡有两方面的含义:首先 ...
来自: 云栖社区 > 论坛 作者: 清儿coco 浏览:789 回复:0
< 1 2 3 4 5 7 >
共有6413页 跳转至:GO
对搜索结果不满意?试试论坛 高级搜索>