海量

Hadoop介绍2019-06-30 20:01:49

第一节：简介 hadoop基于普通廉价机的提供高可用、高扩展、高容错的分布式存储计算服务的。 hadoop设计的时候考虑到集群中任何一个节点任何时间都有可能出故障 hadoop已经帮你规避了。第二节：hadoop产生背景一、google 海量的网页数据如何存储的问题？海量网页数据如何计算? 海量
大数据2019-06-16 10:54:41

大数据概念大数据（Big data）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决：海量数据的存储和海量数据的分析计算问题。顺序给出数据
如何访问redis海量数据而不影响redis正常工作？2019-06-12 15:53:59

记住一定不要用如下命令：　　keys user* 　　keys算法是遍历算法，复杂度是O(n)，也就是数据越多，时间越高。　　如果以user为前缀的key数据量达到几百万，keys这个指令就会导致 Redis 服务卡顿，因为 Redis 是单线程程序，顺序执行所有指令，其它指令必须等到当前的 keys 指令执行完了才可以
sql优化思路2019-06-10 09:00:54

1.要理解执行计划的各个字段的含义以及优先等级 2.要了解让索引失效的情况 3.复合索引的使用方法 4.sql排查，使用慢查询日志 5.分析（使用mysql自带工具）模拟（使用存储函数或存储过程插入海量数据）海量数据的方法 6.要了解优化是一个概率事件 6.一般优化方法：　　1）.如果主查询的数据集大
TableStore: 海量结构化数据分层存储方案2019-06-05 13:55:21

前言表格存储是阿里云自研分布式存储系统，可以用来存储海量结构化、半结构化的数据。表格存储支持高性能和容量型两种实例类型。高性能使用SSD的存储介质，针对读多写多的场景都有较好的访问延时。容量型使用的是SSD和SATA混合的存储介质。对写多的场景，性能接近高性能，读方面，如果
大数据这么火，大数据到底可以用来做什么？2019-06-04 22:56:14

大数据为什么这么火？为什么很多公司不惜花高价聘请大数据工程师，对于企业来说，大数据可以用来做什么？大数据具有哪些商业价值呢？下面小千带大家详细了解一下。 1、对顾客群体细分 “大数据”可以对顾客群体细分，然后对每个群体量体裁衣般的采取独特的行动。瞄准特定的顾客群体来进行
大数据这么火，大数据到底可以用来做什么？2019-06-04 16:55:36

大数据为什么这么火？为什么很多公司不惜花高价聘请大数据工程师，对于企业来说，大数据可以用来做什么？大数据具有哪些商业价值呢？下面小千带大家详细了解一下。1、对顾客群体细分“大数据”可以对顾客群体细分，然后对每个群体量体裁衣般的采取独特的行动。瞄准特定的顾客群体来进行营销和
针对海量数据和高并发的主要解决方案2019-06-03 21:52:37

一、网站应用背景开发一个网站的应用程序，当用户规模比较小的时候，使用简单的：一台应用服务器+一台数据库服务器+一台文件服务器，这样的话完全可以解决一部分问题，也可以通过堆硬件的方式来提高网站应用的访问性能，当然，也要考虑成本的问题。当问题的规模在经济条件下通过堆硬件的方式解
日志审计系统2019-05-31 17:00:16

产品简介中安威士日志审计系统（简称VS-LS），采用业界领先的大数据技术，在克服海量数据的采集、存储、索引和运算的瓶颈之上，摒弃繁琐的多控制台界面，充分挖掘各类安全警告，通过大数据关联分析，清洗大量的误报信息。结合云端威胁情报和企业内网威胁情报，将在大规模网络环境中能够引起企业安全
如何分发大文件、大文件传输解决方案2019-05-31 14:55:06

随着云计算、大数据技术不断发展，4K 视频、虚拟现实(VR)、视频直播等互联网应用领域不断升级更新，企业网、数据中心规模持续扩大，企业拥有的数据急剧增长，海量文件随之产生。同时，互联网时代，众多行业都面临大型文件传输的问题，速度慢，是否安全，是优先考虑的前提！一直以来，企业通常使用QQ软
这可能是全网“知识点最全”的Hadoop学习指南2019-05-24 11:50:06

对于Hadoop初学者，最好不要告诉他什么定义，什么框架云云，因为很容易当成负担，实际上它也只是个工具。搞清楚Hadoop帮助我们解决了什么问题？或者换个角度想，没有Hadoop，我们做同样一项工作会增加什么任务？想清楚了这些，你才可以心怀期待的去慢慢学习它。（当然，如果你已经知道了这些，请直
mysql处理海量数据时的一些优化查询速度方法-转2019-05-24 09:55:14

最近一段时间由于工作需要，开始关注针对Mysql数据库的select查询语句的相关优化方法。由于在参与的实际项目中发现当mysql表的数据量达到百万级时，普通SQL查询效率呈直线下降，而且如果where中的查询条件较多时，其查询速度简直无法容忍。曾经测试对一个包含400多万条记
mapjoin与reducejoin2019-05-01 13:44:13

hdfs的副本的配置修改hdfs-site.xml文件<property><name>dfs.namenode.secondary.http-address</name><value>hd-02:50090</value></property>需要同步到其它机器：scp hdfs-site.xml hd-02:$PWDhadoop启动方式1）启动hdfs集群$ start-dfs.sh2）启动yarn集群$ start-yarn.sh
潜在风险的频次vs潜在风险的严重影响的程度（以及恢复）2019-04-29 18:39:57

潜在风险的频次vs潜在风险的严重影响的程度海量数据的存储对于海量数据，不要存在这样的侥幸心理，一定要好好设计你的系统。把数据增长后存储的影响降到最低。面对海量数据，鸡肋的设计必然会导致系统的崩溃。为什么有时候对一个方案会举足不定，犹豫不决？对开源组件的不信任：缺乏了解？缺乏
大数据2019-04-27 14:41:17

　大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。传统的数据处理技术已经无法胜任，需要催生新的技术。一套用来处理海量数据的软件工具
【直通BAT】海量数据面试总结2019-04-24 16:02:52

目录海量数据计算总结海量数据去重总结 1. 计算容量在解决问题之前，要先计算一下海量数据需要占多大的容量。常见的单位换算如下： 1 byte = 8 bit 1 KB = 210 byte = 1024 byte ≈ 103 byte 1 MB = 220 byte ≈ 10 6 byte 1 GB = 230 byte ≈ 10 9 byt
海量TopK问题2019-04-17 16:55:17

Top K问题在数据分析中非常普遍的一个问题（在面试中也经常被问到），比如：从20亿个数字的文本中，找出最大的前100个。以下是一些经常被提及的该类问题。（1）有10000000个记录，这些查询串的重复度比较高，如果除去重复后，不超过3000000个。一个查询串的重复度越高，说明查询它的用户越多，也就
C++海量数据处理（一）：查重与 top K问题的分析与实现2019-04-14 20:56:52

文章目录正在更新·····
大文件传输软件的优势有哪些？2019-04-11 15:55:56

进入2012年，大数据（big data）一词越来越多地被提及，人们用它来描述和定义信息爆炸时代产生的海量数据，并命名与之相关的技术发展与创新。数据正在迅速膨胀并变大，它决定着企业的未来发展。企业面临大数据传输有哪些困扰？企业选择传统的FTP、网盘等方式来传输大文件时，除了速度慢，常遇到传输
c++ 面试题(海量数据篇)2019-04-04 15:50:39

1，在海量数据中找中位数：题目如下：　　只有2G内存的pc机，在一个存有10G个整数的文件，从中找到中位数，写一个算法。　　解答：http://www.cnblogs.com/youxin/archive/2013/08/26/3281775.html 2，
海量数量处理：两个大文件中的相同记录2019-03-10 11:50:33

1.题目描述给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url? 2.思考过程（1）首先我们最常想到的方法是读取文件a，建立哈希表（为什么要建立hash表？因为方便后面的查找），然后再读取文件b，遍历文件b中每个url，对于每个遍历，我们都执行查找hash表的
海量存储第一弹 - 自动化运维2019-03-05 22:41:29

作者简介：裴泽良，2010年加入架构平台部，一直从事运营系统相关的建设工作，历经了腾讯海量存储及CDN服务的运营体系从入门到初级再到较为完善的各个阶段，目前专注于提升腾讯云上业务的运营质量，以及建设新一代高效与安全的自动化运维体系。运营体系在介绍我们的运营体系前，有必
初学大数据！2019-03-04 18:03:51

学习内容：大数据是什么？大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据其实就是海量资料巨量资料，这些巨量资料来源于世界各地
海量数据查找——Annoy算法2019-03-02 18:47:53

前言一旦文档变成这种稠密向量形式，那如何从海量文本中快速查找出相似的Top N 文本呢? 这就不得不提到一个海量数据相似查找算法——Annoy算法。算法原理建立索引 Annoy的目标是建立一个数据结构，使得查询一个点的最近邻点的时间复杂度是次线性。Annoy 通过建立一个二叉树来
基于快速GeoHash，如何实现海量商品与商圈的高效匹配？2019-02-22 16:57:50

闲鱼是一款闲置物品的交易平台APP。通过这个平台，全国各地“无处安放”的物品能够轻松实现流动。这种分享经济业务形态被越来越多的人所接受，也进一步实现了低碳生活的目标。今天，闲鱼团队就商品与商圈的匹配算法为我们展开详细解读。摘要闲鱼app根据交通条件、商场分布情况、住

首页 < 6 7 8

ICode9

Hadoop介绍2019-06-30 20:01:49

大数据2019-06-16 10:54:41

如何访问redis海量数据而不影响redis正常工作？2019-06-12 15:53:59

sql优化思路2019-06-10 09:00:54

TableStore: 海量结构化数据分层存储方案2019-06-05 13:55:21

大数据这么火，大数据到底可以用来做什么？2019-06-04 22:56:14

大数据这么火，大数据到底可以用来做什么？2019-06-04 16:55:36

针对海量数据和高并发的主要解决方案2019-06-03 21:52:37

日志审计系统2019-05-31 17:00:16

如何分发大文件、大文件传输解决方案2019-05-31 14:55:06

这可能是全网“知识点最全”的Hadoop学习指南2019-05-24 11:50:06

mysql处理海量数据时的一些优化查询速度方法-转2019-05-24 09:55:14

mapjoin与reducejoin2019-05-01 13:44:13

潜在风险的频次vs潜在风险的严重影响的程度（以及恢复）2019-04-29 18:39:57

大数据2019-04-27 14:41:17

【直通BAT】海量数据面试总结2019-04-24 16:02:52

海量TopK问题2019-04-17 16:55:17

C++海量数据处理（一）： 查重 与 top K问题的分析与实现2019-04-14 20:56:52

大文件传输软件的优势有哪些？2019-04-11 15:55:56

c++ 面试题(海量数据篇)2019-04-04 15:50:39

海量数量处理：两个大文件中的相同记录2019-03-10 11:50:33

海量存储第一弹 - 自动化运维2019-03-05 22:41:29

初学大数据！2019-03-04 18:03:51

海量数据查找——Annoy算法2019-03-02 18:47:53

基于快速GeoHash，如何实现海量商品与商圈的高效匹配？2019-02-22 16:57:50

C++海量数据处理（一）：查重与 top K问题的分析与实现2019-04-14 20:56:52