ICode9

精准搜索请尝试: 精确搜索
  • Hadoop介绍2019-06-30 20:01:49

    第一节:简介 hadoop基于普通廉价机的提供高可用、高扩展、高容错的分布式存储计算服务的。 hadoop设计的时候考虑到集群中任何一个节点任何时间都有可能出故障  hadoop已经帮你规避了。 第二节:hadoop产生背景 一、google 海量的网页数据如何存储的问题? 海量网页数据如何计算? 海量

  • 大数据2019-06-16 10:54:41

    大数据概念 大数据(Big data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 主要解决: 海量数据的存储和海量数据的分析计算问题。 顺序给出数据

  • 如何访问redis海量数据而不影响redis正常工作?2019-06-12 15:53:59

    记住一定不要用如下命令:   keys user*   keys算法是遍历算法,复杂度是O(n),也就是数据越多,时间越高。   如果以user为前缀的key数据量达到几百万,keys这个指令就会导致 Redis 服务卡顿,因为 Redis 是单线程程序,顺序执行所有指令,其它指令必须等到当前的 keys 指令执行完了才可以

  • sql优化思路2019-06-10 09:00:54

    1.要理解执行计划的各个字段的含义以及优先等级 2.要了解让索引失效的情况 3.复合索引的使用方法 4.sql排查,使用慢查询日志 5.分析(使用mysql自带工具)模拟(使用存储函数或存储过程插入海量数据)海量数据的方法 6.要了解优化是一个概率事件 6.一般优化方法:   1).如果主查询的数据集大

  • TableStore: 海量结构化数据分层存储方案2019-06-05 13:55:21

    前言 表格存储是阿里云自研分布式存储系统,可以用来存储海量结构化、半结构化的数据。表格存储支持高性能和容量型两种实例类型。高性能使用SSD的存储介质,针对读多写多的场景都有较好的访问延时。容量型使用的是SSD和SATA混合的存储介质。对写多的场景,性能接近高性能,读方面,如果

  • 大数据这么火,大数据到底可以用来做什么?2019-06-04 22:56:14

    大数据为什么这么火?为什么很多公司不惜花高价聘请大数据工程师,对于企业来说,大数据可以用来做什么?大数据具有哪些商业价值呢?下面小千带大家详细了解一下。 1、对顾客群体细分 “大数据”可以对顾客群体细分,然后对每个群体量体裁衣般的采取独特的行动。瞄准特定的顾客群体来进行

  • 大数据这么火,大数据到底可以用来做什么?2019-06-04 16:55:36

    大数据为什么这么火?为什么很多公司不惜花高价聘请大数据工程师,对于企业来说,大数据可以用来做什么?大数据具有哪些商业价值呢?下面小千带大家详细了解一下。1、对顾客群体细分“大数据”可以对顾客群体细分,然后对每个群体量体裁衣般的采取独特的行动。瞄准特定的顾客群体来进行营销和

  • 针对海量数据和高并发的主要解决方案2019-06-03 21:52:37

    一、网站应用背景开发一个网站的应用程序,当用户规模比较小的时候,使用简单的:一台应用服务器+一台数据库服务器+一台文件服务器,这样的话完全可以解决一部分问题,也可以通过堆硬件的方式来提高网站应用的访问性能,当然,也要考虑成本的问题。 当问题的规模在经济条件下通过堆硬件的方式解

  • 日志审计系统2019-05-31 17:00:16

    产品简介中安威士日志审计系统(简称VS-LS),采用业界领先的大数据技术,在克服海量数据的采集、存储、索引和运算的瓶颈之上,摒弃繁琐的多控制台界面,充分挖掘各类安全警告,通过大数据关联分析,清洗大量的误报信息。结合云端威胁情报和企业内网威胁情报,将在大规模网络环境中能够引起企业安全

  • 如何分发大文件、大文件传输解决方案2019-05-31 14:55:06

    随着云计算、大数据技术不断发展,4K 视频、虚拟现实(VR)、视频直播等互联网应用领域不断升级更新,企业网、数据中心规模持续扩大,企业拥有的数据急剧增长,海量文件随之产生。 同时,互联网时代,众多行业都面临大型文件传输的问题,速度慢,是否安全,是优先考虑的前提! 一直以来,企业通常使用QQ软

  • 这可能是全网“知识点最全”的Hadoop学习指南2019-05-24 11:50:06

    对于Hadoop初学者,最好不要告诉他什么定义,什么框架云云,因为很容易当成负担,实际上它也只是个工具。 搞清楚Hadoop帮助我们解决了什么问题? 或者换个角度想,没有Hadoop,我们做同样一项工作会增加什么任务? 想清楚了这些,你才可以心怀期待的去慢慢学习它。(当然,如果你已经知道了这些,请直

  • mysql处理海量数据时的一些优化查询速度方法-转2019-05-24 09:55:14

      最近一段时间由于工作需要,开始关注针对Mysql数据库的select查询语句的相关优化方法。       由于在参与的实际项目中发现当mysql表的数据量达到百万级时,普通SQL查询效率呈直线下降,而且如果where中的查询条件较多时,其查询速度简直无法容忍。曾经测试对一个包含400多万条记

  • mapjoin与reducejoin2019-05-01 13:44:13

    hdfs的副本的配置修改hdfs-site.xml文件<property><name>dfs.namenode.secondary.http-address</name><value>hd-02:50090</value></property>需要同步到其它机器:scp hdfs-site.xml hd-02:$PWDhadoop启动方式1)启动hdfs集群$ start-dfs.sh2)启动yarn集群$ start-yarn.sh

  • 潜在风险的频次vs潜在风险的严重影响的程度(以及恢复)2019-04-29 18:39:57

    潜在风险的频次vs潜在风险的严重影响的程度 海量数据的存储对于海量数据,不要存在这样的侥幸心理,一定要好好设计你的系统。把数据增长后存储的影响降到最低。面对海量数据,鸡肋的设计必然会导致系统的崩溃。 为什么有时候对一个方案会举足不定,犹豫不决?对开源组件的不信任:缺乏了解?缺乏

  • 大数据2019-04-27 14:41:17

     大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 传统的数据处理技术已经无法胜任,需要催生新的技术。一套用来处理海量数据的软件工具

  • 【直通BAT】海量数据面试总结2019-04-24 16:02:52

    目录 海量数据计算总结 海量数据去重总结 1. 计算容量 在解决问题之前,要先计算一下海量数据需要占多大的容量。常见的单位换算如下: 1 byte = 8 bit 1 KB = 210 byte = 1024 byte ≈ 103 byte 1 MB = 220 byte ≈ 10 6 byte 1 GB = 230 byte ≈ 10 9 byt

  • 海量TopK问题2019-04-17 16:55:17

    Top K问题在数据分析中非常普遍的一个问题(在面试中也经常被问到),比如: 从20亿个数字的文本中,找出最大的前100个。 以下是一些经常被提及的该类问题。 (1)有10000000个记录,这些查询串的重复度比较高,如果除去重复后,不超过3000000个。一个查询串的重复度越高,说明查询它的用户越多,也就

  • C++海量数据处理(一): 查重 与 top K问题的分析与实现2019-04-14 20:56:52

    文章目录 正在更新·····

  • 大文件传输软件的优势有哪些?2019-04-11 15:55:56

    进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。数据正在迅速膨胀并变大,它决定着企业的未来发展。企业面临大数据传输有哪些困扰?企业选择传统的FTP、网盘等方式来传输大文件时,除了速度慢,常遇到传输

  • c++ 面试题(海量数据篇)2019-04-04 15:50:39

    1,在海量数据中找中位数: 题目如下:  只有2G内存的pc机,在一个存有10G个整数的文件,从中找到中位数,写一个算法。   解答:http://www.cnblogs.com/youxin/archive/2013/08/26/3281775.html 2,

  • 海量数量处理:两个大文件中的相同记录2019-03-10 11:50:33

    1.题目描述 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 2.思考过程 (1)首先我们最常想到的方法是读取文件a,建立哈希表(为什么要建立hash表?因为方便后面的查找),然后再读取文件b,遍历文件b中每个url,对于每个遍历,我们都执行查找hash表的

  • 海量存储第一弹 - 自动化运维2019-03-05 22:41:29

    作者简介:裴泽良,2010年加入架构平台部,一直从事运营系统相关的建设工作,历经了腾讯海量存储及CDN服务的运营体系从入门到初级再到较为完善的各个阶段,目前专注于提升腾讯云上业务的运营质量,以及建设新一代高效与安全的自动化运维体系。   运营体系 在介绍我们的运营体系前,有必

  • 初学大数据!2019-03-04 18:03:51

    学习内容: 大数据是什么? 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据其实就是海量资料巨量资料,这些巨量资料来源于世界各地

  • 海量数据查找——Annoy算法2019-03-02 18:47:53

    前言 一旦文档变成这种稠密向量形式,那如何从海量文本中快速查找出相似的Top N 文本呢? 这就不得不提到一个海量数据相似查找算法——Annoy算法。 算法原理 建立索引 Annoy的目标是建立一个数据结构,使得查询一个点的最近邻点的时间复杂度是次线性。Annoy 通过建立一个二叉树来

  • 基于快速GeoHash,如何实现海量商品与商圈的高效匹配?2019-02-22 16:57:50

    闲鱼是一款闲置物品的交易平台APP。通过这个平台,全国各地“无处安放”的物品能够轻松实现流动。这种分享经济业务形态被越来越多的人所接受,也进一步实现了低碳生活的目标。 今天,闲鱼团队就商品与商圈的匹配算法为我们展开详细解读。 摘要闲鱼app根据交通条件、商场分布情况、住

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有