- 博客(107)
- 资源 (17)
- 问答 (15)
- 收藏
- 关注
原创 Hadoop大数据案例之搜狗五百万数据分析
最近使用了hadoop中的hive、mapreduce以及HBASE对网上的一个搜狗五百万的数进行了一个比较实际的数据分析,适合新手去练习,好处是在接触较大的数据流的时候能碰到平时接触不到的问题,通过这些问题能够对自己有一个较好的提升,为以后接触到实际的大数据项目打一些有效的基础。数据源: 数据说明:搜狗五百万数据,是经过处理后的搜狗搜索引擎生产数据,具有真实性,大数据性,能够较好的满足...
2018-05-22 12:00:05 19327 2
原创 Hadoop之Hive的安装与配置
环境信息:虚拟机数量:3台操作系统:Ubuntu 14.04实验环境及版本:Hadoop:Hadoop 2.2.0Java:java version "1.7.0_51"Hive:apache-hive-1.2.1MySQL:mysql Ver 14.14 Distrib 5.5.44(x86_64)安装Hive之前首先要确保hadoop集群搭建成功(1)Hive...
2018-05-19 09:19:01 5478
原创 数据结构之链表
表表的简单数组实现:因为在定义表的时候因为表是动态空间所以会估计的大一点,从而浪费了大量的空间。在表的插入和删除的时候需要对表进行大量的遍历,所以一般不采用。表的链表实现:链表由一系列不必在内存中相连的结构组成,每一个结构均含有表元素和指向包含该元素后继元的结构的指针。表头所解决的三个问题:不存在从所给定义出发在表的前面插入元素的真正显性的方法 从表的前面实行删除是以一个...
2018-04-20 16:18:51 614
原创 Java 对HDFS接口调用
使用HDFS提供的API来对分布式文件系统中的文件进行基本的操作,在linux下是不需要连接的,在windows下连接hdfs有三种方式:Configuration conf = new Configuration();//第一种方式conf.set("fs.defaultFS", "hdfs://10.49.85.152:9000");//第二种设置configuration方式...
2018-03-29 20:06:00 1704
原创 《数据挖掘核心技术揭秘》笔记
原先我对于数据挖掘只停留在了爬虫获取数据,使用工具对数据进行清洗,然后整理汇总出需要的信息的这个层次。看完这本书之后才发现了之前使用爬虫得到数据只能叫做数据获取,真正的数据挖掘远远复杂,在数据挖掘中有着那么多的magic的算法,其中每个单元的知识都需要一本书去好好学习,这里只是简单的介绍下,其中对于上TB数据的处理,在使用了这些算法之后不单单能够得到自己需要的数据因素,还可以做机器学习更深一层的应...
2018-03-26 20:43:24 1417
原创 《自己动手写爬虫》笔记
《自己动手写爬虫》这本书总体介绍了整个网络爬虫由浅入深的知识体系,将爬虫中每个部分分割开来具体的细讲,非常适合新手来入门,由于之前只知道使用爬虫框架,所以一遇到一些错误或者想调整一些爬架内容就无从下手,所以还是将一些基础知识弄明白之后再去使用框架就会得心应手了。书中关于当前的分布式爬虫的内容感觉有点少,感觉随着数据爬取的增大,这部分的使用频率应该会越来越多,还需要多向这个方面了解下。代码的部分占据...
2018-03-26 20:38:42 1380
原创 Hbase java API 的调用例子
1、首先要在项目中导入Hbase依赖的jar包2、修改windows中的 C:\Windows\System32\drivers\etc\hosts10.49.85.152 master10.49.85.182 slaver110.49.85.183 slaver23、Java API import java.io.IOException;impor...
2018-03-15 11:48:55 843
原创 Hbase分布式搭建之Hbase搭建
在安装之前先介绍下Hbase,Hadoop生态系统中HBase所处位置,实现的功能,解决的问题。HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,...
2018-03-15 11:45:40 8939
原创 Hbase分布式搭建之Zookeeper搭建
zookeeper 安装包:https://download.csdn.net/download/leoe_/102922561、解压zooker-3-4-5.tar.gz解压:# tar -zxf zookeeper-3.4.5.tar.gz 更改名字为zookeeper:# mv zookeeper-3.4.5 u-zookeeper2、修改zoo.cfg配置文...
2018-03-15 10:48:44 713
原创 Hbase分布式搭建之hadoop搭建
一、搭建环境虚拟机数量:3台 操作系统:Ubuntu 14.04 Hadoop:Hadoop 2.2.0 Java:java version “1.7.0_51”需要的安装包: jdk:https://download.csdn.net/download/leoe_/10292237 hadoop 和 zookeeper:https://download.csdn....
2018-03-15 10:36:02 497
原创 20. Valid Parentheses
Given a string containing just the characters ‘(‘, ‘)’, ‘{‘, ‘}’, ‘[’ and ‘]’, determine if the input string is valid. The brackets must close in the correct order, “()” and “()[]{}” are ...
2018-03-09 21:46:11 294
原创 387. First Unique Character in a String
Given a string, find the first non-repeating character in it and return it’s index. If it doesn’t exist, return -1.Examples:s = "leetcode"return 0.s = "loveleetcode",return 2.Note:...
2018-03-08 16:40:15 305
转载 输入一个网址,回车后发生了什么?
本文将更深入的研究当你输入一个网址的时候,后台到底发生了一件件什么样的事~1. 首先嘛,你得在浏览器里输入要网址: 2. 浏览器查找域名的IP地址 导航的第一步是通过访问的域名找出其IP地址。DNS查找过程如下:浏览器缓存 – 浏览器会缓存DNS记录一段时间。有趣的是,操作系统没有告诉浏览器储存DNS记录的时间,这样不同浏览器会储存个自固定的一个时间(2分钟到30分钟不等...
2018-03-07 20:20:53 2331
原创 网页加载慢,你知道几种原因?
记得以前有个培训班的老师过来宣传,他当时问了我们一个问题,“打开一个网页慢,你能说出10个原因么?”,我脑海里立刻就出现了网速慢、电脑卡等原因,但是发现自己能说出的不超过五个,自己还是学web的,GG。今天突然想到了这个问题,就总结下带宽不足,首先想到的就是自己网速的问题,但是一般网速在1M以上的,打开网页一般不会是很慢的。网站服务器的带宽不够的话,当大量用户访问的时候,网页的加载也是很...
2018-03-07 19:55:57 40731
原创 686. Repeated String Match
Given two strings A and B, find the minimum number of times A has to be repeated such that B is a substring of it. If no such solution, return -1. For example, with A = “abcd” and B = “c...
2018-03-06 22:51:54 325
原创 696.Count Binary Substrings
Give a string s, count the number of non-empty (contiguous) substrings that have the same number of 0’s and 1’s, and all the 0’s and all the 1’s in these substrings are grouped consecutively....
2018-03-06 22:50:25 288
原创 746.Min Cost Climbing Stairs
On a staircase, the i-th step has some non-negative cost cost[i] assigned (0 indexed). Once you pay the cost, you can either climb one or two steps. You need to find minimum cost to reac...
2018-03-06 22:46:21 506
原创 628.Maximum Product Of Three Numbers
Given an integer array, find three numbers whose product is maximum and output the maximum product. Note: The length of the given array will be in range [3,104] and all elements are in t...
2018-03-06 22:44:28 398
原创 169.Majority Element
Given an array of size n, find the majority element. The majority element is the element that appears more than ⌊ n/2 ⌋ times You may assume that the array is non-empty and the majority element alw...
2018-03-06 22:41:25 331
原创 442.Find All Duplicatesinan Array
Given an array of integers, 1 ≤ a[i] ≤ n (n = size of array), some elements appear twice and others appear once. Find all the elements that appear twice in this array. Could you do it ...
2018-03-06 22:39:19 322
原创 561. Array PartitionI
Given an array of 2n integers, your task is to group these integers into n pairs of integer, say (a1, b1), (a2, b2), …, (an, bn) which makes sum of min(ai, bi) for all i from 1 to n as large...
2018-03-06 22:33:30 277
原创 714. Best Time to Buy and Sell Stock with Transaction Fee
Your are given an array of integers prices, for which the i-th element is the price of a given stock on day i; and a non-negative integer fee representing a transaction fee. You may comp...
2018-03-06 20:53:34 277
原创 769. Max Chunks To Make Sorted
Given an array arr that is a permutation of [0, 1, …, arr.length - 1], we split the array into some number of “chunks” (partitions), and individually sort each chunk. After concatenating the...
2018-03-06 19:51:00 350
原创 565. Array Nesting
A zero-indexed array A of length N contains all integers from 0 to N-1. Find and return the longest length of set S, where S[i] = {A[i], A[A[i]], A[A[A[i]]], … } subjected to the rule below. ...
2018-03-05 20:46:37 250
原创 238. Product of Array Except Self
Given an array of n integers where n > 1, nums, return an array output such that output[i] is equal to the product of all the elements of nums except nums[i]. Solve it without divisio...
2018-03-05 19:57:38 324
转载 计算机组成原理-原码, 反码和补码
本篇文章讲解了计算机的原码, 反码和补码. 并且进行了深入探求了为何要使用反码和补码, 以及更进一步的论证了为何可以用反码,补码的加法计算原码的减法. 论证部分如有不对的地方请各位牛人帮忙指正! 希望本文对大家学习计算机基础有所帮助!一. 机器数和真值在学习原码, 反码和补码之前, 需要先了解机器数和真值的概念.1、机器数一个数在计算机中的二进制表示形式, 叫做这个数的机器
2018-01-18 15:09:18 12383 8
原创 287. Find the Duplicate Number
Given an array nums containing n + 1 integers where each integer is between 1 and n (inclusive), prove that at least one duplicate number must exist. Assume that there is only one duplicate numb
2018-01-15 20:44:03 348
原创 448. Find All Numbers Disappeared in an Array
Given an array of integers where 1 ≤ a[i] ≤ n (n = size of array), some elements appear twice and others appear once. Find all the elements of [1, n] inclusive that do not appear in this ar
2018-01-15 16:51:29 287
原创 35. Search Insert Position
Given a sorted array and a target value, return the index if the target is found. If not, return the index where it would be if it were inserted in order. You may assume no duplicates in the arra
2018-01-15 15:20:05 290
原创 119. Pascal's Triangle II
Given an index k, return the kth row of the Pascal's triangle.For example, given k = 3,Return [1,3,3,1].Note:Could you optimize your algorithm to use only O(k) extra space?题目描述:求出给定k 行的杨辉三角思
2018-01-14 21:10:38 290
原创 53. Maximum Subarray
Find the contiguous subarray within an array (containing at least one number) which has the largest sum.For example, given the array [-2,1,-3,4,-1,2,1,-5,4],the contiguous subarray [4,-1,2,1] has t
2018-01-12 20:47:02 282
原创 581. Shortest Unsorted Continuous Subarray
Given an integer array, you need to find one continuous subarray that if you only sort this subarray in ascending order, then the whole array will be sorted in ascending order, too.You need to find
2018-01-10 18:07:25 496
转载 通过noVNC和websockify连接到QEMU/KVM
开源项目 QEMU、KVM、libvirt 实现了创建虚拟机,启动虚拟机,监控虚拟机。我们解决了从无到有的问题,这时就该考虑从有到优了。尽管我们能使用 SSH 的方式来登录使用虚拟机,但这种方式从感觉欠缺点什么,用户往往会更喜欢绚丽多彩的东西。事实上 VNC 的客户端很多,诸如 VNC Viewer,TightVNC,RealVNC 等。然而我们需要的是 web 版的 VNC,自然而然我选择了
2018-01-10 16:52:14 2492
原创 计算机组成原理-汉明码相关计算
今天复习计算机组成原理中看到了汉明码的计算,其中有些知识书上没有完全讲到,我这里根据自己的复习梳理下计算的几个方法。检测位的小组首先检测位的小组的划分书上说的有点不好理解,这里一种比较容易的理解方法是: C1:小组中的数最后一个数的二进制数为1:1,3,5,7,9,11 C2:小组中的倒数第二个数的二进制数为1:2,3,6,7,10,11 C4:小组中的倒数第三个数的二进制数
2018-01-09 16:50:14 19988 1
原创 Ubuntu 删除虚拟网卡/网桥的命令
ubuntu下删除虚拟网卡的命令刪除虚拟网卡tunctl -d <虚拟网卡名>刪除虚拟网桥ifconfig <网桥名> downbrctl delbr <网桥名>将网卡tap0, eth0 移出bridge(br0)brctl delif br0 tap0brctl delif br0 eth0
2018-01-04 18:31:01 23182 2
原创 BP神经网络自由手写体数字识别系统
手写体识别问题可以追溯到20世纪20年代,当时提出了统计方法可能是最佳的选择,手写体的识别在生活中会有很多的地方应用,例如:邮局里信件堆积如山,因此需要借助自动化手段识别邮政编码,实现自动化和高效地分拣邮件。实现手写体识别也有其他的方法,比如使用OCR(光学字符识别),通过将手写文档读入,然后识别文字后生成电子文档,但是这种识别的效率不高,但是如果将OCR结合着大数据和机器学习肯定会将准确率达到一个
2017-12-22 18:02:44 3184 1
原创 665. Non-decreasing Array
题目描述:给定一个有n个整数的数组,检查它是否可以通过修改最多一个元素使它变得非递减数组Given an array with n integers, your task is to check if it could become non-decreasing by modifying at most 1 element.We define an array is non-decreasing i
2017-12-20 10:27:07 565
原创 189. Rotate Array
Rotate an array of n elements to the right by k steps.For example, with n = 7 and k = 3, the array [1,2,3,4,5,6,7] is rotated to [5,6,7,1,2,3,4].Note:Try to come up as many solutions as you can, there
2017-12-19 16:02:12 450
原创 IDEA 编译器快捷键总结
使用IDEA也快一年了,这个编译器好的没学到几个,快捷键用的是越来越多了,人也越来越懒了。这里总结了经常使用的几个快捷键这两个都是输出的快捷键,第二个是快速的输出最近的一个变量的值,带变量名sout + tab/enter soutv + tab/enter 这个用的非常的多,主函数的快捷键psvm在IDEA中查找快捷键非常的,有类的查找
2017-12-19 15:15:22 2245
原创 532. K-diff Pairs in an Array
Given an array of integers and an integer k, you need to find the number of unique k-diff pairs in the array. Here a k-diff pair is defined as an integer pair (i, j), where i and j are both numbers in
2017-12-18 14:21:34 526
搜狗五百万用户搜索日志记录
2018-05-22
hbase-0.96.0.tar.gz
2018-03-17
hadoop-2.2.0.tar.gz + zookeeper3.4.5
2018-03-17
jdk-7u67-linux-x64.tar.gz
2018-03-17
openstack多节点搭建
2017-11-24
openstack 搭建官方文档
2017-11-17
springmvc-注册页面发送手机验证码
2017-07-11
基于hadoop的web云盘系统
2017-04-07
c语言贪吃蛇
2016-12-15
java 远程连接spark 出现错误
2017-12-07
centos yum install 错误
2017-09-29
hadoop Master节点namenode进程没有启动
2017-09-07
使用springboot连接mongodb,提示连接错误
2017-08-06
在jsp中关于${}输出为普通的字符串
2017-03-13
Struts2中的标签问题 提示找不到 uri="/struts-tags"%
2017-02-26
关于MySQL中触发器的语法错误
2016-12-07
关于数据库触发器的创建出错问题谢谢
2016-12-07
关于servlet中出现404错误
2016-11-14
关于继承时成员数据产生的歧义
2016-05-05
win10java环境变量设置完后,但是eclipse打不开
2016-05-04
关于c++将文件内容读取到链表中
2016-04-18
c++读取文件中的链表存取问题
2016-04-13
为什么if里的条件成立但是if不执行
2016-03-29
TA创建的收藏夹 TA关注的收藏夹
TA关注的人