`
zkl_1987
  • 浏览: 242889 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论
文章列表
listNodes            列出所有节点 listIndexes          列出所有的Index showStructure        显示katta结构 check                显示有用的部署信息 version              显示katta的版本 addIndex <index name> <path to index> <lucene analyzer class> [<replication level>]                      部署index remove ...
介绍 katta 是一个运行在许多商品硬件服务器上的分布式应用,它非常类似于Hadoop MapReduce, Hadoop DFS, HBase, Bigtable 和 Hypertable. 概述 主节点服务器管理从节点服务器和index shards任务。从节点服务器服务index shards。客户端允许从所有连接的节点上查找数据,并把所有的结果合并成一个结果返回给客户端。 数据结构 katta的索引是个文件夹,它里面包含一套所谓的index shards(文件形式)。这些子文件包含了Lucene索引。 index shards能够很简单的用Lucene的index writer创建 ...
运行hadoop程序时,有时候会报以下错误: org.apache.hadoop.dfs.SafeModeException: Cannot delete /user/hadoop/input. Name node is in safe mode 这个错误应该还满常见的吧(至少我运行的时候是这样的) 那我们来分析下这个错误,从字面上来理解: Name node is in safe mode 说明Hadoop的NameNode处在安全模式下。 那什么是Hadoop的安全模式呢? 在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允 ...
import java.io.IOException; import org.apache.hadoop.hbase.client.HTable; import org.apache.hadoop.hbase.client.Scanner; import org.apache.hadoop.hbase.io.BatchUpdate; import org.apache.hadoop.hbase.io.Cell; import org.apache.hadoop.hbase.io.RowResult; import org.apache.hadoop.hbase.util.Bytes; publ ...
首先需要先下载HBase最新且稳定的版本:http://www.apache.org/dyn/closer.cgi/hadoop/hbase 然后把它解压,把解压下来的文件移动到一个目录下如/home/user/hbase $ cd /home/user/hbase 进入此目录 $ vi conf/hbase-env.sh   export JAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.03 编辑 conf/hbase-env.sh 文件,修改JDK的路径 $ vi conf/regionservers 输入你的所有HBase服务器名 $ bin/s ...
Solr 最初由 CNET Networks 开发,2006 年初,Apache Software Foundation 在 Lucene 顶级项目的支持下得到了 Solr。Solr 于 2007 年 1 月酝酿成熟,在整个项目孵化期间,Solr 稳步地积累各种特性并吸引了一个稳定的用户群体、贡献者和提交人。Solr 现在是 Lucene(Apache 的基于 Java 的全文本搜索引擎库)的一个子项目。 用Solr服务器建索引的前提是你已经把Solr服务器给搭建起来了 public class CreateIndex { public static final String LINE ...

Hadoop的升级

现在我使用的Hadoop版本是0.19.0,我要把它升级到0.19.1 操作步骤: 将hadoop-0.19.0升级到hadoop-0.19.1首先当然是下载hadoop-0.19.1 把传至主节点上,并且把0.19.1修改成和hadoop-0.19.0同样的配置后,分派到从节点上 停止Hadoop群集:在主节点的目录中 bin/stop-dfs.sh 进入从节点的hadoop-0.19.1 : bin/start-dfs.sh -upgrade 然后启动namenode,这样就升级完成。 如果有需要回到老版本的Hadoop,那么可以: a.停止集群,分发部署老版本的Hado ...
3台机器:master(10.0.0.200),slave1(10.0.0.201),slave2(10.0.0.202) 系统都为Centos 5 假设将master做为namenonde,将slave1和slave2做为datanode 1.在master:(在slave1和slave2上操作和以下相同) vi /etc/hosts 10.0.0.200  master 10.0.0.201  slave1 10.0.0.202  slave2 2.用root登陆,建立hadoop用户 useradd hadoop passwd hadoop 输入111111做为密码 ...
  • 2009-04-10 16:50
  • 浏览 10495
  • 评论(2)
  • 论坛回复 / 浏览 (2 / 38400)
先介绍下:Nutch主要分为两个部分:爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。   Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以分布式配置在硬件平台上,例如将Crawler和Searcher分别放在两个主机上,这样可以提升性能。 环境:JDK1.6  Centos 5 把Nutch下下来后解压 在Nutch的安装目录中建立一个名为url.txt的文本文件,文件中写入要抓取 ...
现在来进行Katta的分布式运行配置,Katta是用来进行分布式索引管理的项目,可以出来大数据量的插入和查询。 我使用的三台机器分别为master,node1,node2,系统都为Centos 5 在下载回来的文件解压后进入conf文件夹,在里面需要改几个文件 masters文件 把localhost改成master(主节点名) nodes文件 node1 node2(加入你的节点机器的名称) katta.zk.propeties文件 # comma serperated list of host:port that should run a zookeeper server, # m ...
近来在研究分布式,在网上看到Katta,是个很强悍的东西,拿来分享下.... Katta is a scalable, failure tolerant, distributed, indexed, data storage. Katta serves large, replicated, Lucene indexes as shards to serve high loads and very large data sets. Makes serving large or high load Lucene indexes easy Serves very large Lucene inde ...
很高兴得看到Yahoo捐献的Zookeeper已经从sourceforge迁移到Apache,并成为Hadoop的子项目.那么ZooKeeper是什么呢?Zookeeper是Google的Chubby一个开源的实现.是高有效和可靠的协同工作系统.Zookeeper能够用来leader选举,配置信息维护等.在一个分布式的环境中,我们需要一个Master实例或存储一些配置信息,确保文件写入的一致性等.Zookeeper能够保证如下3点: Watches are ordered with respect to other events, other watches, and asynchronous ...
连接到ZooKeeper 一旦ZooKeeper运行起来,我们必然想要连接它,有几个方法可以用于连接到它,可以用java,也可以用C,这里我用java: bin/zkCli.sh 127.0.0.1:2181 用java操作起来很简单。(想用C的朋友可以去Zookeeper的官网看) ZooKeeper运行复制模式 ZooKeeper运行在独立模式下可以方便的评价,做一些开发和测试工作。但是,在产品过程中,你应该把ZooKeeper运行在复制模式下。复制组的服务器在同一应用中被称为quorum,在复制模式下,所有服务器中的quorum已拷贝了相同的配置文件。该配置文件是类似于用在独立模式 ...
条件: ZooKeeper运行在Java中,需要JDK1.6或更高版本的JDK 。ZooKeeper服务器作为一个整体运行。三个ZooKeeper服务器是建议的最低规模的集合,Zookeeper官网还建议,每个ZooKeeper服务器要在单独的机器上运行。ZooKeeper通常部署在专用版Linux系统上,配置为双核心处理器, 2GB内存,和80GB的IDE硬盘驱动器。 下载: Zookeeper下载地址:http://www.apache.org/dyn/closer.cgi/hadoop/zookeeper/ ZooKeeper的独立模式 建立一个ZooKeeper服务器独立模式很简单。 ...
   最近在学习收索引擎,找了一些资料,学着在Windows下搭建Solr+Tomcat,可是网上的资料要么太老,要么就是英文版的,看着很费劲。    先来说说Solr,Solr 最初由 CNET Networks 开发,2006 年初,Apache Software Foundation 在 Lucene 顶级项目的支持下得到了 Solr。Solr 于 2007 年 1 月酝酿成熟,在整个项目孵化期间,Solr 稳步地积累各种特性并吸引了一个稳定的用户群体、贡献者和提交人。Solr 现在是 Lucene(Apache 的基于 Java 的全文本搜索引擎库)的一个子项目。    下面是我的搭建过 ...
Global site tag (gtag.js) - Google Analytics