Archivo del Autor: hvivani

Acerca de hvivani

sysadmin, developer, RHCSA

Hadoop: HDFS find / recover corrupt blocks

1) Search for files on corrupt files: A command like ‘hadoop fsck /’ will show the status of the filesystem and any corrupt files. This command will ignore lines with nothing but dots and lines talking about replication: hadoop fsck … Sigue leyendo

Publicado en Uncategorized | Etiquetado , , | Deja un comentario

Simple Java Telnet Port Scanner

It can be improved in many ways, but.. import java.io.*;  import java.net.*;  import java.util.*;  import java.util.TimerTask;  //import org.apache.commons.*;//import org.apache.commons.net.telnet.TelnetClient;  class Connectivity extends TimerTask  {      public static void main(String args[])      {          try          {              System.out.println(“Please enter ip … Sigue leyendo

Publicado en Uncategorized | Etiquetado | Deja un comentario

Testing Java Cryptography Extension (JCE) is installed

If JCE is already installed, you should see on that the jar files ‘local_policy.jar’ and ‘US_export_policy.jar’ are on $JAVA_HOME/jre/lib/security/ But, we can test it: import javax.crypto.Cipher; import java.security.*; import javax.crypto.*; class TestJCE { public static void main(String[] args) { boolean … Sigue leyendo

Publicado en Uncategorized | Etiquetado , | Deja un comentario

HDFS: Cluster to cluster copy with distcp

Este es el formato del comando distcp para copiar de hdfs a hdfs considerando cluster origen y destino en Amazon AWS: hadoop distcp “hdfs://ec2-54-86-202-252.compute-1.amazonaws.comec2-2:9000/tmp/test.txt” “hdfs://ec2-54-86-229-249.compute-1.amazonaws.comec2-2:9000/tmp/test1.txt” Mas informacion sobre distcp: http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-Installation-Guide/cdh4ig_topic_7_2.html http://hadoop.apache.org/docs/r1.2.1/distcp2.html  

Publicado en Uncategorized | Etiquetado , , , | Deja un comentario

Arquitectura HDFS

El diseño del sistema de archivos HDFS se basa en el Google File System (GFS). – Es capaz de almacenar una gran cantidad de datos (terabytes o petabytes). – Esta diseñado para almacenar los datos a traves de un gran … Sigue leyendo

Publicado en Uncategorized | Etiquetado , , | Deja un comentario

Hive logs to stdout

Muchas veces necesitamos debugear alguna consulta Hive que esta dando error. Una manera facil es habilitar el logger por consola: hive.root.logger specifies the logging level as well as the log destination. Specifying console as the target sends the logs to … Sigue leyendo

Publicado en Uncategorized | Etiquetado , | Deja un comentario

Hive query with JOIN, GROUP BY and SUM does not return results

On Hive 0.11, and lower versions, if we set: set hive.optimize.skewjoin=true; set hive.auto.convert.join=false; A query with JOIN, GROUP BY and SUM does not return results. But if we make the query a little more simple, using JOIN but not GROUP … Sigue leyendo

Publicado en Uncategorized | Etiquetado , | Deja un comentario