big data decode club

hunhun -- Any answers you can find in source code.


  • 首页

  • 分类

  • 归档

  • 标签

  • 关于

  • 搜索

Application运行失败导致RM主备切换

发表于 2018-11-27 | 更新于 2018-11-27 | 分类于 Hadoop | 阅读次数

先说故障现象:
某天收到RM主备切换报警,正常切换并不会有什么影响,但我当时还是出于警觉想去服务器上check下为什么切,check的时候发现集群无法提交任务,所以的任务都被挂起了。
第一反应是原standby节点有问题,于是手动又触发了一次切换,但任务依然无法运行。主备RM都重启过了但问题依然无法解决,那只能使用终极杀手锏了,重启了整个yarn集群。
集群重启之后任务恢复了,心里舒了一口气,去查RM的log吧,看下是什么原因导致了这次故障,log还没有细看,只看到一些KeeperErrorCode = ConnectionLoss,此时悲剧发生了,又收到了RM切换的报警,任务又被挂起了。。。

毫无头绪,只能再次重启集群,这次重点关注了下集群上运行任务,估计是哪个任务把集群给干瘫了,观察到有个任务运行失败的时候集群就会被瘫,看了下该任务的报错信息特别特别的长,于是告诉任务的负责人暂时把任务停掉,观察下集群是不是因为这个任务导致的。

该任务停掉之后集群正常运行了一段时间,在这段时间内在查RM的log并没有发现太多有价值的东西,全是与zk的连接丢失,连接丢失确实是会触发主备切换,但关键是为什么连接会丢失呢?没有头绪,只好去zk server端看下log,发现报2018-11-27 15:54:30,208 [myid:1] - WARN [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:2181:NIOServerCnxn@373] - Exception causing close of session 0x36753e378030000 due to java.io.IOException: Len error 8603591

阅读全文 »

Solidity Voting解析

发表于 2018-10-31 | 更新于 2019-02-12 | 分类于 BlockChain | 阅读次数

最近一直在学习BlockChain相关的知识,Ethereum网上也没有太好的资料,就先拿官网的一些example学习下吧。

本篇解析下使用智能合约编写的投票合约。

阅读全文 »

HDFS中atime与mtime解析

发表于 2018-09-20 | 更新于 2018-09-20 | 分类于 Hadoop | 阅读次数

先来了解下Linux中atime和mtime区别:
atime:access time即访问时间
mtime:modify time即修改时间,这里指文件内容的修改。(经常和atime与mtime一起谈到的还有ctime,这里不展开,有兴趣的可以goolge)

这里需要注意的是有的系统可能为了性能上的优化,atime并不是实时更新,此时查看atime并没有得到想要的效果。

阅读全文 »

YARN Lost Node显示异常

发表于 2018-09-15 | 更新于 2018-09-15 | 分类于 Hadoop | 阅读次数

先说现象,在yarn的web页面,Lost Nodes指标显示的数据异常,如下:

我的集群一共有5台节点,这里显示有一台节点为Lost Nodes,但依然有5台Active Nodes,细心观察发现或有某个节点即存在Active Nodes中也存在Lost Nodes中,只是端口不一样。

这种情况如何解决呢?
在yarn-site.xml中添加yarn.nodemanager.address配置项,如下:

1
2
3
4
<property>
<name>yarn.nodemanager.address</name>
<value>${yarn.nodemanager.hostname}:65033</value>
</property>

需要重启集群,让参数生效。

现在你可以去修改你集群的配置,是不是瞬间心情愉快了很多,那是不是可以继续读下去,看下我们如何解决这种问题。

阅读全文 »

以太坊测试环境部署

发表于 2018-08-21 | 更新于 2019-02-12 | 分类于 BlockChain | 阅读次数

上篇介绍了以太坊开发环境,本篇介绍下如何使用私有链。

阅读全文 »

以太坊环境部署

发表于 2018-08-08 | 更新于 2019-02-12 | 分类于 BlockChain | 阅读次数

以太坊的环境容易部署,执行一些命令就OK了。
那就开始搞吧。。。

阅读全文 »

Hadoop get命令返回NullPointerException

发表于 2018-08-01 | 更新于 2018-08-01 | 分类于 Hadoop | 阅读次数

昨天Hadoop的get命令突然无法使用,返回NullPointerException异常,无法从hdfs pull数据,其它命令正常,并且最近也无任务修改配置的操作。
这下捉急了,捉急也没用,还是滚回去看日志吧,在日志中也没发现什么具体的报错信息,只发现NN的状态发生了变化,变成了standby。
但按照以往的经验NN切换并不会导致Hadoop相关命令返回空指针异常,难道是当初配置有什么问题?
先把NN切回来吧,先保证线上任务正常运行吧。切回回来之后一切正常,剩下一脸懵逼的我。。。。

阅读全文 »

Docker进程log和应用log采集调研

发表于 2018-07-27 | 更新于 2018-07-27 | 分类于 Docker | 阅读次数

Docker容器化已是一个相对成熟的理念,但是在实际使用中还是有很多挑战,目前我们遇到的一个问题是Docker中的log如何采集。
这些log包括Docker容器进程本身的log和容器内运行应用的业务log,两份log都比较重要,尤其业务log,因为一些埋点数据和统计指标都在业务log中也包括一些程序异常log。

阅读全文 »

shell嵌套变量

发表于 2018-07-05 | 更新于 2019-02-12 | 分类于 Tool | 阅读次数

今天在批量生成命令的时候,需要使用一个类似嵌套变量的东西,(注意这个嵌套变量,一开始并不知道shell中有这个东东)

具体场景是这样的:

阅读全文 »

Ubuntu搭建Bitcoin源码阅读环境

发表于 2018-05-31 | 更新于 2019-02-12 | 分类于 BlockChain | 阅读次数

这是区块链系列的开篇文章,随后会陆续写一些blog。
看了两本区块链的书,有了一些初步的了解,最近打算实践下,就想着先弄个读代码的环境,本以为挺简单但也折腾了好久,所以就打算备注下。

两本区块链相关的书分别是区块链开发指南和精通比特币,随后会写些读后感

虽然网上也有很多相关的文章但大都比较笼统或者记录的比较含糊,导致像我这样的新手得花大量的时间去摸索去踩坑。下面就开始流水账了。。。

阅读全文 »
1234…12
混绅士

混绅士

111 日志
18 分类
181 标签
热文推荐
  • Spark Streaming 消费kafka到HDFS
  • HDFS write解析
  • Spark编译与部署
  • MapReduce源码解析--环形缓冲区
  • Flume简介及初次使用
  • 实时抓取MySQL的更新数据到Hadoop
近期文章
  • 坑娃-防沉迷App
  • elasticsearch运维踩坑
  • golang指针*和取址&傻傻分不清楚
  • golang随波逐流之cache2go知识点解读
  • golang随波逐流之cache2go源码解读
© 2016 - 2021 混绅士
由 Hexo 强力驱动
主题 - NexT.Pisces
博客全站共678.7k字
本站访客数 人次 本站总访问量 次