传输端点未连接 – Mesos Slave / Master

我正在尝试将Mesos从站连接到它的主站。 当奴隶试图连接到主人,我得到以下消息:

I0806 16:39:59.090845 935 hierarchical.hpp:528] Added slave 20150806-163941-1027506442-5050-921-S3 (debian) with cpus(*):1; mem(*):1938; disk(*):3777; ports(*):[31000-32000] (allocated: ) E0806 16:39:59.091384 940 socket.hpp:107] Shutdown failed on fd=25: Transport endpoint is not connected [107] I0806 16:39:59.091508 940 master.cpp:3395] Registered slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) with cpus(*):1; mem(*):1938; disk(*):3777; ports(*):[31000-32000] I0806 16:39:59.091747 940 master.cpp:1006] Slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) disconnected I0806 16:39:59.091868 940 master.cpp:2203] Disconnecting slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) I0806 16:39:59.092031 940 master.cpp:2222] Deactivating slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) I0806 16:39:59.092248 939 hierarchical.hpp:621] Slave 20150806-163941-1027506442-5050-921-S3 deactivated 

错误似乎是:

E0806 16:39:59.091384 940 socket.hpp:107] fd = 25时closures失败:传输端点未连接[107]

主持人开始使用:

 ./mesos-master.sh --ip=10.129.62.61 --work_dir=~/Mesos/mesos-0.23.0/workdir/ --zk=zk://10.129.62.61:2181/mesos --quorum=1 

和奴隶

 ./mesos-slave.sh --master=zk://10.129.62.61:2181/mesos 

如果我在与主机相同的虚拟机上运行slave,它工作正常。

我无法在互联网上find很多信息。 我在VirtualBox 5上运行两个虚拟框(Debian 8.1)。主机是一个Windows 7。

编辑1:

主机和从机都运行在专用的虚拟机上。

这两个虚拟机nextorksconfiguration使用桥接networking。

主从ifconfig:

 eth0 Link encap:Ethernet HWaddr 08:00:27:cc:6c:6e inet addr:10.129.62.61 Bcast:10.129.255.255 Mask:255.255.0.0 inet6 addr: fe80::a00:27ff:fecc:6c6e/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 RX packets:5335953 errors:0 dropped:0 overruns:0 frame:0 TX packets:1422428 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1000 RX bytes:595886271 (568.2 MiB) TX bytes:362423868 (345.6 MiB) 

从设备的ifconfig:

 eth0 Link encap:Ethernet HWaddr 08:00:27:56:83:20 inet addr:10.129.62.49 Bcast:10.129.255.255 Mask:255.255.0.0 inet6 addr: fe80::a00:27ff:fe56:8320/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 RX packets:4358561 errors:0 dropped:0 overruns:0 frame:0 TX packets:3825 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1000 RX bytes:397126834 (378.7 MiB) TX bytes:354116 (345.8 KiB) 

编辑2:

从站日志可以在http://pastebin.com/CXZUBHKrfind

主日志可以在http://pastebin.com/thYR1parfind

我有一个类似的问题。 我的奴隶日志将充满

  E0812 15:58:04.017990 2193 socket.hpp:107] Shutdown failed on fd=13: Transport endpoint is not connected [107] 

我的主人会有

  F0120 20:45:48.025610 12116 master.cpp:1083] Recovery failed: Failed to recover registrar: Failed to perform fetch within 1mins 

而且主人会死,而且会有新的选举发生,被杀的主人会被新贵重新启动(我在Centos 6盒子里),并加入到潜在的主人群中。 因此,我当选的主人会菊花链连接我的主节点。 主人和奴隶的重新启动,没有任何问题会在大选后1分钟内一直返回。

我的解决方案来自一个这个stackoverflow问题(谢谢),并在github 要点提示。

它的要点是/etc/default/mesos-master必须指定一个仲裁编号(它对于mesos主编号是正确的,在我的情况下是3)

  MESOS_QUORUM=2 

这对我来说似乎很奇怪,因为我在文件/etc/mesos-master/quorum有相同的信息

但我把它添加到/etc/default/mesos-master重新启动了mesos-masters和slave,并且问题没有返回。

我希望这可以帮助你。

升级mesos版本时,我在日志中遇到了这个错误(例如0.20.0 – > 0.27.0)。 有时候,以前版本的数据与其他版本不兼容。

这是我如何解决它:

首先确保所有节点都停止了mesos-master服务:

 sudo service mesos-master stop 

然后清除所有可能的旧数据:

  1. 删除$MESOS_WORK_DIR/var/mesos在我的情况):

     sudo rm -rf /var/mesos 
  2. 在ZooKeeper中清除我们的mesos数据:

     $ zkCli.sh WatchedEvent state:SyncConnected type:None path:null [zk: localhost:2181(CONNECTED) 0] rmr /mesos [zk: localhost:2181(CONNECTED) 0] quit Quitting... 

在完成这些步骤之后,我在所有节点上启动了mesos-master服务,并重新联机。

 I0806 16:39:59.091747 940 master.cpp:1006] Slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) disconnected 

这是错误提示。

你的奴隶暴露了错误的IP。

附加--ip=10.129.62.49到从机命令,它工作。

--ip=10.129.62.49来运行slave