我正在尝试将Mesos从站连接到它的主站。 当奴隶试图连接到主人,我得到以下消息:
I0806 16:39:59.090845 935 hierarchical.hpp:528] Added slave 20150806-163941-1027506442-5050-921-S3 (debian) with cpus(*):1; mem(*):1938; disk(*):3777; ports(*):[31000-32000] (allocated: ) E0806 16:39:59.091384 940 socket.hpp:107] Shutdown failed on fd=25: Transport endpoint is not connected [107] I0806 16:39:59.091508 940 master.cpp:3395] Registered slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) with cpus(*):1; mem(*):1938; disk(*):3777; ports(*):[31000-32000] I0806 16:39:59.091747 940 master.cpp:1006] Slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) disconnected I0806 16:39:59.091868 940 master.cpp:2203] Disconnecting slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) I0806 16:39:59.092031 940 master.cpp:2222] Deactivating slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) I0806 16:39:59.092248 939 hierarchical.hpp:621] Slave 20150806-163941-1027506442-5050-921-S3 deactivated
错误似乎是:
E0806 16:39:59.091384 940 socket.hpp:107] fd = 25时closures失败:传输端点未连接[107]
主持人开始使用:
./mesos-master.sh --ip=10.129.62.61 --work_dir=~/Mesos/mesos-0.23.0/workdir/ --zk=zk://10.129.62.61:2181/mesos --quorum=1
和奴隶
./mesos-slave.sh --master=zk://10.129.62.61:2181/mesos
如果我在与主机相同的虚拟机上运行slave,它工作正常。
我无法在互联网上find很多信息。 我在VirtualBox 5上运行两个虚拟框(Debian 8.1)。主机是一个Windows 7。
编辑1:
主机和从机都运行在专用的虚拟机上。
这两个虚拟机nextorksconfiguration使用桥接networking。
主从ifconfig:
eth0 Link encap:Ethernet HWaddr 08:00:27:cc:6c:6e inet addr:10.129.62.61 Bcast:10.129.255.255 Mask:255.255.0.0 inet6 addr: fe80::a00:27ff:fecc:6c6e/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 RX packets:5335953 errors:0 dropped:0 overruns:0 frame:0 TX packets:1422428 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1000 RX bytes:595886271 (568.2 MiB) TX bytes:362423868 (345.6 MiB)
从设备的ifconfig:
eth0 Link encap:Ethernet HWaddr 08:00:27:56:83:20 inet addr:10.129.62.49 Bcast:10.129.255.255 Mask:255.255.0.0 inet6 addr: fe80::a00:27ff:fe56:8320/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 RX packets:4358561 errors:0 dropped:0 overruns:0 frame:0 TX packets:3825 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1000 RX bytes:397126834 (378.7 MiB) TX bytes:354116 (345.8 KiB)
编辑2:
从站日志可以在http://pastebin.com/CXZUBHKrfind
主日志可以在http://pastebin.com/thYR1parfind
我有一个类似的问题。 我的奴隶日志将充满
E0812 15:58:04.017990 2193 socket.hpp:107] Shutdown failed on fd=13: Transport endpoint is not connected [107]
我的主人会有
F0120 20:45:48.025610 12116 master.cpp:1083] Recovery failed: Failed to recover registrar: Failed to perform fetch within 1mins
而且主人会死,而且会有新的选举发生,被杀的主人会被新贵重新启动(我在Centos 6盒子里),并加入到潜在的主人群中。 因此,我当选的主人会菊花链连接我的主节点。 主人和奴隶的重新启动,没有任何问题会在大选后1分钟内一直返回。
我的解决方案来自一个这个stackoverflow问题(谢谢),并在github 要点提示。
它的要点是/etc/default/mesos-master
必须指定一个仲裁编号(它对于mesos主编号是正确的,在我的情况下是3)
MESOS_QUORUM=2
这对我来说似乎很奇怪,因为我在文件/etc/mesos-master/quorum
有相同的信息
但我把它添加到/etc/default/mesos-master
重新启动了mesos-masters和slave,并且问题没有返回。
我希望这可以帮助你。
升级mesos版本时,我在日志中遇到了这个错误(例如0.20.0 – > 0.27.0)。 有时候,以前版本的数据与其他版本不兼容。
这是我如何解决它:
首先确保所有节点都停止了mesos-master服务:
sudo service mesos-master stop
然后清除所有可能的旧数据:
删除$MESOS_WORK_DIR
( /var/mesos
在我的情况):
sudo rm -rf /var/mesos
在ZooKeeper中清除我们的mesos数据:
$ zkCli.sh WatchedEvent state:SyncConnected type:None path:null [zk: localhost:2181(CONNECTED) 0] rmr /mesos [zk: localhost:2181(CONNECTED) 0] quit Quitting...
在完成这些步骤之后,我在所有节点上启动了mesos-master服务,并重新联机。
I0806 16:39:59.091747 940 master.cpp:1006] Slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) disconnected
这是错误提示。
你的奴隶暴露了错误的IP。
附加--ip=10.129.62.49
到从机命令,它工作。
用--ip=10.129.62.49
来运行slave