<div dir="ltr">Just a thought,   Are you connected to a "green" switch that might be dropping the power when idle and the probe can't handle that situation and disconnecting from the network and the process starts over?<br>
<br>Bryan Socha<br><div class="gmail_extra"><div><div dir="ltr">Network Engineer<br>DigitalOcean<br><br></div></div>
<br><br><div class="gmail_quote">On Thu, Jul 17, 2014 at 12:03 PM, Philip Homburg <span dir="ltr"><<a href="mailto:philip.homburg@ripe.net" target="_blank">philip.homburg@ripe.net</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hi Wilfried,<br>
<div class=""><br>
> Let's compare the most recent dis/connection logs for my 3 pets:<br>
<br>
</div>Here is what I found in our logs:<br>
<div class=""><br>
> ID 6009<br>
> 2014-07-14 03:58:03   3d 8h 16m        Still Connected<br>
<br>
</div>Upgrade to firmware 4650<br>
<div class=""><br>
> 2014-05-27 03:03:54   48d 0h 46m       2014-07-14 03:50:47    0h 7m<br>
<br>
</div>Hard to say, some network glitch<br>
<div class=""><br>
> 2014-05-20 15:19:02   6d 11h 37m       2014-05-27 02:57:00    0h 6m<br>
<br>
</div>Anchor was rebooted<br>
<div class=""><br>
> 2014-05-14 21:16:56   5d 17h 59m       2014-05-20 15:16:22    0h 2m<br>
<br>
</div>Network glitch<br>
<br>
<a href="https://atlas.ripe.net/atlas/udm.html?1026358.increase_type=rel&1026358.current_shift=150&1026358.current_clip=250&1026358.group_by=cc&1026358.show_me_filter=max,pls&msm_id=1026358&1026358.start_timestamp=1400098401&1026358.end_timestamp=1400102942&1026358.selected_probes=6001,6002,6003,6019,6022,6031,6040,6052#tab-seismograph1026358" target="_blank">https://atlas.ripe.net/atlas/udm.html?1026358.increase_type=rel&1026358.current_shift=150&1026358.current_clip=250&1026358.group_by=cc&1026358.show_me_filter=max,pls&msm_id=1026358&1026358.start_timestamp=1400098401&1026358.end_timestamp=1400102942&1026358.selected_probes=6001,6002,6003,6019,6022,6031,6040,6052#tab-seismograph1026358</a><br>

<div class=""><br>
> 2014-04-08 16:03:21   36d 5h 1m        2014-05-14 21:05:17    0h 11m<br>
<br>
</div>Anchor was rebooted<br>
<div class=""><br>
> ID 0466<br>
> 2014-07-13 23:31:05   3d 12h 45m       Still Connected<br>
<br>
</div>Some network glitch, unclear what<br>
<div class=""><br>
> 2014-07-09 23:05:40   3d 23h 54m       2014-07-13 22:59:49    0h 31m<br>
<br>
</div>Probe upgraded firmware, reason for disconnect got lost<br>
<div class=""><br>
> 2014-06-16 10:53:21   23d 11h 55m      2014-07-09 22:49:04    0h 16m<br>
<br>
</div>Network problem<br>
<div class=""><br>
> 2014-05-25 09:03:06   22d 1h 38m       2014-06-16 10:42:00    0h 11m<br>
<br>
</div>Some network problem.<br>
<div class=""><br>
> 2014-05-24 20:34:50   11h 54m          2014-05-25 08:29:12    0h 33m<br>
<br>
</div>Unclear<br>
<div class=""><br>
> ID 0414<br>
> 2014-07-07 23:41:23   9d 12h 35m       Still Connected<br>
<br>
</div>Some network problem<br>
<div class=""><br>
> 2014-07-02 03:58:45   5d 19h 31m       2014-07-07 23:29:54    0h 11m<br>
<br>
</div>Power cycled?<br>
<div class=""><br>
> 2014-06-13 09:37:50   18d 18h 7m       2014-07-02 03:45:08    0h 13m<br>
<br>
</div>Some network problem. High RTTs<br>
<div class=""><br>
> 2014-06-08 13:22:14   4d 20h 7m        2014-06-13 09:29:38    0h 8m<br>
<br>
</div>Power cycled?<br>
<div class=""><br>
> 2014-05-21 08:29:23   18d 4h 45m       2014-06-08 13:15:11    0h 7m<br>
<br>
</div>Same.<br>
<div class=""><br>
> Again, I fail to see some obvious correlation, what am I missing?<br>
><br>
> Does anyone else see a similar pattern?<br>
><br>
> How to start debugging, if there's anythig that needs debugging?<br>
<br>
</div>A couple of points:<br>
1) The connection between a probe (or anchor) and its controller doesn't<br>
have to be perfectly stable. It has to be good enough that probes will<br>
report results in timely fashion and can get commands. But nothing<br>
beyond that.<br>
2) For single probe to see a network failure (with measurements using<br>
the default parameters) the failure has to last for at least 10 minutes.<br>
That way a couple of measurements will have a chance to report on the<br>
failure. In contrast, the connection between a probe and the controller<br>
is already terminated if the network is down for one minute.<br>
3) When a target is measured by many probes then it is likely that at<br>
least some probes will pick up an event. But one probe on its own, it is<br>
hard to say anything about that.<br>
4) Version 1 probes tend to reboot after losing the connection to the<br>
controller due to memory fragmentation issues. That is unfortunate, but<br>
we can't really do anything about it. Version 3 probes and anchors just<br>
report their results a little later.<br>
<span class="HOEnZb"><font color="#888888"><br>
Philip<br>
<br>
</font></span></blockquote></div><br></div></div>