On Fri, Jun 27, 2008 at 2:19 PM, Michael Dilger &lt;<a href="mailto:mike@mikedilger.com">mike@mikedilger.com</a>&gt; wrote:<br><div class="gmail_quote"><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<div class="Ih2E3d">AlanP wrote:<br>
&gt; Every three or four months, my mythbox goes belly up. It works if I reset<br>
&gt; it -- for about twenty minutes, then it locks up. Hard. Reinstalling it and<br>
&gt; rescueing my settings from the backup (go go Knoppmyth!) usually seems to<br>
&gt; fix it.<br>
&gt;<br>
</div>If reinstalling fixes it, then it is probably file system damage. &nbsp; If<br>
you get hard hangs and have to press the power button, that does file<br>
system damage each time.<br>
</blockquote><div><br>But not normally damage to executables or other read only data files. Actual file damage is pretty unusual for a hardware fault - it&#39;s usually a symptom of a virus or otherwise compromised system.<br>
</div><div>&nbsp;</div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">You could verify this by running fsck on your root partition by booting<br>

of CD first.<br>
<br>
fsck can fix the structure of the file system, but damaged files<br>
typically remain damaged and &quot;bit rot&quot; continues. &nbsp;There are ways to use<br>
backups and rsync or cpio to determine what has &quot;rotted&quot; and spot-fix<br>
those changes.<br>
<br>
To see what hardware is causing the crashes, leave your system on the<br>
console (if in X, press ctrl-alt-F1) and turn off screen blanking on<br>
that terminal (setterm -blank 0 -powersave off), then leave it alone<br>
until it hangs. &nbsp; If you have it compiling something big and nasty on<br>
another terminal, that could help set off a freeze event. &nbsp; It should<br>
print out a nice machine check exception error message something like this:<br>
<br>
 &nbsp; &nbsp;CPU0: Machine Check Exception 000000000000004<br>
 &nbsp; &nbsp;Kernel Panic - not syncing: CPU Context Corrupt<br>
<br>
Then you can run that message through a program called mcelog (you may<br>
have to install that) to get more information on what the message<br>
means... it may for instance tell you which subcomponent of your<br>
computer failed.... most likely some piece of the motherboard you cannot<br>
replace, or memory... but interesting none-the-less.<br>
<br>
Practically, the solution is what others have mentioned: &nbsp;blow off the<br>
dust with an air compressor, &nbsp;upgrade your fans (if you use quiet fans,<br>
sorry, get loud fans), &nbsp;down-tweak your BIOS settings (underclock<br>
things, increase memory timing), and pray that this will be enough. &nbsp; If<br>
not, start overvolting as well ... overvolting wears things down faster,<br>
and creates more heat, but does bring stability.<br>
<br>
If you still get hard crashes, you will still get &quot;bit rot&quot; and the only<br>
solution then is to get a new computer.<br>
</blockquote><div><br>All good advice. One thing you didn&#39;t mention that is often at fault is the power supply. The current supply might not be able to handle the load or it might be overheating or contributing to a heat problem elsewhere. I&#39;d consider replacing that before chucking the whole machine away.<br>
<br>Also - take a look at the capacitors on the motherboard. If the tops are bulging then the motherboard is stuffed.<br><br>Cheers,<br>Steve<br></div></div><br>