低エネルギー中性子に対するソフトエラー発生率の特性を解明 24
ストーリー by nagazou
解明 部門より
解明 部門より
NTTは16日、北海道大学と共同で中性子が引き起こす半導体ソフトエラー発生率の測定に世界で初めて成功したことを発表した。今回の成功は10ミリ電子ボルト〜1メガ電子ボルトの低エネルギー領域におけるもので、ソフトエラー発生率を連続的なデータとして実測することに成功したとしている(NTTリリース、ASCII.jp、PC Watch)。
宇宙線が大気圏中の酸素や窒素に衝突すると中性子が発生し、その中性子が半導体に衝突すると、データが書き換わるソフトエラーが発生。その結果として通信障害などの大規模障害の原因になることがある。中性子線によるソフトエラーの発生率については、高エネルギー領域の中性子線を対象に計測した研究例があるが、低エネルギー領域では世界初。
中性子源特性試験装置で、市販のFPGAに中性子を衝突させ、NTTが開発した高速ソフトエラー検出器で中性子が持つエネルギーの変化に応じたソフトエラー発生率の変化を測定したとしている。
宇宙線が大気圏中の酸素や窒素に衝突すると中性子が発生し、その中性子が半導体に衝突すると、データが書き換わるソフトエラーが発生。その結果として通信障害などの大規模障害の原因になることがある。中性子線によるソフトエラーの発生率については、高エネルギー領域の中性子線を対象に計測した研究例があるが、低エネルギー領域では世界初。
中性子源特性試験装置で、市販のFPGAに中性子を衝突させ、NTTが開発した高速ソフトエラー検出器で中性子が持つエネルギーの変化に応じたソフトエラー発生率の変化を測定したとしている。
対策方法 (スコア:1)
メモリーはECCをつけるなどで対策できそうだけど、
FPGAだとどういう対策ができるんだろう。
ロジックがおかしくなるのを防止するには、定期的に Configuration しなおす。
処理中のデータが化けるのを防ぐには、データに対してECCするのかな。
Re:対策方法 (スコア:3, 参考になる)
サーバ向けCPUやGPUだとかなり前から、ソフトエラー対策が入ってますよ。
重要なレジスタを二重化したりしてる。
そうしないと、数万CPU使うスパコン向けには使えないので、x86をスパコンに使い出した頃から対策が入ってて当時は学会でも発表されたました。
既に確立した技術なので、今はあまり話題に上がりませんが。
Re:対策方法 (スコア:1)
Re: (スコア:0)
もっと昔の大型機のロジックにはパリティが入っていました。パリティごと演算します。今は知らん。
ECCじゃなくてパリティということは、実際にはおきないという判断です。
二重化はパリティと同じです。最近のはノードがダウンしてもシステムダウンにならないとか、
そういう判断で二重化なのかな。
Re:対策方法 (スコア:1)
// 全ビットにパリティでも用意するか?
Re: (スコア:0)
FPGAは昔から宇宙用・軍用のRadhard品が供給されているので、それを使えということなのでしょう
Radhardタイプの無い高集積・最先端製品は対策お手上げということで.....
#FPGAのコンフィギュレーションだけを問題にするのなら旧Actelのアンチヒューズ・タイプがおすすめ
Re: (スコア:0)
おっと、失礼。その前のコメントの人がサーバ向けCPUやGPUの話にしていたので。
Re: (スコア:0)
しかし考えると、パリティつきロジックはFPGAのエラー検出手段としては有効だろう。
ロジックが冗長なんだから。
ただし、パリティつきロジックは設計がめんどくさすぎるので、今どきならロジック自体を
二重化、三重化すればいいんじゃないかな。FPGA自体を冗長にするとか、装置自体を冗長に
したほうがいいと思うけど。
Re: (スコア:0)
宇宙向けでは放射線耐性が高いFPGA使うので大丈夫でしょう。
SRAMを2重化したり、放射線耐性が高い不揮発メモリ使ってたりする。
地上で使うなら、そもそもFPGAで大規模な構成にしないから問題ないかと。
上のコメントでもあるように、地上でソフトエラーが問題になるのはスパコンのように大規模な(使う数が数が多い)ときにエラー確率が上がってしまう場合だから。
FPGAを計測に使ってるのはFPGAがこの手の計測に使いやすいからであって、FPGAの対策が主目的では無いと思う。
Re: (スコア:0)
三重冗長で多数決を取る回路を生成するのが鉄板では。ACTEL の FPGA とか。
Re: (スコア:0)
パリティ等の矛盾する動きを検出するチェック回路入れて、チェッカ点灯したらアベンドorリトライ。
リトライが難しい場合は3重化して多数決する場合もあり。
FPGAってソフトエラーに弱いんですよね。
「いや~、そうなんですよ」 (スコア:1)
「御社に今日納入するはずだったソフトウェアなんですけど、ほら、この記事にもある通り、ね。
『低エネルギー中性子』って奴がどうもうちのサーバーにあたっちゃったみたいで、データが飛んでしまってですね。
今一生懸命修復作業中なんですが、もうちょっと待っていただけませんかね。
いや、ほんと、ウチが悪いんじゃなく、ウンが悪いって奴で…」
魔法と区別がつかない (スコア:0)
この技術を突き詰めていくと、特定のタイミングで特定の部位に特定の強さの中性子線を照射することで、動作中のコンピュータのデータを任意に書き換える事ができるようになるのです(嘘)
Re: (スコア:0)
エレクトリックサンダーのニューバージョン
Re: (スコア:0)
バリオン・ランス(出典さすおに)
Re: (スコア:0)
嘘じゃなくてホントだよ。暇人が研究してる。
イヤア~ (スコア:0)
そもそも!ソフトウェアエラーじゃ無いだろう~!
Re:イヤア~ (スコア:1)
元に戻らないほどの故障が起こるのを「ハードエラー」
元に戻る程度の故障を「ソフトエラー」
と呼ぶのですよ
Re: (スコア:0)
キャパシターが壊れたとかトランジスターが壊れたとかいうハードウエアのエラーじゃない。
ハードは壊れていない、ってんで、「ハード」に対して「ソフト」って呼び名になったんじゃない。
再度動かせばまともに動くからね。
Re: (スコア:0)
ソフト屋では対応できないのでソフトエラーと言われても困る。
対応するのはハード屋だからハードエラーというべき。
ってのはどうでしょうか?
Re: (スコア:0)
組み込みだとソフト屋が対応します。単純に同じ値を複数の変数に入れたりする。んで一致率が基準値を超えてればオッケー下回れば宇宙線のせいにする。
Re: (スコア:0)
組み込みでソフト屋がしりぬぐいする羽目になること多すぎ(プンプン
ハードの不具合対応に限らず常に工期のしわ寄せが...
加速器施設でのCCDカメラ (スコア:0)
こうなると電源 OFF/ON するしかない。
電子加速器なら放射線はビームの裾野(断面のサイズ方向)がビームダクトなどに当たって飛びだしてくるエネルギーがまちまち(低エネルギーからビームとほぼ同じエネルギ-)のガンマ線や電子だったり、電子の加速につかう加速管から放出されるものだったりいろいろ。
MeV領域のエネルギーのガンマ線があると、特定の原子核がガンマ線を吸収して中性子を放出したりします。
だから運転中はガンマ線も中性子もたくさん飛び交っていて、粒子の種類とそのエネルギーなど何がエラーに大きく寄与しているか良く分からない。
この研究で熱中性子も大きな影響があることが分かるので熱中性子も積極的に遮蔽したほうが良さそう感じました。
ちなみにX線やガンマ線は光子だけどエネルギーで呼び方が変わると思われているけど、放射線を専門としている人たちは核反応から出てくるものをガンマ線と呼びますね。
Re:加速器施設でのCCDカメラ (スコア:2)
「7.8eV だってガンマ線(VUV gamma)!」 by 229Th
# 熱中性子の遮蔽って難しそうですが、お手軽な対策としては放射線源から離れた場所に回路を置くみたいな方向性になってしまうのでしょうかね。