パスワードを忘れた? アカウント作成
16536510 story
NTT

低エネルギー中性子に対するソフトエラー発生率の特性を解明 24

ストーリー by nagazou
解明 部門より
NTTは16日、北海道大学と共同で中性子が引き起こす半導体ソフトエラー発生率の測定に世界で初めて成功したことを発表した。今回の成功は10ミリ電子ボルト〜1メガ電子ボルトの低エネルギー領域におけるもので、ソフトエラー発生率を連続的なデータとして実測することに成功したとしている(NTTリリースASCII.jpPC Watch)。

宇宙線が大気圏中の酸素や窒素に衝突すると中性子が発生し、その中性子が半導体に衝突すると、データが書き換わるソフトエラーが発生。その結果として通信障害などの大規模障害の原因になることがある。中性子線によるソフトエラーの発生率については、高エネルギー領域の中性子線を対象に計測した研究例があるが、低エネルギー領域では世界初。

中性子源特性試験装置で、市販のFPGAに中性子を衝突させ、NTTが開発した高速ソフトエラー検出器で中性子が持つエネルギーの変化に応じたソフトエラー発生率の変化を測定したとしている。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by jizou (5538) on 2023年03月20日 11時56分 (#4429691) 日記

    メモリーはECCをつけるなどで対策できそうだけど、
    FPGAだとどういう対策ができるんだろう。

    ロジックがおかしくなるのを防止するには、定期的に Configuration しなおす。
    処理中のデータが化けるのを防ぐには、データに対してECCするのかな。

    • Re:対策方法 (スコア:3, 参考になる)

      by Anonymous Coward on 2023年03月20日 12時22分 (#4429696)

      サーバ向けCPUやGPUだとかなり前から、ソフトエラー対策が入ってますよ。
      重要なレジスタを二重化したりしてる。
      そうしないと、数万CPU使うスパコン向けには使えないので、x86をスパコンに使い出した頃から対策が入ってて当時は学会でも発表されたました。
      既に確立した技術なので、今はあまり話題に上がりませんが。

      親コメント
      • by nekopon (1483) on 2023年03月20日 12時40分 (#4429706) 日記
        バスパリティは当然、データもE2EのECCというのはわかりますが、ロジックはどうしようかと
        親コメント
        • by Anonymous Coward

          もっと昔の大型機のロジックにはパリティが入っていました。パリティごと演算します。今は知らん。
          ECCじゃなくてパリティということは、実際にはおきないという判断です。

          二重化はパリティと同じです。最近のはノードがダウンしてもシステムダウンにならないとか、
          そういう判断で二重化なのかな。

          • by nekopon (1483) on 2023年03月20日 13時30分 (#4429749) 日記
            ごめん私の発言が言葉足らずだ。ここで言ってたロジックはFPGAのそれなのでRAMベース、1つのゲートの動作がRAMのビットに依存する話。
            // 全ビットにパリティでも用意するか?
            親コメント
            • by Anonymous Coward

              FPGAは昔から宇宙用・軍用のRadhard品が供給されているので、それを使えということなのでしょう
              Radhardタイプの無い高集積・最先端製品は対策お手上げということで.....
              #FPGAのコンフィギュレーションだけを問題にするのなら旧Actelのアンチヒューズ・タイプがおすすめ

            • by Anonymous Coward

              おっと、失礼。その前のコメントの人がサーバ向けCPUやGPUの話にしていたので。

              • by Anonymous Coward

                しかし考えると、パリティつきロジックはFPGAのエラー検出手段としては有効だろう。
                ロジックが冗長なんだから。

                ただし、パリティつきロジックは設計がめんどくさすぎるので、今どきならロジック自体を
                二重化、三重化すればいいんじゃないかな。FPGA自体を冗長にするとか、装置自体を冗長に
                したほうがいいと思うけど。

            • by Anonymous Coward

              宇宙向けでは放射線耐性が高いFPGA使うので大丈夫でしょう。
              SRAMを2重化したり、放射線耐性が高い不揮発メモリ使ってたりする。

              地上で使うなら、そもそもFPGAで大規模な構成にしないから問題ないかと。
              上のコメントでもあるように、地上でソフトエラーが問題になるのはスパコンのように大規模な(使う数が数が多い)ときにエラー確率が上がってしまう場合だから。

              FPGAを計測に使ってるのはFPGAがこの手の計測に使いやすいからであって、FPGAの対策が主目的では無いと思う。

    • by Anonymous Coward

      三重冗長で多数決を取る回路を生成するのが鉄板では。ACTEL の FPGA とか。

    • by Anonymous Coward

      パリティ等の矛盾する動きを検出するチェック回路入れて、チェッカ点灯したらアベンドorリトライ。
      リトライが難しい場合は3重化して多数決する場合もあり。
      FPGAってソフトエラーに弱いんですよね。

  • by Anonymous Coward on 2023年03月20日 14時03分 (#4429760)

    「御社に今日納入するはずだったソフトウェアなんですけど、ほら、この記事にもある通り、ね。
    『低エネルギー中性子』って奴がどうもうちのサーバーにあたっちゃったみたいで、データが飛んでしまってですね。
    今一生懸命修復作業中なんですが、もうちょっと待っていただけませんかね。
    いや、ほんと、ウチが悪いんじゃなく、ウンが悪いって奴で…」

  • by Anonymous Coward on 2023年03月20日 13時47分 (#4429752)

    この技術を突き詰めていくと、特定のタイミングで特定の部位に特定の強さの中性子線を照射することで、動作中のコンピュータのデータを任意に書き換える事ができるようになるのです(嘘)

    • by Anonymous Coward

      エレクトリックサンダーのニューバージョン

      • by Anonymous Coward

        バリオン・ランス(出典さすおに)

    • by Anonymous Coward

      嘘じゃなくてホントだよ。暇人が研究してる。

  • by Anonymous Coward on 2023年03月20日 14時47分 (#4429791)

    そもそも!ソフトウェアエラーじゃ無いだろう~!

    • by nekopon (1483) on 2023年03月20日 14時56分 (#4429798) 日記
      まあまあ
      元に戻らないほどの故障が起こるのを「ハードエラー」
      元に戻る程度の故障を「ソフトエラー」
      と呼ぶのですよ
      親コメント
    • by Anonymous Coward

      キャパシターが壊れたとかトランジスターが壊れたとかいうハードウエアのエラーじゃない。
      ハードは壊れていない、ってんで、「ハード」に対して「ソフト」って呼び名になったんじゃない。
      再度動かせばまともに動くからね。

      • by Anonymous Coward

        ソフト屋では対応できないのでソフトエラーと言われても困る。
        対応するのはハード屋だからハードエラーというべき。
        ってのはどうでしょうか?

        • by Anonymous Coward

          組み込みだとソフト屋が対応します。単純に同じ値を複数の変数に入れたりする。んで一致率が基準値を超えてればオッケー下回れば宇宙線のせいにする。

          • by Anonymous Coward

            組み込みでソフト屋がしりぬぐいする羽目になること多すぎ(プンプン
            ハードの不具合対応に限らず常に工期のしわ寄せが...

  • by Anonymous Coward on 2023年03月20日 16時13分 (#4429852)
    加速器施設だとビームを蛍光板などに当てて形状測定するんだけど CCD カメラがハングアップしてしまうことがたびたび起きます。
    こうなると電源 OFF/ON するしかない。

    電子加速器なら放射線はビームの裾野(断面のサイズ方向)がビームダクトなどに当たって飛びだしてくるエネルギーがまちまち(低エネルギーからビームとほぼ同じエネルギ-)のガンマ線や電子だったり、電子の加速につかう加速管から放出されるものだったりいろいろ。
    MeV領域のエネルギーのガンマ線があると、特定の原子核がガンマ線を吸収して中性子を放出したりします。
    だから運転中はガンマ線も中性子もたくさん飛び交っていて、粒子の種類とそのエネルギーなど何がエラーに大きく寄与しているか良く分からない。

    この研究で熱中性子も大きな影響があることが分かるので熱中性子も積極的に遮蔽したほうが良さそう感じました。

    ちなみにX線やガンマ線は光子だけどエネルギーで呼び方が変わると思われているけど、放射線を専門としている人たちは核反応から出てくるものをガンマ線と呼びますね。
typodupeerror

UNIXはシンプルである。必要なのはそのシンプルさを理解する素質だけである -- Dennis Ritchie

読み込み中...