トラブル発生時の問題切り分け

<< Click to Display Table of Contents >>

マニュアル > トラブルシューティング >

トラブル発生時の問題切り分け

トラブル発生時の問題切り分けについて

導入先の現場で発生するトラブルは、実機PCやネットワーク環境等のハードウェア要因の問題や、下位側制御機器の動作内容や処理負荷など、複数の要因が複雑に絡み合っている場合があります。トラブル解決のためには、実際に現場で起きた事象を客観的に分析するとともに、トラブルを包括的に分析/切り分けを行い、原因を絞り込んでいく必要があります。

 

トラブル発生時に弊社の技術サポートにお問い合わせいただく場合には、まずは問題の原因がどこにあるのかの切り分け作業を行ってください。切り分けの結果、弊社への問い合わせが必要と判断された場合は、「弊社サポート窓口への連絡手順」に記載されている各種ログデータを収集のうえ、サポート窓口までEメール等で送付ください。

 

 

 

hint

トラブルには、一定期間以上の連続稼働を行わないと再現しないような問題や、実機環境でしか再現しないような現象がある場合があります。PA-Panelによる監視システムの導入を行うにあたっては、現場に導入する実機PC環境とは別に、正常に動作することが確立されている試験用PC環境を、社内検証環境として常備しておくことを強く推奨いたします。
(最低1台、二重化の導入を行う場合は2台以上あればベターです)。

 
試験用PC環境を保有しておくことにより、実機PC環境でしか発生しない問題なのか、試験用PC環境でも発生する問題なのかを切り分けられるという点において、トラブルの原因を絞り込む上でとても有効です。

 

例1)

実機PC環境で問題が発生した場合、アプリファイル一式を持ち帰り、検証用PC上で再現するかどうか。
→ 再現する場合は検証用PC上でさらに詳細に原因調査を行う。
→ 再現手順を実施しても検証用PCで再現しない場合は、実機PC環境に依存した問題の可能性が高い。

 

例2)

問題が発生している実機PCを取り外し、正常動作が保障されている試験用PCと交換して現場で試験運転を行う。
→ 試験用PCでも再現するような場合は、現場の環境を重点的に調査する。(特に、ハブ、ネットワーク環境、ネットワークに接続される他の機器の影響)
→ 試験用PCでは再現しない場合は、実機PCのみで発生する問題の可能性が高い。実機PCの環境設定、接続デバイス、機器の故障等を重点的に調査する。
 

 

1.ハードウェア、Windows OSによる問題の切り分け
 
トラブルが発生した場合は最初に、ハードウェア(ネットワーク機器など)及びWindows OSの問題なのか、弊社パッケージのソフトウェア内の問題なのかの切り分けを行って下さい。
 
通信エラーが発生している場合は、「通信エラー対処方法」も併せて参照してください。
 

現象

考えられる事例

要因・対策等

PCが異常終了する。

PCが止まる。

勝手に再起動する。

 

PCに接続されているデバイスが問題を起こし異常終了する。

ネットワークカード

サウンドカード

ビデオカード …など
 

問題のあるデバイスを正常に動作するものと交換する。または、ファームウェアのアップデートで問題が解決する場合は、アップデートを行ってみる。

ブルースクリーンが表示されて異常終了する場合は、問題となっているデバイス名が画面上に表示されている場合があるのでメッセージをよく確認する。

PCに増設したメモリに不具合があり、連続稼働を行うとメモリ参照エラーでブルースクリーンとなる。

増設メモリの交換。

メモリ異常の場合、問題のあるメモリブロックへのアクセスがあるまで異常が発生しない場合もあるため、即座に現象が再現しにくい場合ある。

 

ハードディスクの故障

Windows OSのシステムログにIDEやRAIDの警告が残されていないか確認する。

HDDメーカー提供の自己診断ツールなどがあればチェックを行う。修復機能があるものは修復を試してみる。

故障している場合は交換を行う。

 

Windows Updateの自動更新による再起動が行われた。

Windows Updateの自動更新設定を無効にする。

 

現場の電源供給で瞬停が発生した。

テスターで電圧を計測し、定格よりも低い電圧となっていないか確認する。

低めの電圧の場合は、UPSの設置等を検討する。

現場環境により、瞬停が発生する時間帯などに規則性がないか観察する(例えば、毎週ある曜日の朝一に落ちる、など)。

 

その他、PCが意図しない動作(不安定)になる。

Windowsが意図しない動作となる場合や、PCが勝手に再起動する場合などは、Windowsのイベントログを確認してください。異常が発生した時刻に該当するエラーが出力されている場合があります(ドライバ異常、ハードディスク異常など)。
 

ネットワーク全体が異常に重く、全ての機器が正しく繋がらない

ネットワーク環境による問題

HUBの異常(故障)

同一のHUBにLANケーブルをループ接続している。

ループ接続(HUBのポートから、同一HUBの別ポートに差し込んでしまっている)になっていないか、結線をよく確認する。

試験的にHUBを別の機器と交換してみる(切り分けをより明確にするために、できれば別メーカーの同等製品で試験を行う)。

ある特定の機器を繋いだ時だけ通信が重くなる等の傾向がないか調査する。

 

ネットワークが繋がらない

LANケーブルの結線間違い。

目的のポートに、確実に正しく接続されていることを確認する。

特に1台のPCだけ繋がらないような場合は、コネクタが浮いていたり、LANケーブルが断線していたり等、単純な物理的障害の可能性が高い。

 

IPアドレス、サブネットマスク、ポート番号の設定間違い。

正しいネットワークアドレスに設定しなおす。

同一のPCに複数のLANカードを構成する場合、各LANカードは別セグメントのネットワークアドレスが設定されているかどうか確認する(※もしも、同一セグメントで設定されている場合、動作不安定要因となる)。
 

ファイアウォールによる遮断。

必須でなければファイアウォールを無効にする。ファイアウォールが必要な場合は、適切なIPアドレス、ポート番号を解放する。

 

ルーターによる遮断。

 

適切なIPアドレス、ポート番号を解放する。

PLCと全く繋がらない。

通信パラメータの設定に誤りがある。特に、進数の違いによるミスが多い(16進数で設定すべきところを10進数としていた等)。

PLC側の通信カードが故障している場合もある。複数の通信カードがある場合は、正常動作している通信カードと交換して接続できるか確認する。

 

ネットワークが時々切れる

一見、正しく通信が行われているように見えても、一定時間毎に通信が切れる現象が発生した(10分、20分に1回など)。

 

 

既に画面から停止していた警報音が、しばらくすると再び鳴動することにより発覚(Panel Serverと監視画面が再接続されることにより、音が都度鳴る)。

LANカードの通信速度設定に注意する。LANカードの種類や設定方法によっては、「オートネゴシエーション」機能による速度自動検出が設定されている場合に、通信速度を自動検出するために定期的に通信を遮断するものもあります。このような場合は、LANカードの通信速度設定に注意し、正常に動作する設定に合わる(※どのような設定がベストであるかは機器の仕様に依存する)。

問題の切り分けのために、USB接続等で利用できる簡易的なLANポートを増設し、増設側のLAN経路で問題が再現するかどうかを検証する。

 

二重化構成でサブディスクに書込みができない

メイン、サブともWindowsのネットワーク共有は設定しているが、Outputログにサブディスクへの書込み失敗のエラーが表示されている。

左記のような現象は、Windowsのネットワーク共有設定で書込み権限を許可していない場合に生じる。ネットワーク共有に対する書込み権限が設定されているか確認する。

 

 

 

hint

通信系のトラブルの場合、PCに内蔵されているLANポートに依存した不具合(一瞬切れる等)が発生する場合があります。このような場合の切り分けとして、トラブルシューティング用としてUSB接続で簡易的に増設できるLANポートを常備しておくと、問題の切り分けに役立ちます。

 

 

2.アプリケーションによる問題の切り分け
 
アプリケーションに依存した問題と思われる場合、以下のような観点で状況分析を行ってください。
 
 
・Panel Serverで発生した問題なのか、Panel Browserで発生した問題なのかどうか。
 
 
・再現性のある問題かどうか。
→再現手順が分かる場合は、できるだけ詳細な手順を記録しておく。
 
・再現性のない問題の場合、何らかの兆候や条件がないかどうか。
→どのような操作を行った際に発生したのか等、発生時の状況をできるだけ詳しく記録しておく。
→Panel Serverで発生したOutputログを確認し、問題のあった時刻付近に何かエラーメッセージが表示されていないかどうかを確認してください。
 
以下に、幾つかのトラブル例を記載します。
 

現象

考えられる事例

要因・対策等

監視画面である操作をすると「Runtime Error」画面が表示される。

 
 

スクリプトのエラーです。実際にスクリプトを実行するタイミングで発生します。このエラーは、スクリプトの構文はあっているがオブジェクトやメソッド、プロパティ、変数などが実際に存在しない場合に発生します。

 
tro_0001

 

該当オブジェクトのスクリプトをチェックします。問題の切り分けとしては、部分的にコメントアウトしてエラーが発生する処理を特定します。

 

ClassId : エラーが発生したコントロールのClassId。

Name : エラーが発生したコントロールの名前(Nameプロパティ)。

Index : エラーが発生したコントロールの0から始まるインデックス。
フォーム内のコントロールの場合のみ表示される。
例)
Form01[3] --- フォーム(Form01)上の3番目のコントロール。
例)
Form01[3,2] --- フォーム(Form01)上の3番目のグループコントロール内の2番目のコントロール。

Line : エラーが発生したスクリプトの行。

 

表示されるエラーメッセージについては、「スクリプトエラー一覧」を参照してください。

 

監視画面である操作をすると「Compilation Error」画面が表示される。

スクリプトのエラーです。構文が間違っている場合に発生します。フォームを実際に開くなど、実際にインスタンスが生成されるタイミングで発生します。

 

tro_0002

 

同上。

 

表示されるエラーメッセージについては、「スクリプトエラー一覧」を参照してください。

 

 

現象

考えられる事例

要因・対策等

日報帳票の計量値が突然大きな値となる

PLCから受け取る計量カウンタが、Panel Serverで設定されているカウンタ上限値よりも小さな値で0に戻っていた(PLCラダーロジックの問題)。

 
 

計量カウンタのログデータ(サマリCSVなど)に記録されている時系列データをチェックし、カウンタの生値がどのような値で変化しているのかを確認する。カウンタ値が想定よりも小さな値を最大値としてリセットしているような場合は左記のような現象になる(0-99999の想定が、0-9999でリセットしている等)。

Panel Serverのロギング設定が、「エラー時にはロギングしない」になっておらず、システムをオンラインにした直後の数秒間、計量値のログデータに0が保存されてしまっていた。

 

ロガーアクションを使って計量値のロギングを行う場合、エラー時はロギングしない設定で運用する必要がある。

 

現象

考えられる事例

要因・対策等

想定していない動作や現象が発生した

PA-Panelのリビジョンが古い可能性があります。
 
Panel ServerとPanel Browserのリビジョンが違う場合、想定しない動作になる場合があります。必ず同じリビジョンにする必要があります。
 

すでに不具合が修正されている可能性があるため、最新のサービスパックを適用して、再現性があるかどうか確認を行う。

 

現象

考えられる事例

要因・対策等

監視画面を起動しても、正しい表示ができない。

Panel ServerとPanel Browser間が正しく繋がらない。
 

ファイアウォールによる遮断。

お互いのポート番号が正しく設定されていない。

サーバPCとクライアントPCが別々のPCの場合、各PCにインストールされているPA-Panelのバージョン及び、リビジョンがすべて揃っている必要がある。
 

 

 

3.連続稼働により発生する問題の切り分け
 
システムの運用を開始し、しばらくの期間は問題なく稼働しているような場合でも、例えば数日や数週間が経過した後でシステムが異常終了するようなトラブルが発生することがあります。このようなケースは複数の問題が同時に潜在している可能性もあり、事象を一つずつ切り分けていく必要があります。
 
また、このような問題の調査を行う上では、実機PCとは別のハードウェアとして、PA-Panelが確実に動作することが保障されている試験用PCが用意されていることが解決の近道となります。尚、実機PCを現場に導入する前に、必ず社内試験等で実機PCを用いた連続稼働試験を行い、問題が無いことを確認した上で現場に導入してください。このテスト実績を作っておくことで、現場で問題が発生した際に、社内試験では発生しなかった問題なのかどうかの切り分け判断に繋がります(現場の環境でのみ発生する問題なのか否か)。
 

現象

考えられる事例

要因・対策等

PC全体がだんだん重くなり、操作に耐えられなくなる

メモリリーク、ハンドルリークの疑い。

 

PCメーカーのプレインストールで入っていた常駐ソフトによるメモリリーク。

PA-Panelのメモリリークの疑い。

 

リソースチェッカーによるログを確認し、PA-Panel製品にメモリリークが発生していないかどうか確認する。

PA-Panel製品に問題が無い場合、タスクマネージャ等で全てのプロセスのメモリ使用量を定期的にチェックし、増減の推移を記録。

事例として、プレインストールに含まれている常駐プロセスのメモリ使用量が徐々に肥大していた為、全体メモリが逼迫して止まる現象がありました。当該プロセスを停止することで再現はしなくなりました。

 

サウンドドライバに問題があり、警報音を鳴らし続けているとメモリが失われ、OS全体がだんだんと重くなり、最後には全ての操作ができなくなる。

実機PCと交換で試験用PCを現場に試験導入。試験用PCでは連続稼働を行っても何も問題が生じないことから、実機PCに依存した問題と断定し、持ち帰り検査を実施。

検査の結果、サウンドを鳴らす度にメモリ使用量が減少していくことが発覚したため、本体付属のカードとは別にサウンドカードを増設することで解決。
 

「リソース不足によりタイマーが起動できません。一部の機能が停止します。リソースの使用量を減らす対策を行ってください。」というメッセージが表示される

運用に耐えられないような処理負荷となるアプリケーションの構築が行われている。例えばタグやアクション、イベント、アラームマスタなどが大量に登録されているような場合。

 
ope_0079
 

タグの点数やアラームが多い場合、それらを減らすことがシステム要件的に難しいようであれば、PCの分散運用(Panel Serverを複数台に分散させた構成)を検討してください。

 

 

hint

リソースチェッカーのログに記録されるメモリ使用量、ハンドル数等の数値は、システムが正常な状態であっても、起動後しばらくの間は徐々に上昇していきます。一定期間が経過し、サーバの各種処理が安定してくると、ある一定の値で微増減する状態に落ち着きます。どの程度の期間で安定した状態となるかはアプリケーションの構築内容により異なります。