The Issue that the MA5600T H802GPBD Board Resets Repeatedly

The Issue that the MA5600T H802GPBD Board Resets Repeatedly Summary: In MA5600T V8R6 and V8R7, during the management message (OMCI and PLOAM messages) interaction when the H802GPBD board is connected ONUs, there is a possible that the CPLD logic bug is triggered. As a result, the board resets. Product Model: MA5600T             Product Family: Optical access

[Issue Description]

Trigger conditions:

ONUs are in the auto-discovery stage and the management message interaction increases. ONUs repeatedly go online and offline, and the management message interaction increases. ONUs are repeatedly powered on and powered off, and the management message interaction increases. The possibility of board reset increases with the normal management message interaction.

Fault symptom:

The H802GPBD board resets at random when it is connected to ONTs.

Identification method:

a. Query the CPLD version of the H802GPBD board. MA5600T(config)#display version 0/12 Send message for inquiring board version successfully, board executing… Main Board: H802GPBD ————————————— Pcb   Version: H802GPBD VER B Mab   Version: 0000 Logic Version: (U50)000(U25)008(U26)008(U49)018  –U49 is the CPLD logic and 018 is the logic version. Versions earlier than  018 has the issue of misinforming interruptions. Main CPU : CPU   Version: (U48)MPC8349 APP   Version: 672(2011-7-19) BIOS  Version: (U57)651 a. Enter the transparent transmission channel of the board to query the GMAC statistics. Commands for querying the GMAC information are as follows: MA5600T(config)#diagnose MA5600T(diagnose)%%su MA5600T(su)%%transparent on <frameid>/<slotid> MA5600T(su)%%user MA5600T(su)%%gmac show st 0 MA5600T(su)%%transparent off   MA5600T(su)%%gmac show stat 0 ——payload———————————————————- DownGemCnt:              13830616       UpGemCnt:               16303424 Down NVld Gem:           0              Up Misync Cnt:                 0 UGemReceivedIdle:        833932 ——DARB & RSM & PED——————————————————     DarbSendEthCnt:          13828216  RsmSendEthCnt:           12579847 DarbSendOmciCnt:         2400       RsmSendOmciCnt:          2400 DarbSendTdmCnt:          0           RsmSendTdmCnt:           0 DarbInsertIdleCnt:       9687041   RsmInsertInvalidCnt:     0 DarbInsertInvalidPortID: 0         RsmDropInvalidPortID:    0 PedCrcErrEth:            2 PedPLIErrDropOmci:       0 PedPLIErrDropTdm:        0 PedSendEthCnt:           12579847 PedSendTdmCnt:           0 PedSendOmciCnt:          2400 PedRecOverSizeEthCnt:    0 PedRecUnderSizeEthCnt:   0 ——OMCI——————————————————————     DomciInsertCnt:          2400           UomciSendCnt:            2400 UomciCrcErrSendCnt:      0 ——PLOAM—————————————————————– DownPloamCnt:            9297    UpPloamCnt:              23783 UploamDropForCrcCnt:     0 UploamDropForFullCnt:    0 UploamNoMsgCnt:          16058 ——SPI4.2—————————————————————-     SPI4DnReceiveCnt:        13828216       SPI4UpSendPktCnt:        12579847 SPI4DnDropCnt:           0 SPI4DnFifofullDrop:      0 SPI4DnPLIErrCnt:         0 SPI4DnTDMErrCnt:         0 SPI4DnETHErrCnt:         0 —————————————————————————- GMAC_ENTER_SERVICE:         10636691   —–The number of interruptions here is larger than 10 million, but the total number of interruptions on the following related PON ports is only larger than 20,000. Therefore, the issue is caused by excessively frequent interruptions. GMAC_ENTER_GMAC0_SERVICE:   8276 GMAC_ENTER_GMAC1_SERVICE:   8539 GMAC_ENTER_GMAC2_SERVICE:   3556 GMAC_ENTER_GMAC3_SERVICE:   1829 GMAC_ENTER_GMAC4_SERVICE:   2 GMAC_ENTER_GMAC5_SERVICE:   2 GMAC_ENTER_GMAC6_SERVICE:   2 GMAC_ENTER_GMAC7_SERVICE:   2 GMAC_INT_PLOAM:             18271 GMAC_INT_OMCI:              3661 GMAC_INT_ALARM:             344 GMAC_INT_LACKBAND:          0

[Root Cause]

When the board is connected ONTs, the ONTs respond to the management messages or PLOAM messages sent by the OLT. By reporting interruptions, the board GMAC instructs the CPU to process these messages. The CPLD codes of the GPBD board have a bug. As a result, useless interruptions will be reported to the CPU and the CPU always responds to these interruptions. When the system TICK interruption is generated (once 10 ms), the interruption that cannot be processed in time will be buffered in the system workQ queue. This process repeats. After the queue overflows (the depth of the workQ queue is 64), the operating system automatically resets the board.

[Impact and Risk]

The possibility of board reset increases with the number of ONTs connected to the board or the number of automatically discovered ONTs.

[Measures and Solutions]

Workarounds:

Reduce the management message interaction between OLT and ONU. Clear the automatically discovered ONTs of the board. Enable these ONTs to go online or remove them to reduce the management message interaction. Query the optical path status to check whether the management message interaction increases because ONTs repeatedly go online and offline due to optical path error codes.

Solution:

Upgrade the IO board package file for MA5600T V800R006C00SPC127 and later versions. Upgrade the IO board package file for MA5600T V800R007C00SPC317 and later versions. Upgrade the IO board package file for MA5600T V800R008C01SPC307 and later versions.

[Rectification Scope and Time Requirements]

None

[Pre-Warning Expiration]

The version is upgraded to V800R006C00SPC127 or V800R007C00SPC317 or V800R008C01SPC307, and the corresponding IO board package file is also upgraded. Query the CPLD logic version of the H802GPBD board. If the version is 018 or later, this issue is resolved.

Categories:

Comments are closed