老板舍不得报废服务器主板,逼我出具X光报告

嵌入式ARM 2021-10-14 09:01

1. 开场

老板气势汹汹走进质检室:“你都在瞎折腾啥,电脑主板修好了吗,客户一直催我发货,有进展没?”
吴解两手一摊:“还真有,绝对是物理损伤,报废吧。”
老板:“报废!说得轻松,你又不是不知道一块板子多贵!顶得你半年的工资。”话一出口老板意识自己说多了。
还有其他同事在场,话落同事的眼睛都盯着吴解,露出一副羡慕嫉妒恨的眼神,我打着圆场:“老板,我的工资好多年没变,你刚刚莫非说的是我的调薪计划?现在就能答复你——我接受计划,哈哈哈”
吴解是一名程序员,老板始终以为电脑没跑起来是主板内存启动参数设置错误导致,揪着他不放,施压势必要修好。
公司只为大客户生产电脑主板,什么是大客户呢?那就是它的稀缺性,客户定制的主板应用于专用领域,不同于家用的电脑。客户有多大呢?客户一下单可以保证公司三年渠道不愁。机会和风险并存,如果设备出了设计缺陷问题,客户不高兴可能三年的产品都要一次性退回,公司就歇菜咯。产品卖得也老贵了。
老板:“你再查查是哪个器件坏了,换掉它。”
吴解再三确认老板的态度:“还能再更换器件吗?之前板子已经更换过一次,高度怀疑电路板走线断,换其他器件无效。”听老板口气是想对返修规程开绿灯,按照规程,电路板维修最多只能更换一次器件,否则的电路板不允许发货。
老板:“更换器件也是下下策,你再尝试调试软件行不行,说不定就好了呢,目前你必须在不改变电路器件的情况下确定是哪个器件损坏,确认不出你下个月没绩效。”
给出电路板断线的结论老板是听不进去的,没有直接证据摆在他面前,光凭借个人经验说服不了。如果不把老板说服,扣绩效就不是停留在口头上的威胁,好肉疼啊。吴解思绪片刻转身走出质检室。
老板在后面指他的背影着嚷着道:“喂你去哪,你是不是忘记拿故障板了!”
吴解:“已经定位故障,我得找一家有X光资质的企业。我的话在你这里没有权重,给电路板拍一张X光,是不是布线断一目了然。《诉讼法》把这称啥来着,零口供定罪。”

2. 拓扑

家用计算机CPU和内存的连接方式简要图是这样的:内存颗粒的16根公共地址总线A0~A15连接到CPU的16个地址端口上,结构都一样我仅画出一根示意,控制地址线的IO口看成有上下拉的电阻,电阻两端接数字地和1.5V上拉电源;颗内存颗粒组成一条内存,末端电阻连接0.75V电压,因为它必须放在最后一颗内存颗粒后,所以也叫端接电阻。
其实还有数据信号、控制信号、时钟信号,它们都和本文关注点关系不大就省略,避免阅读疲劳。
主板内存要能运行必须保证4部分同时正常:CPU、内存颗粒、供电、信号通路。
电脑主板的故障现象一句话描述就是“电路板受热后内存数据访问错位” ,具体的错位现象在之前发过视频,即使不看视频也不影响下文的阅读,具体排查思路我将在另一篇文章里详细描述,读者暂时接受我的结论——故障由于地址线A0信号通路断路引起
  • 《记录:故障板卡复现DDR读写错位(故障板卡)》
  • 《记录:风筒加热内存都不是事儿(正常板卡)》

3. X光拍照

委托机构聊天群里传回电路板X光俯视图,黑色实心的圆点是BGA焊盘,两焊锡求之间有个泪滴形状的长方形是0402封装的陶瓷电容,置于芯片背面起到滤波作用;与BGA焊盘矩阵成45度错位整齐排列的小圆形是过孔;某些芯片内部还能看到若干弧形飞线;交错纵横灰蒙蒙的线条是电路板走线铜箔,它们的宽度只有BGA焊盘直径的1/6。
 

走线的清晰度不是太高,反复在电脑端查看PCB图核对X光下若有若无的走线阴影,尤其是在大面积网格覆铜的情况下,假如断路位置在它上方,X光是无能为力的。或许CT可以排上用场,电路板拍照最大的好处是可以充分发挥放射仪器的分辨率特性,分辨率和什么有关系?断层数呗。拍摄CT时候医生会考虑到照射部位的变异敏感性,特意降低放射计量、尽量少的断层照射。电路板几乎没有放射计量的顾虑,直接以最小断层去采集数据。

期初故障仅在受热情况下发生,证明断路位置仅仅微弱的断裂,铜箔微变形才断开。幸运的是,反复用风筒加热电路板已经超过产品器件的耐受温循次数,最终即使在常温情况下也能复现故障,希望裂缝能更明显。
传统电子企业做温度控制筛选需把产品放入一个像冰箱的设备,称之为温箱,温箱能制冷也能加热,温度控制在-50~80℃,大的温箱有一个房间大小,人可以直接进入,称为步入式温箱。
传统冰箱的方式对整个产品放入温箱整体温控,电子产品出现问题后很难定位是哪个器件温度明感,一直很希望能有一种可以给单独器件加热、制冷的温箱。2019年就有一家国内企业研发了相关产品《一种温度控制系统设计及在高低温测试中的应用》,可惜产品不对外销售。
既然市面上买不到理想的单点温控设备,退而求其次DIY一个用模板隔绝器件之间温度传递的想法。
回想排查过程,猜测断路点更靠近CPU侧面,哪来的结论呢?在用风筒给电路板加热时,风筒中心对着CPU,CPU和内存条之间用一块木板隔离,风筒热度和风速都没开到最大档位,试图一定程度上做到单独给某区域加热,进一步缩小怀疑区域。究竟断路点更靠近CPU侧还是更靠近内存条侧。

吴解提醒同事在EDA软件上操作:高亮地址线A0的整条链路,核对A0信号脚途经的焊盘、过孔、走线。
用于连通双面板和多层板各层之间的印制导线,在各层需要连通的导线的交汇处钻上一个公共孔,即过孔。在工艺上,过孔的孔壁圆柱面上用化学沉积的方法镀上一层金属,用以连通中间各层需要连通的铜箔,而过孔的上下两面做成圆形焊盘形状,过孔的参数主要有孔的外径和钻孔尺寸。
过孔在线路板中,一条线路从板的一面跳到另一面,连接两条连线的孔也叫过孔,区别于焊盘,边上没有助焊层。
过孔不仅可以是通孔,还可以是掩埋式。所谓通孔式过孔是指穿通所有覆铜层的过孔;掩埋式过孔则仅穿通中间几个覆铜层面,仿佛被其它覆铜层掩埋起来。

发现离CPU BGA焊盘最近的过孔影像和其他过孔有明显差异,理想状态下过孔影像应该是垂直圆筒状、或空心圆形,具体形状依据拍摄视角而定,影像上两层过孔边沿并不是相互垂直的,略有些偏移,看起来像两个套在一起啊的奥运五环,疑似过孔工艺有瑕疵。
EDA上显示A0的过孔属于Top(顶)层到Bottom(底)层的通孔,接着在疑似瑕疵过孔旁边查询有没有连通同样两层的同规格过孔:有,还很多,离得也很近。选择最近的几个过孔影像与A0比较也存在明显差异

为什么要和它们对比呢?在欧式空间中,同一平面上的两条平行线永不相交。这是每个受过九年义务教育的人都知道的常识,这一常识在射影空间中不再成立,两条相互平行的铁轨离观察者越远铁轨间距越窄,在无限远处相交于一点。
X光垂直照射也存在细微的射影空间视觉差,相机正下方的过孔呈空心圆状,距离远的过孔呈圆筒状,找几个与A0较近的过孔是为了识别射影空间的视觉欺骗。
拿起手机在聊天群里输入:“请倾斜些角度拍摄电路板CPU位置,角度尽可能多。”

换角度拍证实地址线A0信号断路的猜想。除了瑕疵过孔外,其他的过孔都成圆筒状,瑕疵过孔的圆筒内壁阴影深度既不同于正常过孔的深,也没有无铜区域暗淡,推测渡金属工序镀层厚度不足。怀疑经历多次高低温应力实验,最终使得过孔内壁撕裂。

撕裂的位置位于BGA焊盘到第一颗内存颗粒之间,具体可以参看文章的第一张图。
猜想是建立在X光照片之前的思考实验,最终照片证实猜想的成立。相比于先看到照片后天马行空的揣测,前者更具说服力。

4. 对峙

向电路板制作厂家展示疑似瑕疵过孔的照片,希望的得到他们的确认,故障板卡就能盖棺定论。
“故障板疑似瑕疵过孔与同类型过孔有点区别,请你们协助分析是否存在异常,还需要做哪些验证?可否形成相应的结果及报告?”
叮咚——30分钟后得到对方的信息恢复,还未看清文字内容对方居然撤回消息,对方没立即编辑新消息。
同事调侃道:“厂家是不想认账咯,欲言又止。”
继续等待15分钟后厂家回复一段更加正式、避重就轻的答复。
“你好,就目前检查的结果,并未在表面焊接部分发现质量问题,过孔是否存在异常需要相关检验设备,拆卸器件,PCB逐层打磨拍照铜箔是否存在缺失,我司不具备相关设备条件,没法针对故障给出分析报告。”
厂家是非但不承认质量缺陷还试图毁尸灭迹,诱导破坏实验,实验结束后再出具报告产品质量完整,锅甩得贼溜。其实排除过孔是否存在瑕疵还没到破坏实验的地步,卸掉CPU是必要的操作,万用表两端分别接触A0的BGA焊盘,另一端接触内存颗粒末端电阻,如果蜂鸣器发出“哔”,就证明没有断路。
再次拆卸CPU触发第二次维修跟换器件条件,得结果老板的同意,无论是否能修好都不允许售卖,为的是死的明明白白。老板的思想工作请其他同事去做,X光照片摆在这里,耗在这也不可能有结果,真要是过孔瑕疵老板给客户的答复也轻松,上游厂商的疏忽打板子总不至于打到自己头上。
老板无奈同意:“卸吧。”
虽说吴解有着十足的把握是线路肯定是断的,在用万用表测试前依旧存在些许忐忑,万一响了,几星期的奋战岂不是颗粒无收。加之报废一块电路板,老板必定会记在账上,就算是卖不出去老板也会让他继续排查找到真实故障原因。
没响。
吴解可以暂停脑子里的小剧场,抬起头嘴角上翘:“老板,来听听,我没说错吧,就是断了”。
老板接过吴解手中的万用表:“刚刚碰哪了?让我来测试。”

5. 老板的奇思妙想

老板不甘心直接报废电路板,提出一个大胆的想法试图挽回损失,“既然瑕疵过孔是一个通孔,或许还有挽救的措施,”老板在纸上画着草图给大伙解释道。

“在原来过孔的位置用电钻前后打通,电路板已经不是裸板没法用电镀的方式重新补过孔金属,尝试这网过孔里灌入融化的焊锡,刮掉过孔附加顶层和底层绿油保护层,焊锡两端挂在两层电路板末端铜箔上。”

吴解也不反驳,只提醒几个风险:“第一过孔中间板材没有金属,焊锡根本无法附着全靠两端零星的铜箔支撑;第二过孔处理好后,旁边可是BGA焊盘呢,CPU还要重新焊接上去,加温后灌入的焊锡是否还能牢靠抓住铜箔不确定,大概率会受到液体张力脱离铜箔形成胶囊状;第三就算重复修复3-5次成功了,电路板能否经受得住震动实验呢?”
电路板制作厂家不敢承接老板的大胆想法,以钻头精细度不足、从未有类似返修先例为由拒绝。

6. 下期预告

还记得前文提醒“排查过程”放在另一篇文章吗,并不是我特意而为之,排查过程阅读起来没有本文轻松,涉及到不少计算机接口原理和软硬件调试方法,合成一篇文章读者阅读会失去兴趣,在这里首先高能预警,系列文章你将要了解到:
  • 为什么内存条都是单面4或8颗排列?
  • BIOS怎么适配不同内存条?
  • 购买内存条2根套装比单根贵的原因?家用主板究竟是否真有必要购买套装内存?
  • 怎么让CPU停止下来?
  • 主板只有一颗16位位宽的内存颗粒,64位CPU能否运行?
本系列其他文字版将只在“我的私域平台”发布,相关素材和文章通过下面方式获取。
关注公众号写个解:发送X光
参考文献
[1] 郭煜,胡钢. 一种温度控制系统设计及在高低温测试中的应用,新型工业化[J],2019(8),84-86
[2] W9825G6DH数据手册 https://pdf1.alldatasheetcn.com/datasheet-pdf/view/202135/WINBOND/W9825G6DH-6.html
[3] K4H560838F数据手册 https://pdf1.alldatasheetcn.com/datasheet-pdf/view/115438/SAMSUNG/K4H560838F-TC.html
[4] 通過盲孔提高PCB的集成密度 https://www.mokotechnology.com/zh-tw/blind-microvia/
END

来源:程序员写个解,作者:吴解君

版权归原作者所有,如有侵权,请联系删除。

推荐阅读
缺货涨价潮下,使用GD32替代STM32的体验
HC32F460开发板之点亮板载的0.91寸OLED
国产替代环境下,测试了下GD32E230C8T6最小系统板

→点关注,不迷路←
嵌入式ARM 关注这个时代最火的嵌入式ARM,你想知道的都在这里。
评论 (0)
热门推荐
X
广告
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦