- install pytesseract and PIL
- download captcha picture
- read captcha impage
- read the text of image
*Resize picture could make it more correctly
破解經濟部商業司公司登記資料查詢系統驗證碼
http://gcis.nat.gov.tw/pub/cmpy/cmpyInfoListAction.do
這個驗證碼只有數字,沒有扭曲,而且底色單一,算是非常基本的驗證碼, 所以只要下載圖片後稍微調整圖片大小再利用pytesseract package解讀內容, 準確率就非常的高了。
破解國貿局進出口廠商基本資料查詢驗證碼
https://fbfh.trade.gov.tw/rich/text/indexfbOL.asp
這個驗證碼就比較複雜, 包含數字與字母,被扭曲,且底色還有其他干擾。
這裡我使用的方式是,下載圖片後利用histogram()解讀圖片中包含的顏色, 再將數字以外的點在與原圖相同大小的黑色圖片點上白色,產生字母與數字為黑色的白底圖。