Python/2.7 information

pytesser모듈.

qkqhxla1 2014. 12. 19. 14:00

이썬 모듈중에 pytesser이라는 모듈이 있다. 신기하게도 캡챠를 프로그래밍적으로 인식할수있다.


근데 이 모듈을 써보면서 특징들을 적어보자면..


0. 공식 홈페이지에는 tif파일로 예시를 드는데 .png 파일도 되는거보니 확장자에 대해 무관한거같다.


1. 글씨가 어느 정도 작아지면 인식을 못한다. 실험결과 그림판에서 9이하로는 인식을 못한다.


즉 그림판 기준 글자크기가 10 이상은 되야 인식을 한다.


2. 왠지 모르지만 bmp형식?으로 바꿀수 없을때 에러메시지가 뜨면서 아예 안된다.


예시로 받은 tif파일을 조금 색을 넣고 변경했더니 아예 에러메시지가 떠버린다. 그런데 또 내가 임의로


만든 파일은 된다. 이것도 이유를 잘 모르겠다.. 


3. 예시는 바탕색이 흰색에 글자가 검은색인데, 반대로 해도 무관하다. 다른 여러가지 색에 대해서도


실험해봤는데 다 된다. 색깔에 대해서 무관하다.


예제 코드. 임의로 글자크기 10으로 apples라는 글자를 넣은 사진. apple.png



from pytesser import *
image = Image.open('apple.png')  
print image_to_string(image)     




인식이 잘 된다. 이걸로 Security Override 11번 문제를 해결하려 했으나......


위에서 말했듯이 글자 크기가 너무 작으면 인식이 안되는데 11번 문제의 캡챠도 너무 글자 크기가 


작아서 인식이 되지 않는다...(포기..) 포럼 들어가보니 어떤 외국분은 일일히 픽셀을 받아와서


해당 픽셀의 위치에 따라 글자를 판별하게끔 코딩했다는데 (ㄷㄷ;;;;;;) 이게 가능할지 모르겠다....

'Python > 2.7 information' 카테고리의 다른 글

유니코드, christmasctf a letter to her 500, los xavis  (0) 2015.01.02
winpexpect ( ftz level5 )  (0) 2014.12.27
Tkinter(python gui)  (0) 2014.11.22
정규표현식 (파싱)  (0) 2014.11.20
소켓 파일 업로드 (webhacking.kr 37)  (0) 2014.10.25