Optical character recognition (OCR), Bir Başlıkta bir dünya.
Öncelikle birkaç terminoloji ye göz atmakta fayda var.
PDF OCR = (Searchable PDF) Aranabilir pdf, PDF üzerinden yazı kopyalarsın kendi yazılarında kullanırsın veya hangi kelimenin PDF in hangi sayfasında olduğuna bakarsın veya bulursun
Full Page OCR (Full Text Search, ) = Taranan belgelerin veya resimlerin üzerindeki tüm metinleri bir field da toplar ve Databese de tutar. Bir kelime aradığında o kelimeyi içeren kaç PDF veya İmaj varsa sana bulur.
ICR = El yazmalarını tanıyan OCR
Zonal OCR = Bölgesel OCR dır. Bir fatura üzerinde X-Y koordinatlarını verirsin o bölgedeki metni okur ve bir alana yazarsın vs.
Bir A4 belgesini iyi bir makine OCR dan geçirmesi 1 dk kadar sürer. Belgeyi hemen tarayayım OCR hazır olsun diye bir dünya yok.
Filemaker ve OCR benim yıllarımı yedi Filemaker 12 ye kadar ancak özel Plag-in yazdırmak ile olurdu. Özel plag-in de dünya maliyet demekti. OCR deyince Abbyy fine reader ile yapılırsa sağlıklı olur diğerleri hikaye en iyi Türkçe destek Abbyy de. Plag-in yazmak, Abbyy den alacağınız 5000 euro değerindeki SDK ile oluyor. Ayrıca 1.000$ da bir defaya mahsus aylık 10.000 sayfa OCR lisansı daha almamız lazım. Bazı projelerde tek seferlik 1 milyon sayfa OCR lisansı alırsın oda 3000$ civarı. SDK için 15000 bin tl. OCR için 3000 tl. Nereden biliyorsun dersen bu paraların hepsini ödedim. 2 sene önce 25000 tl nakit verdim.
Filemaker 13 te özel bazı entegratörler çıktı. FEEDZON READER onlardan biri, aylık 15 Euro ya OCR hizmeti sunuyor. Ama fiyatlara bakmak lazım 15 euro en baz modelidir. Aylık 500 sayfa falandır. Web sitesinde fiyatları var bakarsınız. https://www.feedzon.com/prices/
Filemaker ın Abbyy Fine Reader desteklemesi çok kolay. Filemaker geliştiricileri 1 haftada Abbyy Filemaker a entegre ederler ama yapmamalarının nedenini anlamıyorum. Bu gün Canon, Fujitsu, Brother, Kodak vs Tarayıcılar dan OCR yazılımları çıkıyor Filemaker da tık yok.
Size bir tüyo, Tarayıcı yazılımlarında OCR var, Bir belgeyi taradığında PDF OCR olarak ister file sistemde isterse database de tuta bilirsin. Full Text Searche için Tarayıcı yazılımları XML veri üretiyorlar. Önce PDF alırsın sonrada XML i aktarırsın.
Sırasıyla (Bu işlem Otomatik olmayacak ama idare eder.)
1- Belgeyi Tara PDF OCR yap bir dosyaya kaydet. Aynı dosya içerisine XML lini veya TEXT ini de attır.
2- Yazılımdan hem PDF i ni al hemde Text ini ilgili alana import et.
Bizim PORDOC adında yaklaşık 350 bin tl ye mal olan. Bir Elektronik Belge Yönetim Sistemi miz var. 10 kullanıcılı fiyatı 40.000 tl - 142.000 TL ye de sınırsız kullanıcı fiyatı var. İstanbulda TS 13298 sertifikasına sahip 3 üründen biri. PORDOC Belgeleri tarayarak arka planda kullanıcıya hissettirmeden PDF OCR ve Full Text Search in hazırlayıp ilgili alanlara atar. İşte Filemaker daki kısır döngü. Standart oluşturmuş bir yapın yoksa kimsede sana özel API SDK üretmez.