Elinizde 100 PDF fatura var ve hepsini Excel'e elle girdiğiniz oldu mu? Copy-paste bazılarında çalışıyor, bazılarında tablo yapısı bozuluyor, bazılarında ise hiç metin gelmiyor. Sebep: PDF, aslında tek bir dosya türü değil. Aynı uzantının altında çok farklı içerik biçimleri barınıyor.
PDF Fatura Türleri ve Farkları
Pratikte karşılaşılan 4 ana PDF fatura türü vardır:
- e-Fatura (dijital metin): Metin katmanı tam, tablolar düzenli. Genellikle doğrudan okunabilir.
- Taranmış PDF: Görselden ibarettir. İçinde metin yoktur — OCR şarttır.
- CID-encoded PDF: Metin katmanı var ama karakter haritası bozuk — kopyalayınca anlamsız semboller çıkar. Özel parser gerekir.
- El yazısı / yarı dijital: Klasik yöntemlerle okunamaz. Yalnızca görsel yapay zeka kurtarır.
Neden Standart Araçlar Çalışmıyor?
Copy-paste çoğunlukla ilk denenen yöntemdir ama PDF'in tablo yapısı kopyalama sırasında bozulur: kalemler karışır, birim fiyat ile adet aynı hücreye girer, satırlar kayar.
Adobe Acrobat Export yalnızca metin verir; yapı (hangi alan nerede) büyük ölçüde kaybolur. Excel'e aktarma ise kalem detaylarını yutar — genellikle sadece toplam tutar gelir.
OCR Nedir ve Ne Zaman Yeterlidir?
OCR (Optical Character Recognition), görseldeki karakterleri tanıyıp metne çeviren tekniktir. Taranmış belgelerde işe yarar — ama iki önemli tuzağı vardır:
- Türkçe karakter sorunu: Varsayılan dil paketleri ş, ğ, ü, ö, ç, ı harflerini sıklıkla karıştırır.
- Düşük çözünürlük: 150 dpi altındaki taramalarda doğruluk ciddi biçimde düşer.
Açık kaynak Tesseract OCR Türkçe dil paketiyle iyi sonuçlar verir, ama kurulum ve yapılandırma ayrı bir iş. Üstelik OCR bittiğinde elinize ham metin geçer — hangi alanın tutar, hangisinin satıcı, hangisinin vergi olduğunu ayrıca tespit etmek gerekir.
Vexra'nın 4 Aşamalı Okuma Zinciri
Tek bir yöntem her fatura türüne yetmediği için Vexra, her dosyayı sırasıyla 4 aşamadan geçirir ve ilk başarılı olan aşamayı kullanır:
- pdfplumber tablo okuma — e-Fatura gibi yapılandırılmış PDF'lerde tablolar ve alanlar doğrudan çıkarılır.
- Regex metin analizi — yapılandırılmış ama tablosu bozuk PDF'lerde metin kalıplarıyla tutar, tarih, VKN, satıcı alanları bulunur.
- Tesseract OCR (TR dil paketi) — taranmış PDF'lerde görsel, Türkçe optimize OCR'dan geçer.
- AI görsel okuma — el yazısı veya çok düşük kaliteli taramalarda son çare olarak yapay zeka devreye girer. Bu aşama yalnızca Pro'da bulunur, fatura geçici işlenir ve saklanmaz.
Her aşama bir sonrakine düşer — dolayısıyla en az kaynak tüketen yöntem her zaman önce denenir. Bu, hem hızı hem maliyeti kontrol altında tutar.
Faturanızı Vexra ile test edin — okunma aşamasını kendiniz görün.
Vexra'yı Ücretsiz İndir →Pratik Özet: Hangi Fatura, Hangi Yöntem?
| Fatura Türü | En İyi Yöntem | Doğruluk |
|---|---|---|
| e-Fatura | pdfplumber | ~%99 |
| Yapılandırılmış PDF | pdfplumber + regex | ~%95 |
| Taranmış PDF | Tesseract OCR (TR) | ~%88 |
| El yazısı / düşük kalite | AI görsel okuma (Pro) | ~%92 |
Sonuç
PDF faturayı elle işlemek teknik bir kısıtlama değil, doğru aracın olmamasından kaynaklanan bir tercihtir. 4 aşamalı bir okuma zinciri — her dosyaya en uygun yöntemi deneyen — çoğu KOBİ için fatura girişini aylık bir zahmet olmaktan çıkarır.