Menu

Đột phá trong công nghệ nhận dạng ký tự tiếng Việt với độ chính xác 99%

Đột phá trong công nghệ nhận dạng ký tự tiếng Việt với độ chính xác 99%

Nếu bạn có những tài liệu cần số hóa để lưu trữ hoặc chỉnh sửa trên máy tính, hẳn bạn sẽ rất ngán ngẩm khi nghĩ đến việc phải đánh máy toàn bộ những tài liệu này. Rất may là hiện nay đã có công nghệ nhận dạng ký tự quang học OCR (Optical Character Recognition) giúp giảm bớt gánh nặng cho công việc văn phòng. Bạn chỉ cần chụp quét các trang tài liệu, những phần mềm ứng dụng công nghệ này sẽ chuyển các ký tự trong ảnh quét hoặc ảnh chụp sang dạng văn bản mà bạn có thể chỉnh sửa, xử lý như khi bạn soạn một văn bản trong MS Word.
(FSI cung cấp công nghệ nhận dạng ký tự DocPro)
Nhận dạng ký tự quang học (tiếng Anh: Optical Character Recognition, viết tắt là OCR) hay còn gọi là nhận dạng kí tự tiếng Việt, là loại phần mềm máy tính được tạo ra để chuyển các hình ảnh của chữ viết tay hoặc chữ đánh máy (thường được quét bằng máy scanner) thành các văn bản tài liệu. OCR được hình thành từ một lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhận tạo và machine vision. Mặc dù công việc nghiên cứu học thuật vẫn tiếp tục, một phần công việc của OCR đã chuyển sang ứng dụng trong thực tế với các kỹ thuật đã được chứng minh.

Công nghệ OCR do FSI cung cấp thuộc hệ thống quản trị tài liệu thông minh DocPro cho phép chuyển đổi tài liệu dạng ảnh (các ảnh đầu ra của máy quét, máy ảnh, file PDF dạng ảnh ...) thành tài liệu có thể biên tập được (file text, file Word...), xử lý ngôn ngữ tự nhiên và bóc tách thông tin.Việc áp dụng các công nghệ này vào hệ thống giúp công việc quản lý, biên soạn lại các tài liệu dạng ảnh, tìm kiếm tài liệu trở nên đơn giản và thuận tiện.
Mô hình nhận dạng và bóc tách thông tin tài liệu của DocPro
Bên cạnh đó, Công nghệ nhận dạng ký tự và văn bản của FSI nâng cao khả năng nhận dạng văn bản tiếng Việt với độ chính xác tới 99% và chấp nhận hầu hết các định dạng ảnh đầu vào như: PDF, TIFF, JPEG, GIF, PNG, BMP, PCX, DCX,…

Với các tính năng ưu việt, công nghệ nhận dạng ký tự và văn bản của FSI có thể thực hiện theo 3 hình thức:

- Nhận dạng và bóc tách thông tin tự động: Tài liệu khi đưa lên hệ thống, người dùng chọn lựa loại tài liệu (công văn, báo cáo, quyết định, hoặc 1 số dạng khác …); Tài liệu sau đó được nhận dạng OCR chuyển sang dạng text và tự động bóc tách các trường thông tin cần thiết.
(Nhận dạng và bóc tách thông tin tự động)
- Nhận dạng và bóc tách thông tin trực tiếp trên file: Người dùng chọn file cần nhận dạng ký tự và bóc tách thông tin sau đó lựa chọn vùng ảnh và gán vùng ảnh đó với trường thông tin cụ thể, hệ thống sẽ nhận dạng và tự động đưa vào các trường thông tin tương ứng đó.
Nhận dạng và bóc tách thông tin trực tiếp
- Nhận dạng và bóc tách theo form mẫu do người dùng định nghĩa: Người dùng định nghĩa các vùng cần ký tự cần bóc tách theo ý muốn, sau đó lưu lại thành mẫu. Khi đưa tài liệu lên hệ thống người dùng chọn mẫu tài liệu tương ứng. Sau đó hệ thống sẽ tự động nhận dạng và trích xuất thông tin tại các vùng được đánh dấu trong mẫu.
Nhận dạng và bóc tách thông tin theo form mẫu


Bài viết liên quan

Nhận xét Bình luận



0 nhận xét "Đột phá trong công nghệ nhận dạng ký tự tiếng Việt với độ chính xác 99%"

Back To Top