Retrieval là gì

  -  

Từ xa xưa, loài người cổ đại đã phải trang bị rất nhiều kĩ năng để phục vụ cho việc sinh tồn: Săn bắn, hái lượm, leo trèo,... Mà trong đó, tìm kiếm là một trong những kĩ năng sống còn của con người. Theo dòng thời gian, với sự xuất hiện của chữ viết và sách, việc lưu trữ và tìm kiếm lại trở thành một nhu cầu thiết yếu.Bạn đang xem: Retrieval là gì

Vào những năm 90, một nghiên cứu chỉ ra rằng phần lớn mọi người sẽ thích tra cứu thông tin từ người khác hơn là sử dụng các hệ thống tìm kiếm CNTT. Tất nhiên, trong thời gian đó, để đặt vé máy bay, người ta vẫn phải tìm gặp các công ty dịch vụ. Mặc dù vậy, khi bước sang thế kỉ 21, với những cải tiến đột phá từ các hệ thống tìm kiếm để cải thiện kết quả tìm kiếm và trải nghiệm người dùng, Web Search đã trở thành một tiêu chuẩn và là một nguồn đáng tin cậy cho việc tìm kiếm thông tin.

Bạn đang xem: Retrieval là gì


*

Information Retrieval là gì?

Thuật ngữ Information Retrieval có thể mang nghĩa rất rộng. Khi di mua hàng, bạn lấy thẻ tín dụng từ trong ví ra để có thể nhập mã thẻ thanh toán, đó cũng là một dạng của Information Retrieval. Tuy nhiên, ở khía cạnh học thuật, Information Retrieval được định nghĩa là:

Information Retrieval là hoạt động tìm kiếm tài liệu có bản chất phi cấu trúc (unstructured) như văn bản, hình ảnh, video,.. sao cho phù hợp (relevant) với một nhu cầu thông tin (information need) nào đó, từ một tập hợp dữ liệu lớn (large collections).

Trong một bài toán IR điển hình, đầu vào là:

Một bộ ngữ liệu (corpus) các tài liệu văn bảnMột câu truy vấn (query) của người dùng dưới dạng văn bản

Đầu ra:

Một tập xếp hạng (ranked list) các văn bản mà được cho là phù hợp (relevant) với câu truy vấn (query).

Thế nào là phù hợp (relevant)?

Tính phù hợp là một đánh giá mang tính chủ quan (subjective) và (có thể) bao gồm:

Đúng chủ đề (proper subject)Đúng thời điểm (timely, recent information)Đáng tin cậy (authoritative)Thỏa mãn mục tiêu và ý định của người dùng về nhu cầu thông tin (information need)
*

Động lực của IR

Quả tải thông tin

Với sự phát triển vũ bão của dữ liệu, Information Retrieval được sinh ra để giải quyết vấn đề quá tải thông tin (information overload).

Theo wikipedia , quá tải thông tin là sự khó khăn trong việc tiếp thu và đưa ra quyết định hiệu quả với một vấn đề khi tồn tại quá nhiều thông tin về vấn đề đó.\


*

*

*

Mô hình IR tiêu biểu

Trong một hệ thống IR điển hình:

Biểu diễn bộ tài liệu mà ta cần tìm kiếm trên đó (offline)Biểu diễn câu query từ người dùng (online)So khớp sự tương đồng giữa câu query của người và các bộ tài liệu và đưa ra một bảng xếp hạng các kết quả được cho là relevantKết quả này sẽ được đánh giá bằng một phương pháp cụ thểTừ kết quả đánh giá này ta có thể tìm ra hướng cải thiện hệ thống tìm kiếm.Ứng dụng của IR

Tìm kiếm trên web (Web Search) là một trong những ứng dụng quan trọng của Information Retrieval. Tuy nhiên IR không chỉ có web search.

Xem thêm: Tải Game Bắn Súng Offline Cho Pc Huyền Thoại Hay Nhất Hiện Nay

Hệ thống hỏi đáp tự động


Google Assistant - Trợ lý ảo của GoogleHệ thống hỏi đáp tự động (question answering) là một hế thông tự động trả lời một câu hỏi của người dùng dưới dạng văn bản.

Hệ khuyến nghị


Hệ khuyến nghị hỗ trợ mua sách của Tiki

Hệ khuyến nghị (recommender system) sẽ gợi ý người dùng những sản phẩm mà họ có thể sẽ thích.

Khai thác dữ liệu văn bản


Minh họa khai thác dữ liệu văn bản Mục tiêu của khai thác dữ liệu văn bản (Text mining) là rút trích được những thông tin, mẫu xu hướng hữu ích từ trong văn bản.

Quảng cáo trực tuyến


Minh họa quảng cáo trực tuyến Nhờ vào hành vi của người dùng trên internet, các nhà bán quảng cáo sẽ đưa ra những quảng cáo phù hợp, cá nhân hóa (personalized) với từng người.Các "gap" trong IR

IR vẫn tốn tại rất nhiều các rào cản/thách thức lớn:

Sensory Gap: Khoảng cách giữa thông tin vật thể thực tế và thể hiện của chúng trên máy tính, vấn đề này có thể liên quan tới thiếu bị thu nhận (camera, lidar, máy ghi âm,..).Semantic Gap: là khoảng cách giữa thông tin của con người hiểu/tiếp thu với những biểu diễn cấp thấp (low-level representation) của dữ liệu được lưu trên máy tính.Ví dụ: Một bức ảnh hoàng hôn trên biển có thể hiểu theo nhiều cáchMột bức ảnh hoàng hôn lãng mạnMột buổi chiều buồn hiu hắtBầu trời rực lửa khi chiều tàn

Các lĩnh vực liên quan tới IR So sánh IR với Database

Ta có thể kể tên những nét tương đồng giữa IR và Database, tuy nhiên chúng có nhiều khác biệt đáng lưu ý.

Xem thêm: Nhà Cái Số Đỏ - Bangbang Mobile

Information RetrievalDatabase systems
- Dữ liệu phi cấu trúc - Ngữ nghĩa (semantics) của các đối tượng mang tính chủ quan (subjective)- Câu query đơn giản- Quan tâm tới tính phù hợp (relevance) đối người tham gia truy vấn- Tính hiệu quả (effectiveness) là yếu tố cốt lõi, tuy nhiên tốc độ cũng rất quan trọng.- Dữ liệu có cấu trúc- Ngữ nghĩa (semantics) được định nghĩa rõ ràng (well-defined)- Sử dụng ngôn ngữ truy vấn có cấu trúc (Ví dụ: SQL,..)- Tìm kiếm chính xác- Quan trọng về tốc độ truy vấn

Tham khảo

Christopher D Manning, Prabhakar Raghavan, Hinrich Schutze - Introduction to Information Retrieval (book)