Friday, September 23, 2016

Google mở mã nguồn thuật toán nhận diện vật thể trong ảnh với độ chính xác 93,9%

Bạn có tin trong tương lai chỉ cần bạn chụp một bức ảnh up lên mạng xã hội, thuật toán sẽ tự động hiểu được nội dung bức ảnh là gì và caption nội dung tương ứng vào thay vì chúng ta phải gõ thủ công như bây giờ. Điều đó có thể trở thành hiện thực nhờ vào thuật toán nhận diện vật thể trong ảnh với độ chính xác lên tới 93,9% do Google phát hành mới đây. Độ chính xác này đã tăng lên từ con số 89,6% cách đây 2 năm và nó sẽ có nhiều ứng dụng khác nhau, thí dụ như hỗ trợ người khiếm thị, phục vụ nghiên cứu sử học,...

Với tên gọi "Show and Tell", thuật toán nói trên đã được Google mở mã nguồn cho các lập trình viên. Họ cho biết nó được phát triển dựa trên mô hình "Inception" thế hệ thứ 3 với khả năng nhận diện vật thể trong một bức ảnh được cải thiện đáng kể so với các phiên bản trước. Đồng thời, thuật toán cũng được tối ưu hóa để độ chính xác ở mức cao nhất. Họ giải thích rằng "nếu như một mô hình lọc hình ảnh có thể cho bạn biết đó là một con chó, cỏ cây hoặc một cái đĩa nhựa trong bức ảnh, nhưng một dòng chú thích bằng ngôn ngữ tự nhiên còn phải nói với bạn thông tin màu của của và cách con chó đang ngậm cái đĩa."

thuat_toan_nhan_dien_hinh_Google_Tinhte_1.jpg
Sau khi được "huấn luyện" bằng cách "cho xem" các chú thích hình ảnh bởi con người, hệ thống của AI đã có thể được dùng để mô tả về những hình ảnh mà nó chưa bao giờ nhìn thấy trước đó. Nhóm nghiên cứu chia sẻ: "Thú vị hơn, mô hình của chúng tôi thật sự có khả năng tạo ra những chú thích mới ngay cả đối với những bức ảnh có bối cảnh phức tạp, cho thấy nó có thể hiểu được một cách sâu sắc về các đối tượng và bối cảnh trong hình ảnh." Bên trên là những bức ảnh và chú thích do AI của Google tạo ra, chúng ta có thể thấy rằng nó có thể nhận biết được sự khác nhau dù khá nhỏ giữa các bức ảnh để đưa ra chú thích phù hợp.

Được biết Google đã phát hành mã nguồn của hệ thống nhận diện hình ảnh nói trên thông qua hệ thống TensorFlow của họ. Để sử dụng, người dùng cần phải tự "dạy" AI - một quá trình mà theo Google thì có thể mất tới vài tuần với sự hỗ trợ của GPU NVIDIA Tesla. Hy vọng rằng có anh lập trình viên nào đó nhanh chóng phát triển công cụ dựa trên hệ thống nói trên để khi up ảnh lên Instagram hoăc Facebook, chúng ta không cần phải mất công gõ nữa. Nghiêm túc hơn, những người khiếm thị có thể sẽ có được công cụ chính xác để thay họ "nhìn" vào các bức ảnh, kể cho họ nghe nội dung hay thậm chí là giúp họ đi lại một cách an toàn hơn.


EmoticonEmoticon