Phân loại loài trực tuyến trong thế kỷ 21

Đăng ngày

Lý thuyết tiến hóa bằng chọn lọc tự nhiên của Charles Darwin được phát triển phần lớn thông qua quan sát và thu thập mẫu thực vật, động vật, hóa thạch từ quần đảo Galapagos và một số điểm dừng chân khác trong suốt Hành trình trên con tàu Beagle của ông. Tuy nhiên, là một nhà tự nhiên học nghiệp dư, Darwin không thể phân loại hết các mẫu tiêu bản thu được mà phải tìm kiếm sự giúp đỡ từ các chuyên gia phân loại học tại Anh. Trong đó, tiêu biểu nhất là một số loài chim nhỏ mà Darwin phân loại nhầm là các loài chim thuộc họ sẻ, như sáo đồng hay chim chích. Nhà điểu học John Gould đã phân loại những chú chim này thành 13 loài riêng biệt, sau hơn 1 năm khi Darwin quay lại Anh. Kinh nghiệm này ảnh hưởng khá lớn kết luận của Darwin về chọn lọc tự nhiên.

Đối với các nhà tự nhiên học nghiệp dư hiện nay, nền tảng ứng dụng trực tuyến iNaturalist đã giảm đáng kể công sức và thời gian cần thiết cho việc thu thập và phân loại chính xác. Thay vì chụp ảnh, bảo quản mẫu vật và gửi đến cho các chuyên gia, người dùng iNaturalist chỉ cần chụp ảnh và đưa lên web. Công nghệ Thị giác máy tính (Computer vision) sẽ giải quyết các yêu cầu về phân loại chỉ trong một vài giây.

Ứng dụng iNaturalist ra mắt vào năm 2008 từ một dự án thạc sĩ của các sinh viên trường Đại học California, sau đó phát triển thành một cộng đồng với gần 500.000 người dùng, thu thập được hơn 6,5 triệu bức ảnh của hơn 120.000 mẫu thực vật, động vật, côn trùng và nấm.

Cho tới gần đây, ảnh tải lên iNaturalist vẫn được phân loại thông qua sử dụng Tài nguyên đám đông (Crowdsourcing). Người dùng có thể lựa chọn cung cấp một danh tính (ID, tên thông dụng hoặc tên khoa học) cho ảnh họ chụp, sau đó các thành viên khác trong cộng đồng người dùng sẽ xác nhận, cải thiện hoặc đặt thêm câu hỏi. Bằng cách đó, iNaturalist cung cấp một nền tảng cộng tác và thảo luận cho những người có chung sở thích và muốn hiểu biết thêm về môi trường xung quanh.

iNaturalist đồng thời cũng kết nối người dùng với các chuyên gia phân loại học trong những lĩnh vực cụ thể. Chẳng hạn, chuyên gia điểu học Greg Lasley đã giúp phân loại hơn 100.000 ảnh tải lên bởi người dùng. Thế nhưng, số lượng ảnh nhanh chóng vượt quá số người tham gia phân loại. Trung bình mất 18 ngày để cộng đồng phân loại mẫu, mặc dù thời gian chờ chỉ chưa tới 2 ngày đối với một nửa số mẫu.

Một con cú tai ngắn đang bay ở Virginia, Hoa Kỳ (Ảnh: George Powell/Mongabay)

Công nghệ “đào tạo” máy tính trở thành nhà phân loại học

Để hạn chế số lượng sinh vật không thể phân loại, iNaturalist mới đây đã hợp tác với hệ thống Visipedia nhằm phát triển phần mềm trí tuệ nhân tạo cung cấp kết quả phân loại ngay lập tức một cách tự động thông qua “đào tạo” một mạng lưới “thị giác máy tính”.

“Thị giác máy tính” là công nghệ mà các trang mạng xã hội như Facebook áp dụng để nhận diện khuôn mặt hay một số dòng xe nhận diện người đi bộ trên đường. Tuy nhiên, xác định một đối tượng có hình dạng con người thì đơn giản hơn rất nhiều so với phân định các loài bướm khác nhau. Ông Alex Shepard, người phát triển ứng dụng iNaturalist phiên bản dành cho điện thoại, nhấn mạnh rằng cần có một cơ sở dữ liệu lớn với những hình ảnh chất lượng nhằm tối ưu hóa nhận dạng đặc điểm đặc trưng của các loài khác nhau.

Khi một loài được xác nhận bởi ít nhất 2 người dùng, loài đó sẽ được thêm vào mạng lưới Thị giác máy tính. Hiện tại, phần mềm này có khả năng phân loại hơn 10.000 loài, và cứ mỗi 1,7 giờ lại bổ sung thêm một loài mới được công nhận. Phần mềm đưa ra sự phân loại ở nhiều mức có độ xác thực khác nhau từ loài đến chi, hoặc kết luận “không đủ bằng chứng để đưa ra kết quả.” Khi phần mềm không thể phân biệt tên loài cụ thể, người dùng có thể tham khảo kiến thức chung của cộng đồng người dùng iNaturalist.

Các dự án khác do người dùng thiết kế

Ứng dụng iNaturalist cung cấp một nền tảng cho các dự án do người dùng tạo ra, đối với các trang web với mục đích “thu thập các hình ảnh vì mục đích chung.” Một trong những dạng dự án phổ biến là bioblitz – một sự kiện tập hợp các nhà khoa học đại chúng nhằm tổng hợp tối đa các phân loại trong một khu vực nhất định. Liên Hợp Quốc gần đây đã tài trợ một chương trình bioblitz toàn cầu vào Ngày môi trường thế giới. Trong vòng hơn 13 ngày, gần 10.000 người dùng iNaturalist từ khắp nơi trên thế giới đã chụp hơn 100.000 ảnh của 19.627 loài. Một số dự án phổ biến khác giúp giám sát tai nạn giao thông hay theo dõi sự xuất hiện của các loài xâm lấn. Bất kì người dùng iNaturalist nào cũng đều có thể tự tạo một “dự án” riêng với hướng dẫn cụ thể, chẳng hạn như giới hạn ảnh chụp ở một địa điểm hay các bậc phân loại.

Người dùng còn có khả năng tạo các “Hướng dẫn” bằng tài liệu và cung cấp thêm thông tin về các phân loại đã có ở một khu vực cụ thể. Phạm vi các “Hướng dẫn” có thể bao quát cả lục địa hay đơn giản là cung cấp các thông tin chi tiết về các loài sinh vật đang sống trong một công viên.

Đóng góp trong đánh giá đa dạng sinh học toàn cầu

TS. Loarie cho biết, tầm nhìn ban đầu của iNaturalist là cung cấp một nền tảng “nhằm kết nối mọi người đến với thiên nhiên thông qua công nghệ.” Tuy nhiên, iNaturalist ngày càng phát triển, trở thành công cụ quan trọng phục vụ cho việc mở rộng quy mô nghiên cứu khoa học. “Đối với iNaturalist, chúng tôi đồng thời kêu gọi sự tham gia và giáo dục công chúng, đồng thời tạo ra các định hướng nhằm cải thiện chất lượng nghiên cứu khoa học và công tác bảo tồn,” ông chia sẻ.

iNaturalist đã chứng minh là một công cụ hiệu quả để bổ sung dữ liệu đa dạng sinh học trên Trái đất. Theo báo cáo năm 2016, hơn 90% các ghi nhận tại Bắc Mỹ (không bao gồm các loài chim) được đăng tải lên Cơ sở thông tin đa dạng sinh học toàn cầu (GBIF) có nguồn gốc từ ứng dụng iNaturalist. Nhiều loài đã được khám phá hoặc tái phát hiện cũng từ ứng dụng này. Chẳng hạn, một loài sên chưa từng được nhìn thấy từ những năm 1700 đã được tái phát hiện vào năm 2014, khi một người dùng iNaturalist đăng tải một tấm ảnh của loài này.

Phiên bản mới nhất của ứng dụng cho phép người dùng bổ sung chú thích về vòng đời, sự tác động của các yếu tố thời tiết, khí hậu, môi trường đến các loài thực vật và giới tính đối với các ảnh chụp được. Đối với nhiều loài, những thông tin sẽ cho ra biểu đồ mùa, qua đó thấy được thời gian, địa điểm mà con đực hay con cái, đang sinh trưởng trong giai đoạn nào xuất hiện.

Nhìn chung, dữ liệu đa dạng sinh học có sự khác biệt về mặt địa lý và bậc phân loại. Phần lớn các hình ảnh thu được đều ở Bắc Mỹ và Châu Âu, đồng thời có nhiều loài rất dễ quan sát và phát hiện hơn ở những nơi dễ tiếp cận hơn. Dữ liệu tạo ra từ cộng đồng người dùng iNaturalist cũng không ngoại lệ và “sự thiên vị” này cũng tồn tại trong công nghệ Thị giác máy tính. Theo ông Shepard, một trong những giới hạn của phương pháp tiếp cận này là phần mềm không thể ghi nhận các loài mà cộng đồng không chụp và phân loại được. Nếu muốn phần mềm phân loại qua hình ảnh trở thành một công cụ giám sát đa dạng sinh học toàn cầu, cần nhiều hơn nữa các hình ảnh và sự phân loại của nhiều loài hơn từ khắp nơi trên thế giới.

“Những con chim sẻ của Darwin” vốn rất khó có thể phân loại. Sự khác nhau duy nhất giữa các loài là kích thước và hình dạng mỏ. Ngoài ra, các loài chim còn tiến hóa nhanh chóng để có thể thích nghi với những thay đổi của môi trường. Tuy nhiên, đối với một du khách khi đến Quần đảo Galapagos với một chiếc smartphone hay máy ảnh có sẵn, ứng dụng iNaturalist có thể hỗ trợ nhận diện 20 loài chim sẻ mặt đất mọi kích cỡ thông qua mạng lưới Thị giác máy tính. Đối với 10 loài chim sẻ khác, có vẻ như cộng đồng iNaturalist sẽ cần cung cấp thêm mô tả.

Công Anh/ Theo Mongabay