Mới đây, quyết định thanh tra các hoạt động của TikTok tại Việt Nam đã thu hút chú ý vào thuật toán phân phối nội dung và cơ chế kiểm duyệt nội dung của các mạng xã hội. Phân tích chi tiết từ Tiến sĩ Sam Goundar, Giảng viên cấp cao ngành CNTT tại Đại học RMIT.
TikTok có mặt ở Việt Nam từ năm 2019 và đã chứng kiến sự bùng nổ về số lượng người dùng từ đó đến giờ. Tính đến tháng 4/2023, Việt Nam đứng thứ sáu trong số các quốc gia có lượng người xem TikTok lớn nhất thế giới, với hơn 50 triệu người dùng TikTok trên 18 tuổi theo dữ liệu được công bố trên Statista.
Tuy nhiên, nền tảng này cũng đã vấp phải chỉ trích vì khối lượng nội dung không phù hợp hoặc thậm chí gây hại. Tháng trước, Bộ Thông tin và Truyền thông đã chỉ ra sáu vi phạm lớn của TikTok tại Việt Nam. Và mới đây, cơ quan này thông báo sẽ thực hiện thanh tra toàn diện hoạt động của TikTok từ tháng 5/2023.
Vai trò quan trọng của thuật toán phân phối nội dung
Tại TikTok, thuật toán phân phối nội dung là độc quyền và không được công khai, nhằm ngăn chặn kẻ xấu thao túng hệ thống. Tuy nhiên, dựa trên thông tin được chia sẻ bởi TikTok và các chuyên gia trong ngành, có một số yếu tố chung được cho là ảnh hưởng đến thuật toán phân phối nội dung của TikTok.
Trong đó phải kể đến mức độ tương tác của người dùng (thích, chia sẻ, nhận xét và theo dõi), thông tin video (phụ đề, âm thanh và hashtag được sử dụng), cài đặt người dùng (tùy chọn ngôn ngữ và vị trí), tỉ lệ xem hết video và tính kịp thời (video có được đăng tải gần đây hay không).
Cần lưu ý rằng thuật toán phân phối nội dung của TikTok liên tục phát triển và thay đổi dựa trên hành vi và phản hồi của người dùng. Hầu hết các mạng xã hội khác sử dụng những thuật toán tương tự vì mục đích của họ là tiếp cận lượng người xem tối đa và gia tăng quảng cáo, bởi quảng cáo là cách kiếm tiền của các nền tảng này.
Đã có một số ý kiến chỉ trích thuật toán phân phối nội dung của TikTok, chủ yếu liên quan đến các vấn đề về tính minh bạch và công bằng. Một số vấn đề thường được nêu ra là: thiếu minh bạch (thuật toán độc quyền và không được công khai), nội dung chưa được phân phối công bằng và hàm chứa thiên kiến, thiên vị trong thuật toán (các nghiên cứu cho thấy có thiên kiến chống lại một số nhóm nhất định, chẳng hạn như người da màu và người khuyết tật) và “bong bóng lọc” – filter bubble (người dùng chỉ tiếp xúc với nội dung phù hợp với sở thích và tín ngưỡng của họ, dẫn đến sự thiếu đa dạng về quan điểm và ý kiến).
Có trường hợp thuật toán của TikTok thậm chí đã quảng bá nội dung độc hại hoặc không phù hợp, chẳng hạn như video cổ xúy cho chứng rối loạn ăn uống hoặc tự ngược đãi bản thân. Điều này đã làm dấy lên mối lo ngại về tính hiệu quả của thuật toán trong việc xác định và xóa nội dung có hại khỏi nền tảng. TikTok đã có động thái giải quyết những vấn đề này, nhưng vẫn còn nhiều việc phải làm để đảm bảo rằng thuật toán công bằng và hiệu quả trong việc thúc đẩy môi trường an toàn và thân thiện.
Cũng cần lưu ý rằng TikTok được tải xuống và cài đặt dưới dạng ứng dụng trên điện thoại thông minh và chạy dưới dạng ứng dụng. Như vậy nội dung được truy cập trực tiếp từ máy chủ của TikTok bằng thiết bị của người dùng. Điều này đồng nghĩa với việc các cơ quan quản lý khó có thể theo dõi, lọc và kiểm duyệt nội dung do giao thức HTTPS (giao thức truyền tải siêu văn bản bảo mật) và thuật toán SHA-256 (thuật toán băm bảo mật 256 bit) được áp dụng.
Tăng cường ứng dụng công nghệ để kiểm duyệt nội dung
Hiện tại, không chỉ TikTok mà YouTube, Facebook, Instagram và các nền tảng mạng xã hội tương tự khác đều đang phải đối mặt với những vấn đề chung đến từ nội dung đa phương tiện, đặc biệt là video. Đó là lý do tại sao tất cả các nền tảng mạng xã hội này phải tuyển dụng hàng trăm nhân viên chỉ để xem và kiểm duyệt video. Tuy nhiên, tốc độ kiểm duyệt của con người không tài nào bắt kịp được tốc độ sản xuất ra những video này. Theo số liệu từ Statista tháng 2/2022, mỗi phút trôi đi sẽ có 30.000 giờ video được tải lên YouTube, 167 triệu video được xem trên TikTok và 44 triệu lượt livestream trên Facebook. Chi phí sẽ quá cao nếu phải tuyển dụng hàng ngàn, thậm chí hàng triệu con người để kiểm duyệt nội dung.
Công nghệ đang cải thiện theo cấp số nhân và chúng ta đang ngày càng có thêm phương án khắc phục những hạn chế này. Các thuật toán học máy, trí tuệ nhân tạo (xử lý ngôn ngữ tự nhiên – NLP), mạng nơ-ron sâu (deep neural networks) và khoa học dữ liệu có thể được đào tạo để phát hiện nguyên tắc và chủ đề liên quan đến nội dung có hại, chẳng hạn như hình ảnh bạo lực, phát ngôn thù hận hoặc tự ngược đãi bản thân. Các thuật toán này có thể phân tích video để tìm kiếm các dấu hiệu hình ảnh, âm thanh, từ khóa có thể cho biết nội dung gây hại.
Ví dụ: con người có thể phân tích các video và trích xuất những đặc điểm mà chúng ta cho rằng thể hiện nội dung có hại như đã mô tả ở trên. Sau đó, chúng ta đào tạo mô hình học máy để nhận ra các đặc điểm này và biết cách phân loại video trong tương lai dựa trên những đặc điểm đó. Cứ phát hiện ra đặc điểm mới thì chúng ta lại tiếp tục bổ sung và đào tạo cho mô hình. Tương tự, công nghệ xử lý ngôn ngữ tự nhiên có thể được sử dụng để phân loại video dựa trên sự hiện diện của phát ngôn thù hận hay những âm thanh có hại. Ngoài ra, chúng ta có thể sử dụng mô hình thị giác máy tính để phát hiện hình ảnh thể hiện hành vi bạo lực, tự ngược đãi bản thân hay các video có hại khác.
Tuy nhiên, chỉ riêng công nghệ thôi thì chưa đủ. Cần kết hợp với đánh giá thủ công bởi các chuyên viên kiểm duyệt; tham vấn chuyên gia về sức khỏe tâm lý, an toàn cho trẻ em và quyền con người; cũng như sử dụng báo cáo người dùng và hệ thống xếp hạng nội dung. Chỉ như vậy chúng ta mới có thể đảm bảo rằng các mạng xã hội và nội dung được đăng tải trên đó sẽ trở nên tốt đẹp hơn và an toàn hơn.
Bài: Tiến sĩ Sam Goundar, Giảng viên cấp cao ngành CNTT, Khoa Khoa học, Kỹ thuật và Công nghệ, Đại học RMIT Việt Nam
RMIT