Sign language and\r\nlip-reading real-time conversation using low bit-rate video communication
\r\n\r\nLời nói đầu
\r\n\r\nTCVN 9804 : 2013 được xây dựng trên cơ sở\r\ntham khảo Khuyến nghị họ H – Phần phụ 1 của Liên minh Viễn thông quốc tế ITU-T.
\r\n\r\nTCVN 9804 : 2013 do Viện Khoa học Kỹ thuật\r\nBưu điện xây dựng, Bộ Thông tin và Truyền thông đề nghị, Tổng cục Tiêu chuẩn Đo\r\nlường Chất lượng thẩm định, Bộ Khoa học và Công nghệ công bố.
\r\n\r\n\r\n\r\n
CHẤT LƯỢNG DỊCH VỤ\r\nVIDEO THOẠI TỐC ĐỘ THẤP SỬ DỤNG CHO TRAO ĐỔI NGÔN NGỮ KÝ HIỆU VÀ ĐỌC MÔI THỜI\r\nGIAN THỰC
\r\n\r\nSign language and\r\nlip-reading real-time conversation using low bit-rate video communication
\r\n\r\n\r\n\r\nTiêu chuẩn này áp dụng cho trao đổi ngôn ngữ\r\nký hiệu và đọc môi, bao gồm các đặc tính cần thiết của một hệ thống truyền\r\nthông video cho hội thoại giữa người và người sử dụng ngôn ngữ ký hiệu và đọc\r\nmôi có hoặc không có thoại âm thanh.
\r\n\r\nTiêu chuẩn này quy định yêu cầu hiệu năng cần\r\nđược đáp ứng để đảm bảo cho cuộc hội thoại thành công.
\r\n\r\nTiêu chuẩn này mô tả cách đánh giá hiệu năng\r\nchất lượng dịch vụ video thoại tốc độ thấp sử dụng ngôn ngữ ký hiệu và đọc môi.
\r\n\r\n\r\n\r\nTài liệu viện dẫn sau rất cần thiết cho việc\r\náp dụng tiêu chuẩn này. Đối với các tài liệu viện dẫn ghi năm công bố thì áp\r\ndụng phiên bản được nêu. Đối với các tài liệu viện dẫn không ghi năm công bố\r\nthì áp dụng phiên bản mới nhất, bao gồm cả sửa đổi, bổ sung (nếu có).
\r\n\r\nITU-T Recommendation G.114 (1996), One-way\r\ntransmission time. (Thời gian truyền dẫn một chiều);
\r\n\r\nITU-T P.931 (12/98) Multimedia communications\r\ndelay, synchronization and frame rate measurement (Đo tốc độ khung, đồng bộ\r\nvà trễ truyền thông đa phương tiện);
\r\n\r\n\r\n\r\n3.1. Khung (frame)
\r\n\r\nMột hình ảnh hoàn chỉnh trong sản xuất video\r\nđược gọi là một “khung”. Trong một số hệ thống, các khung hình được xây dựng\r\nbởi hai nửa hình ảnh, mỗi nửa có chứa các thông tin trong khung. Những nửa hình\r\nảnh đó được gọi là “vùng”.
\r\n\r\n3.2. Độ phân giải (resolution)
\r\n\r\nĐộ phân giải là độ sắc nét của hình ảnh thể\r\nhiện qua số dòng và số cột của màn ảnh hay số phần tử hình ảnh trên một đơn vị\r\ndiện tích.
\r\n\r\n3.3. Độ tương phản (contrast)
\r\n\r\nĐộ tương phản là sự khác nhau về màu sắc giữa\r\nhình ảnh và nền ảnh.
\r\n\r\n3.4. Ngôn ngữ ký hiệu (sign language)
\r\n\r\nNgôn ngữ ký hiệu được biểu hiện qua các cử\r\nđộng, vị trí của tay, mắt, miệng, mặt và cơ thể.
\r\n\r\n3.5. Đọc môi (lip-reading)
\r\n\r\nNgôn ngữ đọc môi được thể hiện qua cử động\r\ncủa khuôn mặt. Thông thường đọc môi được hỗ trợ bởi tiếng nói. Trong các trường\r\nhợp khác nó được sử dụng cùng với ngôn ngữ ký hiệu. Có một số người khiếm thính\r\nkhông sử dụng ký hiệu mà chỉ sử dụng ngôn ngữ đọc môi.
\r\n\r\n3.6. Khung lặp (repeated frame)
\r\n\r\nKhung lặp là một khung hình đầu ra không được\r\nphân biệt với các khung trước nó trong chuỗi (khi các khung chuỗi đầu vào tương\r\nứng có sự khác biệt rõ ràng).
\r\n\r\n3.7. Khung tích cực (active frame)
\r\n\r\nKhung tích cực (khung không lặp) là một khung\r\nhình đầu ra được phân biệt với các khung trước nó trong chuỗi (khi các khung\r\nchuỗi đầu vào tương ứng có sự khác biệt rõ ràng).
\r\n\r\n\r\n\r\n\r\n CIF \r\n | \r\n \r\n Kích cỡ khổ trung gian gồm 288 dòng x 352\r\n điểm \r\n | \r\n \r\n Common Intermediate Format \r\n | \r\n
\r\n QCIF \r\n | \r\n \r\n Kích cỡ một phần khổ trung gian gồm 144\r\n dòng x 176 điểm \r\n | \r\n \r\n Quarter Common Intermediate Format \r\n | \r\n
\r\n SQCIF \r\n | \r\n \r\n Kích cỡ một phần khổ trung gian gồm 96 dòng\r\n x 128 điểm \r\n | \r\n \r\n Sub Quarter Common Intermediate Format \r\n | \r\n
\r\n fps \r\n | \r\n \r\n Số khung trên một giây; số ảnh ảnh trên một\r\n giây \r\n | \r\n \r\n Frame per second \r\n | \r\n
5.1. Các yêu cầu độ phân giải thời gian
\r\n\r\nCả ngôn ngữ ký hiệu và đọc môi đều yêu cầu mô\r\nphỏng trực quan tốt các cử động. Một hệ thống mô phỏng chuyển động với các bức\r\ntranh phân bố đều, cần tuân theo những đặc tính sau đây:
\r\n\r\n- Tốc độ 20 khung hình trên giây (fps) phù\r\nhợp với ngôn ngữ ký hiệu và đọc môi;
\r\n\r\n- Với một số trường hợp, có thể sử dụng tốc\r\nđộ khung từ 12 fps và cao hơn;
\r\n\r\n- Đối với đọc môi, khi sử dụng nhận thấy độ\r\ndốc tăng khi tốc độ khung tăng tới 15 fps. Lớn hơn 15 fps nếu vẫn cứ tiếp tục\r\ntăng thì hình ảnh hiển thị sẽ khó đọc được;
\r\n\r\n- Khả năng sử dụng rất bị hạn chế khi tốc độ\r\nkhung hình nằm trong khoảng 8 – 12 fps, với suy giảm lớn về khả năng tiếp nhận\r\nhoặc tốc độ;
\r\n\r\n- Tốc độ khung dưới 8 fps không được sử dụng\r\ncho ngôn ngữ ký hiệu hoặc đọc môi.
\r\n\r\n5.1.1. Đánh vần bằng tay
\r\n\r\nCác yêu cầu về độ phân giải thời gian của\r\nngôn ngữ ký hiệu được hình thành trong trường hợp đánh vần bằng tay. Đánh vần\r\nbằng tay là một kỹ thuật trong đó mỗi chữ cái tương ứng với một cử chỉ bằng tay\r\nduy nhất. Cách đánh vần bằng tay ở các nước khác nhau là khác nhau. Đánh vần\r\nđược thực hiện bằng cách biểu diễn các cử chỉ bằng chuỗi các hành động (bằng\r\ntay) nhanh để hình thành các từ. Các từ được đánh vần thường là tên hoặc các\r\ndanh từ riêng khác mà các ký hiệu chính của ngôn ngữ ký hiệu không có. Đánh vần\r\nbằng tay rất nhanh và thường sử dụng 10 chữ cái (hoặc dấu) trên giây. Với những\r\nchữ cái cần thể hiện chính xác, cần ít nhất 2 hình để biểu diễn một chữ cái.\r\nVới các từ khác, đánh vần bằng tay rõ nét yêu cầu ít nhất 20 khung trên giây.
\r\n\r\n5.1.2. Ký hiệu chung
\r\n\r\nĐánh vần bằng tay chỉ là một phần của ngôn\r\nngữ ký hiệu. Phần lớn ngôn ngữ ký hiệu được thực hiện bằng các ký hiệu cho các\r\nkhái niệm hoàn chỉnh, các câu không hoàn chỉnh, ngữ pháp và các danh từ thông\r\nthường. Có rất nhiều ngôn ngữ ký hiệu trên thế giới. Trong quá trình sử dụng ký\r\nhiệu nói chung, các cử động tay nhanh kết hợp với những cái chớp mắt ngắn mang\r\nthông tin về ngữ pháp. Trong nhiều trường hợp, các yêu cầu độ phân giải thời\r\ngian tương tự với những yêu cầu cho đánh vần bằng tay.
\r\n\r\n5.1.3. Đọc môi
\r\n\r\nYêu cầu cho đọc môi có thể được tính từ tốc\r\nđộ âm vị của thoại thông thường. Tốc độ thông thường là 10 âm vị trên giây. Yêu\r\ncầu tốc độ tối thiểu là 20 hình trên giây để cho phép người xem đọc được âm vị\r\nrõ ràng.
\r\n\r\n5.1.4. Khả năng thích ứng
\r\n\r\nTrong cả hai trường hợp đọc môi và ngôn ngữ\r\nký hiệu, tốc độ tạo ra ngôn ngữ có thể được giảm bớt theo ý muốn. Điều đó giải\r\nthích tại sao có thể sử dụng tốc độ 12-15 khung hình/giây vào những thời điểm\r\nnhất định. Người đọc môi có kinh nghiệm và người sử dụng ngôn ngữ ký hiệu cũng\r\ncó lợi thế là đoán từ dựa vào kinh nghiệm. Như vậy, một số người dùng có thể có\r\ncác cuộc hội thoại ngắn trên các kết nối chất lượng thấp hơn so với những yêu\r\ncầu chỉ ra ở trên.
\r\n\r\n5.1.5. Tính chất của phân giải thời gian
\r\n\r\nTrong hầu hết trường hợp, một máy quay được\r\nsử dụng cho truyền thông hình ảnh tuân theo các tiêu chuẩn hình ảnh nói chung,\r\nnghĩa là cung cấp tốc độ 25 hoặc 30 khung hình/giây. Trong cách sử dụng máy\r\nquay như vậy, không có nhiều điểm nổi bật khi xét đến tốc độ khung hình từ 12,5\r\nđến 25 khung hình/giây hoặc từ 15 đến 30 khung hình/giây. Với khoảng tốc độ\r\nkhung hình như vậy thì khoảng hình ảnh nguồn sẽ thay đổi tương ứng giữa 40 và\r\n80 ms hoặc giữa 33 và 66 ms, gây ra nguy cơ thiếu các chi tiết chuyển động nhất\r\nđịnh. Như vậy, để đáp ứng các yêu cầu cho 20 khung hình/giây với các máy quay\r\nthông thường, tốc độ khung hình mục tiêu nên là 25 hoặc 30 khung hình/giây.
\r\n\r\n5.2. Các yêu cầu độ phân giải không gian
\r\n\r\nĐối với phân giải không gian của các cuộc hội\r\nthoại ngôn ngữ ký hiệu giữa người và người cần lưu ý những đặc điểm sau đây:
\r\n\r\n- Có thể sử dụng phân giải QCIF nhưng các chi\r\ntiết nhỏ nhất biểu diễn hướng mắt nhìn bị mất. Điều này gây căng thẳng cho\r\nngười nhận;
\r\n\r\n- Phân giải CIF rất thích hợp. Việc tăng từ\r\nQCIF tới CIF cho nhận thức ngôn ngữ tốt hơn;
\r\n\r\n- Phân giải SQCIF không thích hợp cho nhận\r\nthức tin cậy, hiếm khi ký hiệu được cảm nhận chính xác;
\r\n\r\n- Nếu độ phân giải khác nhau được sử dụng cho\r\ncác phần khác nhau của hình ảnh, bàn tay và khuôn mặt sẽ yêu cầu độ phân giải\r\ncao nhất. Khi đó, cần lưu ý để không gây ra méo trong các phần khác của bức ảnh\r\nlàm cho người sử dụng phân tâm.
\r\n\r\nKhung hình hiển thị trong trao đổi ngôn ngữ\r\nký hiệu thường được để là 1 nửa người tính từ đầu đến bụng, ngón tay chiếm\r\nkhoảng 1/50 bề rộng của hình ảnh. Để phân tích hình ảnh các ngón tay chính xác,\r\nmột ngón tay được biểu diễn bởi ít nhất là 3 pixel. Điều đó đặt ra yêu cầu độ\r\nphân giải không gian tối thiểu là QCIF, có chứa 176 điểm ảnh rộng. Hướng mắt\r\nnhìn cũng rất quan trọng trong ngôn ngữ thị giác và đòi hỏi độ phân giải cao\r\nhơn. Vì vậy phân giải CIF là lựa chọn thích hợp.
\r\n\r\nĐối với đọc môi, phạm vi quan sát các cuộc\r\nhội thoại được giảm xuống thấp hơn đầu một chút. Trong trường hợp này, QCIF\r\nđược xem là có độ phân giải đầy đủ cho đọc môi. Khi sử dụng độ phân giải QCIF,\r\nngười sử dụng đầu cuối phải chắc chắn rằng màn hình hiển thị được xem ở khoảng\r\ncách thích hợp để độ phân giải tương đối thấp không gây thêm sự khó khăn cho\r\nnhận thức.
\r\n\r\n5.3. Độ chính xác
\r\n\r\nTrong truyền thông hình ảnh, bóng hình (độ\r\nmờ) xuất hiện khi có các chuyển động.
\r\n\r\nCác mô hình để mô tả bóng hình (độ mờ) cũng\r\nkhông phát triển rộng rãi. Có nhiều loại bóng hình khác nhau và gây ảnh hưởng\r\nkhác nhau đến nhận nhận thức.
\r\n\r\nHệ thống hình ảnh gia đình (VHS) có khả năng\r\nnhận thức tốt về ngôn ngữ ký hiệu và đọc môi. Trong ghi hình, các đối tượng di\r\nchuyển nhanh thường được hiển thị với độ mờ đáng kể bởi vì tốc độ màn trập\r\nthường là 1/50 đến 1/60 giây. Điều này cho thấy rằng độ mờ có thể chấp nhận\r\nđược đối với các đối tượng di chuyển nhanh liên quan đến các cử động phức tạp\r\ntrong ngôn ngữ ký hiệu.
\r\n\r\nTrong trường hợp cử động phức tạp, một số độ\r\nmờ đôi khi có thể xuất hiện. Độ phân giải không gian trong các cử động đó không\r\nđược thấp hơn SQCIF.
\r\n\r\nĐể nhận thức tốt, khi CIF là độ phân giải\r\nkhông gian cơ bản, độ mờ xuất hiện không nên vượt quá những gì được cảm nhận ở\r\nđộ phân giải QCIF.
\r\n\r\n5.4. Độ trễ
\r\n\r\nTrễ hình ảnh đầu cuối đến đầu cuối, từ máy\r\nquay gửi đi đến thiết bị hiển thị nhận, được chuẩn hóa trong ứng dụng thoại.\r\nCác giá trị thích hợp là nhỏ hơn 0,4 s và có thể giảm xuống 0,1 s.
\r\n\r\nCác giá trị lớn hơn 0,8 s sẽ làm cản trở chất\r\nlượng của cuộc nói chuyện bằng ký hiệu.
\r\n\r\nCác yêu cầu đối với ngôn ngữ ký hiệu và đọc\r\nmôi cũng tương tự với yêu cầu hội thoại. Thời gian từ khi phát âm cho đến khi\r\nđáp ứng mong đợi được nhìn thấy hoặc nghe thấy, có ít nhất hai lần bị trễ. Do\r\nđó, với giới hạn 0,4 s theo quy định của Khuyến nghị G.114 thì trễ một đáp ứng\r\nlà 0,8 s.
\r\n\r\n5.5. Tính đồng bộ
\r\n\r\nĐối với thoại được hỗ trợ bởi đọc môi, tính\r\nđồng bộ giữa âm thanh và hình ảnh rất cần thiết. Sự sai khác thời gian lên tới\r\n100 ms là có thể chấp nhận được.
\r\n\r\nĐối với những người sử dụng cả thoại và đọc\r\nmôi, sự kết hợp đó rất hiệu quả cho nhận thức.
\r\n\r\n5.6. Các yêu cầu hiệu năng
\r\n\r\nĐối với ứng dụng truyền tải ngôn ngữ ký hiệu\r\nvà đọc môi trong cuộc hội thoại giữa người – người, các vấn đề hiệu năng cơ bản\r\nsau đây cần được áp dụng:
\r\n\r\n- Sử dụng tốc độ 25-30 khung hình/giây tại độ\r\nphân giải không gian CIF và độ trễ tối đa 0,4 s, chấp nhận bóng hình ít hơn\r\ntương ứng với QCIF trong quá trình chuyển động trung bình;
\r\n\r\n- Chấp nhận tốc độ 12-15 khung hình/giây QCIF\r\nvới chuyển động trung bình và sự suy giảm không thường xuyên tương ứng với\r\nSQCIF trong quá trình chuyển động ngôn ngữ ký hiệu phức tạp (trong môi trường\r\ntỷ lệ bit thấp);
\r\n\r\n- Giữ tính đồng bộ âm thanh tốt hơn 100 ms;
\r\n\r\n- Trễ đầu cuối tới đầu cuối nên nhỏ hơn 0,4\r\ns. Trong trường hợp không thể tránh khỏi, chấp nhận lên tới 0,8 s.
\r\n\r\nHình 1 – Các yêu cầu\r\nđộ phân giải cho ngôn ngữ ký hiệu và đọc môi trong cuộc hội thoại người với\r\nngười.
\r\n\r\nBảng 1 – Tóm tắt sự\r\nsuy giảm tính khả dụng gây ra bởi trễ và bóng hình
\r\n\r\n\r\n Tính khả dụng \r\n | \r\n \r\n Trễ đầu cuối tới\r\n đầu cuối \r\n | \r\n \r\n Bóng hình đôi khi\r\n xuất hiện trong quá trình chuyển động lớn \r\n | \r\n |
\r\n Với phân giải CIF \r\n | \r\n \r\n Với phân giải QCIF \r\n | \r\n ||
\r\n Tốt \r\n | \r\n \r\n <0.4 s \r\n | \r\n \r\n Không \r\n | \r\n \r\n - \r\n | \r\n
\r\n Có thể sử dụng với một số hạn chế \r\n | \r\n \r\n 0.4 – 0.8 s \r\n | \r\n \r\n Giảm xuống @ QCIF \r\n | \r\n \r\n Không \r\n | \r\n
\r\n Tính khả dụng bị giới hạn \r\n | \r\n \r\n 0.8 – 1.2 s \r\n | \r\n \r\n Giảm xuống @ SQCIF \r\n | \r\n \r\n Giảm xuống @ SQCIF \r\n | \r\n
\r\n Không có tính khả dụng trong thực tế \r\n | \r\n \r\n >1.2 s \r\n | \r\n \r\n Giảm xuống <\r\n SQCIF \r\n | \r\n \r\n Giảm xuống <\r\n SQCIF \r\n | \r\n
6. Khuyến nghị cho\r\nthiết bị đầu cuối
\r\n\r\nĐể đáp ứng yêu cầu người sử dụng, các tính\r\nnăng sau phải được thực hiện tại đầu cuối:
\r\n\r\n- Thiết bị đầu cuối cần có một giao diện để\r\nkích hoạt hệ thống cảnh báo bên ngoài, ví dụ như đèn flash, bộ giao động nhỏ\r\n(bộ giao động bỏ túi), bộ giao động xem kích thước hoặc máy tạo âm thanh mạnh;
\r\n\r\n- Người dùng đôi khi cần phải trở lại cuộc\r\nhội thoại văn bản. Do đó, khuyến khích thực hiện các giao thức hội thoại văn\r\nbản T.140 ở đầu cuối;
\r\n\r\n- Ưu tiên các cuộc gọi tốc độ hơn 20 khung\r\nhình/giây và trễ dưới 0,4 s sử dụng thuật toán không bỏ qua khung nào. Tốc độ\r\nkhung hình cao tự động đưa ra cơ hội để đạt được trễ hợp lý;
\r\n\r\n- Độ lệch từ tất cả các yêu cầu chất lượng có\r\nthể được chấp nhận lên đến 2 s sau một dịch chuyển cảnh.
\r\n\r\n7. Khuyến nghị đối\r\nvới người sử dụng
\r\n\r\nNgười sử dụng nên chuẩn bị để sử dụng thiết bị\r\ntrong một môi trường có điều kiện ánh sáng tốt và một khung cảnh nền rõ nét.
\r\n\r\n\r\n\r\n\r\n\r\n
(Tham khảo)
\r\n\r\n\r\n\r\nA.1 Đo độ trễ
\r\n\r\nTrễ tổng được xác định đơn giản bằng cách đo\r\nthời gian giữa lần kích hoạt được tạo bởi bộ tách sóng đặt ở đầu vào hệ thống\r\nvà lần kích hoạt được tạo bởi bộ tách sóng tại đầu ra của bộ giải mã. Trễ tổng\r\ncó thể được đo cho cả hình ảnh và âm thanh tùy thuộc vào đặc tính của bộ tách\r\nsóng. Độ chính xác của phép đo này là ± 1 ms.
\r\n\r\nMột phương pháp khác sử dụng đường âm thanh\r\ncó sẵn như là một tín hiệu tham chiếu.
\r\n\r\nThủ tục này dựa trên việc sử dụng thiết bị\r\nhiện có và hoạt động với một chuỗi định thời kiểm tra âm thanh và hình ảnh đặc\r\nbiệt. Nó bao gồm một tông kiểm tra âm thanh và tín hiệu hình ảnh. Tông âm thanh\r\nbao gồm một sóng hình sin có tần số được chọn trong khoảng 1-10 kHz và các mức\r\nđược chọn từ -20 dBu đến +20 dBu. Tín hiệu hình ảnh bao gồm một quá trình\r\nchuyển đổi độ sáng đen sang trắng ở dòng 45 cho các khuôn dạng 525 dòng và dòng\r\n38 cho khuôn dạng 625 dòng.
\r\n\r\nHình A.1 – Sơ đồ bài\r\nđo trễ hình ảnh
\r\n\r\nThiết lập bài đo trễ hình ảnh tổng được mô tả\r\ntrên Hình A.1. Lưu ý rằng tín hiệu âm thanh được cấp trực tiếp cho bài đo như\r\nmột tham chiếu định thời.
\r\n\r\nA.2. Đo đồng bộ thời gian giữa hình ảnh và âm\r\nthanh
\r\n\r\nTrong Hình A.2, băng video dùng để tham chiếu\r\nthường ở dưới dạng tệp được ghi trong môi trường như đĩa quang-từ và bộ nhớ lớn\r\nsẽ được tái tạo bằng thiết bị biểu diễn âm thanh – hình ảnh.
\r\n\r\nNhững thay đổi tức thời ánh sáng đầu ra trung\r\nbình từ màn hình hiển thị màu sắc sẽ được cảm nhận bởi một bộ chuyển đổi quang\r\nđiện tử để thu được những thay đổi tức thời tương ứng như tín hiệu điện. Đây là\r\nsự mô phỏng con mắt của người xem. Mạch bộ theo dõi phát của các tranzito quang\r\nđiện được sử dụng cho mục đích này.
\r\n\r\nNhững thay đổi tức thời mức áp suất âm thanh\r\ntrung bình sẽ được cảm nhận bởi một bộ cảm biến mức áp suất âm thanh như một\r\nmicrophone đơn giản để thu được những thay đổi tức thời tương ứng như tín hiệu\r\nđiện. Đây là sự mô phỏng tai của người nghe.
\r\n\r\nCả tín hiệu âm thanh và hình ảnh được so sánh\r\ntrong miền thời gian và sự khác nhau giữa các tín hiệu được đo sử dụng máy dao\r\nđộng dưới dạng miligiây.
\r\n\r\nHình A.2 – Thiết lập\r\nbài đo chênh lệch thời gian giữa hình và tiếng
\r\n\r\n\r\n\r\n\r\n\r\n
(Tham khảo)
\r\n\r\nPHƯƠNG\r\nPHÁP ĐO CHẤT LƯỢNG VIDEO
\r\n\r\nMột codec hoặc một thiết bị đầu cuối, được\r\nkiểm tra bằng cách truyền những cảnh để đánh giá thông qua codec hoặc thông qua\r\nmột tập hợp các điện thoại thấy hình được kết nối mạng. Kết quả kiểm tra được\r\nghi nhận và đánh giá. Khuyến nghị P.931 quy định cụ thể một phương pháp đánh\r\ngiá.
\r\n\r\nB.1 Phương pháp đo lỗi bình phương trung bình
\r\n\r\nMục B.1 cung cấp các phương pháp đo cho một\r\nhệ thống sử dụng phương pháp lỗi bình phương trung bình. Triển khai phương pháp\r\nnày có thể cung cấp chuỗi khung hình video thích hợp tại đầu vào kênh. Phương\r\npháp này cũng đòi hỏi phải bắt giữ và nếu cần thiết số hóa thành phần độ sáng\r\ncủa chuỗi khung hình video tại các giao diện kênh.
\r\n\r\nB.1.1 Khái quát chung
\r\n\r\nPhát hiện các khung tích cực trong chuỗi các\r\nkhung video và tìm kiếm các khung ánh xạ thích hợp giữa các chuỗi đòi hỏi một\r\nphương pháp so sánh chuẩn. Phương pháp này so sánh các khung video trên cơ sở\r\npixel-by-pixel và tóm lược sự khác biệt giữa một cặp khung như lỗi bình phương\r\ntrung bình trên tất cả các điểm ảnh được quan tâm. Vì vậy, đối với một cặp\r\nkhung (một từ chuỗi đầu vào và một từ chuỗi đầu ra) Lỗi bình phương trung bình\r\n(MSE) được tính theo công thức:
\r\n\r\ntrong đó V’(i,j,m) là giá trị điểm ảnh i,j\r\ntrong khung đầu ra tại thời điểm T’(m) và V(i,j,n) là giá trị điểm ảnh i,j\r\ntrong khung đầu vào tại thời điểm T(n). Ks là tổng số điểm ảnh quan\r\ntâm trong phân khung chữ nhật, được cho bởi công thức:
\r\n\r\nKs=(Imax\r\n– Imin + 1) x (Jmax – Jmin + 1)
\r\n\r\nLưu ý V’(i,j,m) được điều chỉnh với bất kỳ độ\r\nlợi, độ lệch mức, dịch chuyển ngang, dịch chuyển dọc và lấy tỉ lệ không gian\r\n(nếu cần) giữa đầu vào và đầu ra (với các hệ số điều chỉnh tương ứng g, l, h, v\r\nvà z):
\r\n\r\ntrong đó V*(i,j,m) là điểm ảnh đầu ra trước\r\nkhi áp dụng các hệ số điều chỉnh. Nếu video đầu ra được định cỡ lại phù hợp với\r\nđầu vào, thì:
\r\n\r\ntrong đó V**(m) = f(V*(m),z)
\r\n\r\nvà f(V*(m), z) biểu diễn hàm định cỡ lại
\r\n\r\nĐể so sánh giữa các khung gần kề trong một\r\nchuỗi (ví dụ như tìm các khung tích cực tại giao diện đầu ra), V(i,j,n) trở\r\nthành V’(i,j,m-1) trong phương trình MSE ở trên.
\r\n\r\nMSE là một hệ số quan trọng để tính tỉ số tín\r\nhiệu trên tạp âm đỉnh (PSNR):
\r\n\r\nHình B.1 – Sơ đồ\r\nthuật toán để đo chất lượng video dựa vào MSE
\r\n\r\nB.1.2 Xác định sự khác biệt tối thiểu có thể\r\nphân biệt giữa các khung hình
\r\n\r\nPhần này đặc tả các phương pháp xác định tạp\r\nâm (hoặc phương sai không mong muốn) trong các quá trình số hóa và lưu trữ để\r\nlựa chọn chuỗi khung video cho so sánh. Mức tạp âm này phụ thuộc vào quá trình\r\nlựa chọn cụ thể (ví dụ như khuôn dạng số hóa) và được biết trước để thực hiện\r\ncác phép đo có giá trị.
\r\n\r\nCác điều kiện kiểm tra để hiệu chỉnh tạp âm\r\nbắt được như sau:
\r\n\r\n- Sử dụng một cảnh video tĩnh cho đầu vào\r\nkênh. Video tĩnh được định nghĩa là “hình ảnh video không có chuyển động hoặc\r\nthay đổi”. Điều quan trọng là duy trì tỉ số tín hiệu trên tạp âm video đầu vào\r\ngiống nhau trong quá trình hiệu chỉnh và đo lường. Một kỹ thuật sử dụng chuỗi\r\nnguồn bao gồm một khung được lặp từ một hoặc nhiều đoạn video chuyển động dành\r\ncho kiểm tra sau này. Kỹ thuật này không tái tạo tạp âm trong chuỗi nguồn và\r\nchỉ thích hợp với trường hợp tạp âm bắt được cao hơn đáng kể so với tạp âm\r\nnguồn. Đối với một số chuỗi kiểm tra và video trực tiếp, có thể chia khung\r\nvideo theo không gian và xác định một phân khung tĩnh (ví dụ như nền) cho hiệu\r\nchỉnh và một phân khung chuyển động cho các phép đo khác. Các tín hiệu kiểm tra\r\ntĩnh (các thanh màu SMPTE) được sử dụng hiệu quả (tạp âm nguồn có mặt trong tín\r\nhiệu kiểm tra tĩnh giống như trong chuỗi kiểm tra);
\r\n\r\n- Bắt giữ (số hóa và lưu trữ) chuỗi các khung\r\ntương ứng tại đầu ra kênh. Khoảng 30-60 khung là đủ. Khi kênh sử dụng nén kỹ\r\nthuật số thì kênh được cho phép đạt đến một mức chất lượng ổn định, do đó tránh\r\nbất kỳ đáp ứng cắt cảnh nào làm sai lệch phép đo tạp âm.
\r\n\r\nNhìn chung, tạp âm bắt ở đầu vào sẽ khác với\r\ntạp âm ở đầu ra. Một số codec lọc ra tạp âm nguồn để cải thiện tín hiệu cho mã\r\nhóa.
\r\n\r\nVới một chuỗi 30 khung, tính tập 30-1 =29 giá\r\ntrị MSE khung liền kề, M[V’(m), V’(m – 1)].
\r\n\r\nMức tạp âm bắt đầu ra là giá trị MSE cực đại\r\ncủa tập
\r\n\r\nv’(m) = M[V’(m), V’(m – 1)] for m = 2, 3, …\r\n30
\r\n\r\ntrong đó v’(m) là giá trị MSE cho khung V’(m)\r\nvà tạp âm bắt giữ N’ là:
\r\n\r\nN’ = max(v’)
\r\n\r\ntrong đó v’ là tập giá trị MSE cho chuỗi V’.\r\nMức độ biến thiên trong tập các giá trị MSE nên nhỏ hơn 20% do tính trung bình\r\nnhiều điểm ảnh cho mỗi giá trị trong tập. Đối với các chuỗi đầu vào, ta có N =\r\nmax(v).
\r\n\r\nCho phép một số dung sai giữa mức tạp âm bắt\r\ngiữ và ngưỡng để phát hiện các khung tích cực, định nghĩa khung đầu ra mà có\r\nv’(m)) = M [V’(m), V’ (m – 1)] ≤ 1,5 x N’ là các khung lặp. Đối với một chuỗi\r\nmã nguồn, định nghĩa khung mà v’ (n) = M [V (n), V (n – 1)] ≤ 1,5 x N là các\r\nkhung đồng nhất. Có thể có sự khác biệt nhỏ giữa các khung lặp hoặc các khung\r\nđồng nhất, tuy nhiên hệ thống đo lường không thể phát hiện chính xác được. Việc\r\nlựa chọn và xác định chuỗi nguồn để kiểm tra sẽ đưa ngưỡng này vào bản kê.\r\nKhông thể phát hiện các khung tích cực khi các khung trong chuỗi nguồn đồng\r\nnhất cho các thiết bị đo lường. Dung sai này cũng thúc đẩy việc phát hiện khung\r\ntích cực với độ tin cậy lớn hơn.
\r\n\r\nB.1.3 Kiểm tra chuỗi với sự khác biệt rõ ràng\r\n
\r\n\r\nĐối với một chuỗi video V, tính tập các giá\r\ntrị MSE v và so sánh mỗi giá trị của tập với ngưỡng của các khung đồng nhất\r\n(1,5 x N). Tất cả khung V(n) thỏa mãn M [V (n), V (n – 1)]> 1,5 x N có sự\r\nkhác biệt phân biệt được từ khung trước đó. Một kênh thử nghiệm sẽ được cung\r\ncấp các khung đầu vào có sự khác biệt rõ ràng để kiểm tra các khung tích cực và\r\ncác khung lặp.
\r\n\r\nKhi xem xét chuỗi nguồn sử dụng cho hệ thống\r\ntruyền dẫn chất lượng cao mà bảo toàn tính toàn vẹn trường, việc so sánh khung\r\nVideo hiện tại V (n) với V (n – 2) rất thích hợp để ghép các trường tương đương\r\nvà tránh lỗi so sánh từ độ lệch không gian giữa các trường.
\r\n\r\nThủ tục cho các bài kiểm tra điều kiện sau\r\nđây đảm bảo cho một khung Video có khác biệt rõ rệt (với chuỗi nguồn có các\r\ntrường xen kẽ):
\r\n\r\n- Tính M[V(n), V(n – 1)];
\r\n\r\n- Nếu kết quả ≤ 1,5N, ghi không thể phân biệt\r\nđược các khung, ngược lại sẽ tiếp tục;
\r\n\r\n- Tính M[V(n), V(n – 2)];
\r\n\r\n- Nếu kết quả ≤ 1,5N, ghi không thể phân biệt\r\nđược các khung, ngược lại sẽ tiếp tục;
\r\n\r\n- Khung V (n) có sự khác biệt có khả năng phân\r\nbiệt được.
\r\n\r\nB.1.4 Phân loại khung tích cực và khung lặp
\r\n\r\nĐối với chuỗi video đầu ra V’, tính tập giá\r\ntrị MSE M [V’(m), V’(m – 1)] và so sánh mỗi giá trị trong tập với ngưỡng cho\r\nkhung đồng nhất (1,5 x N’).
\r\n\r\nLưu ý rằng nhiều hệ thống truyền dẫn chất\r\nlượng cao bảo đảm tính toàn vẹn trường, đồng thời cũng sinh ra méo tối thiểu.\r\nCác hệ thống này cũng thích hợp để so sánh khung Video hiện tại V’(m) với V’(m\r\n– 2) để ghép các trường tương đương và tránh lỗi so sánh từ độ lệch không gian\r\ngiữa các trường. Khi kiểm tra tại các giao diện không đan kẽ hoặc sử dụng các\r\ntùy chọn được công nhận để giảm tỉ lệ bắt giữ và độ phân giải thì việc so sánh\r\nvới V’ (m – 2) là không cần thiết.
\r\n\r\nMột khung V’ (m) mà MSE có kết quả là M [V’\r\n(m), V’ (m – 1) và M [V’ (m), V’ (m – 2] > 1,5 x N’, đáp ứng chuỗi đầu vào\r\ncó sự khác biệt rõ ràng, được giới hạn tương ứng với mỗi khung và được phân loại\r\nlà khung tích cực.
\r\n\r\nMột khung V’ (m) mà MSE có kết quả là M [V’\r\n(m), V’ (m – 1) và M [V’ (m), V’ (m – 2] ≤ 1,5 x N’, đáp ứng chuỗi đầu vào có\r\nsự khác biệt rõ ràng, tương ứng với V’ (m – 1) hoặc V’ (m – 2) thì được phân\r\nloại là khung lặp.
\r\n\r\nB.1.5 Kiểm tra sự tương ứng giữa các khung\r\n(các khung thích hợp)
\r\n\r\nĐối với khung tích cực m và chuỗi đầu vào\r\nkhung X, tính tập X giá trị MSE, M [V’ (m), V]. Khung đầu vào với sự tương ứng\r\ntốt nhất là khung mà tạo ra giá trị MSE tối thiểu trong tập:
\r\n\r\ncv(x) =\r\nM[V’(m), V(x)] với 1≤X≤X
\r\n\r\ncv là tập giá trị MSE cho khung V’\r\n(m) so với mỗi khung trong chuỗi V và khung đầu vào phù hợp nhất V’ (m) được\r\nđịnh nghĩa là:
\r\n\r\nCv= min (cv)
\r\n\r\n[Lỗi cực tiểu (MSE) biểu diễn sự tương ứng\r\ncực đại hoặc phù hợp nhất giữa các khung]
\r\n\r\nMột tập các quy tắc có thể cải thiện quá\r\ntrình kết hợp và làm giảm sự không rõ ràng. Có thể có trường hợp mà một khung\r\ntích cực tương ứng chặt chẽ với nhiều hơn một khung đầu vào. Trường hợp này cần\r\nđược giảm thiểu với tiêu chí phù hợp dựa trên phương pháp so sánh điểm ảnh\r\n(MSE), tuy nhiên một số trường hợp lại tăng khả năng không rõ ràng. Đó là:
\r\n\r\n- Méo không gian do tốc độ truyền bit thấp,\r\nsử dụng định dạng khung số độ phân giải thấp, vv…
\r\n\r\n- Nội dung nguồn – chuyển động nhiều (gây\r\nnhòe hay méo), chuyển động lặp lại, các khoảng tĩnh trong một chuỗi;
\r\n\r\n- Tốc độ khung đầu ra tích cực thấp cho phép\r\nnhiều khung nguồn phù hợp nhất có thể;
\r\n\r\n- Sử dụng nội suy khung khiến cho quá trình phù\r\nhợp khó khăn hơn.
\r\n\r\nCác quy tắc sau đây rất hữu ích để giải quyết\r\nsự phù hợp không rõ ràng:
\r\n\r\n- Yêu cầu phù hợp một - một: Chỉ có một khung\r\ntích cực phù hợp với một khung đầu vào cho trước. Do đó có thể giải thích phù\r\nhợp kép là một khung tích cực được phát hiện sai. Nếu kết quả so sánh có phù\r\nhợp kép thì tình trạng lỗi này phải được báo cáo;
\r\n\r\n- Chuỗi bắt buộc: Ví dụ (với các khung không\r\nđan xen) nếu V’ (m) phù hợp với V (n), thì các khung tích cực tiếp theo V’ (m +\r\n2) phải phù hợp với V (n + 1) hoặc V (n + 2) hoặc V (n + 3), vv. V’ (m + 2)\r\nkhông được phép phù hợp với V (n – 1) hoặc V (n);
\r\n\r\n- Trễ tối thiểu được chấp nhận: trễ tối thiểu\r\nlà tmin ≥ 0;
\r\n\r\n- Nhận dạng điều kiện không thích hợp: Một số\r\nkhung tích cực có méo quá nhiều để phù hợp với chuỗi truyền. Các khung như vậy\r\nsẽ được tính và báo cáo, cùng với ngưỡng không phù hợp được sử dụng. Người dùng\r\nhệ thống đo phải xác định phạm vi thông dụng của các giá trị MSE thích hợp cho\r\nhệ thống truyền tải thử nghiệm, và thiết lập ngưỡng trên phạm vi này;
\r\n\r\n- Chẩn đoán: Quá trình kết hợp có thể được\r\nlặp lại từ đầu ngược lại của chuỗi để xem xét nếu sự phù hợp không rõ ràng ít hơn\r\nvà xảy ra sự không phù hợp. Chiều hướng của quy định này cũng phải được đảo ngược;
\r\n\r\n- Kiểm tra khung tiếp theo: Nếu khung tích cực\r\ntiếp theo trong chuỗi đầu ra có sự phù hợp duy nhất trong chuỗi truyền, thì sử\r\ndụng sự phù hợp của nó và thực thi các quy tắc ở trên vào khung tích cực trước\r\nđó;
\r\n\r\n- Lựa chọn ngẫu nhiên: Khi sự không rõ ràng\r\nvẫn tồn tại, lựa chọn ngẫu nhiên có thể được sử dụng. Tuy nhiên, khuyến nghị\r\ntính toán MSE với độ phân giải đủ để giảm thiểu tình trạng như vậy. Lỗi sinh ra\r\nphân phối bởi quá trình ngẫu nhiên được loại bỏ trên một chuỗi và các thống kê\r\nđặc trưng không bị ảnh hưởng. Những lựa chọn như vậy sẽ được tính và báo cáo;
\r\n\r\n- Nếu các kết quả sử dụng một cảnh cụ thể có\r\nxu hướng yêu cầu độ phân giải và can thiệp mở rộng bằng cách sử dụng những quy\r\ntắc này thì phép đo nên sử dụng một cảnh khác.
\r\n\r\nB.1.6 Xác định chuỗi nguồn cho phương pháp\r\nlỗi bình phương trung bình
\r\n\r\nSự thành công của các phương pháp dựa vào MSE\r\nphụ thuộc vào việc sử dụng các chuỗi nguồn thích hợp. Như đã nêu ở trên, chuỗi\r\nnguồn sẽ khác nhau giữa khung với khung mà có thể phân biệt bằng các thiết bị\r\nđo lường, tránh chuyển động lặp lại, và tránh những khoảng video tĩnh gây ra sự\r\nphù hợp không rõ ràng. Khi sử dụng một vùng phân khung, quá trình xử lý sẽ\r\nthông qua một vùng tương tự là cơ sở để xác định. Các thủ tục sau đây có thể\r\nxác định các đoạn hình ảnh phù hợp cho đo lường:
\r\n\r\n- Lấy khung video đầu tiên trong chuỗi nguồn\r\nvà so sánh nó với tất cả các khung khác trong chuỗi;
\r\n\r\n- Ghi lại số lượng và vị trí của tất cả các\r\nkhung đồng nhất (như mô tả trong C.1.2);
\r\n\r\n- Phân tích: Khoảng thời gian giữa các khung\r\nđồng nhất đủ để giải quyết sự không rõ ràng liên kết đầu vào-đầu ra bằng cách sử\r\ndụng ước tính ưu tiên khoảng thời gian đến khung và các thông tin khác. Ví dụ,\r\nnếu biết trễ truyền tải < 2s thì thời gian các khung đồng nhất có thể xuất\r\nhiện riêng ≥ 2s;
\r\n\r\n- Lặp lại các bước trên ít nhất là với X\r\nkhung đầu tiên (ví dụ: X = 60). Tập trung vào các khung đầu trong chuỗi vì các\r\nkết quả so sánh phụ thuộc vào các kết quả trước.
\r\n\r\nB.1.7 Các hệ số ảnh hưởng đến tính ổn định và\r\nđộ chính xác đo lường
\r\n\r\nTrong nhiều hệ thống truyền tải video, bộ\r\ngiải mã phải cung cấp các khung video tại đầu ra của nó theo một chế độ hiển\r\nthị định kỳ (chẳng hạn như giao diện phức hợp tương tự). Nếu đồng hồ hiển thị\r\nđầu vào và đầu ra không đồng bộ thì phải thêm bộ đệm vào bộ giải mã. Khi bộ\r\ngiải mã có một khung Video đã sẵn sàng cho hiển thị, nó vẫn phải chờ đến cơ hội\r\nđầu ra tiếp theo và do đó làm tăng trễ của toàn hệ thống. Gọi khoảng thời gian\r\nđợi giải mã là trễ đầu ra.
\r\n\r\nTrễ đầu ra được giới hạn bởi khoảng thời gian\r\ngiữa các bản cập nhật hiển thị. Đối với hệ thống truyền dẫn có giao diện phức\r\nhợp mà có thể cập nhật các giới hạn trường thì trễ đầu ra cực đại là 16,7 ms.\r\nVới cập nhật giới hạn trường 525 dòng thì trễ cực đại là 33 ms. Trễ đầu ra thực\r\ntế là các giá trị ngẫu nhiên từ 0 đến giá trị cực đại.
\r\n\r\nKhi đồng hồ dạng sóng đầu vào và đầu ra có\r\nkhoảng lệch tần số nhỏ thì trễ đầu ra sẽ thay đổi theo thời gian. Nếu độ lệch\r\ntần số là không đổi thì trễ đầu ra sẽ thay đổi trên phạm vi của nó trong khoảng\r\nthời gian chính xác. Nếu các đồng hồ được đồng bộ hóa với các bộ dao động kiểm\r\nsoát tia Cesium độc lập thì trễ đầu ra sẽ thay đổi <1 ms trong 13.900 giờ.\r\nNếu độ chính xác đồng hồ được lấy từ bộ dao động thạch anh độc lập (với độc\r\nlệch trang 2ppm) thì trễ đầu ra xoay quanh dải 0 – 33 ms trong 4,58 giờ.
\r\n\r\nNhãn thời gian có đặc tính cho phép phân giải\r\ntrường con của trễ đầu ra là một thành phần chặt chẽ của trễ toàn hệ thống\r\ntruyền tải.
\r\n\r\nB.2 Phương pháp đo mã hóa thời gian trong\r\nkhung
\r\n\r\nTrong một số trường hợp, có thể chèn các ký\r\nhiệu hiện trong đoạn video đầu vào được sử dụng để xác định mỗi khung đầu vào.\r\nCác ký hiệu này được đưa tới đầu ra của hệ thống và được sử dụng để đo trễ và\r\ntốc độ khung hình.
\r\n\r\n\r\n\r\n\r\n\r\n
(Tham khảo)
\r\n\r\n\r\n\r\nC.1 Đánh vần bằng tay
\r\n\r\nBảng C.1 cho thấy một miêu tả gần đúng một\r\nchuỗi đánh vần bằng tay trong chuỗi thử nghiệm “Irene”. Những hình ảnh từ chuỗi\r\nnày được thể hiện trong Hình C.1.
\r\n\r\nBảng C.1 – Ví dụ biểu\r\ndiễn đánh vần bằng tay trong các khung hình tốc độ 25 và 12,5 khung trên giây
\r\n\r\n\r\n Số khung hình \r\n | \r\n \r\n 308 \r\n | \r\n \r\n \r\n | \r\n \r\n 310 \r\n | \r\n \r\n \r\n | \r\n \r\n \r\n | \r\n \r\n \r\n | \r\n \r\n \r\n | \r\n \r\n 315 \r\n | \r\n \r\n \r\n | \r\n \r\n \r\n | \r\n \r\n \r\n | \r\n \r\n \r\n | \r\n \r\n 320 \r\n | \r\n \r\n \r\n | \r\n \r\n \r\n | \r\n \r\n \r\n | \r\n \r\n \r\n | \r\n \r\n 325 \r\n | \r\n \r\n \r\n | \r\n \r\n \r\n | \r\n \r\n \r\n | \r\n \r\n \r\n | \r\n \r\n 330 \r\n | \r\n \r\n \r\n | \r\n \r\n \r\n | \r\n \r\n \r\n | \r\n \r\n \r\n | \r\n \r\n 335 \r\n | \r\n \r\n 336 \r\n | \r\n
\r\n 25 fps \r\n | \r\n \r\n e \r\n | \r\n \r\n e \r\n | \r\n \r\n e \r\n | \r\n \r\n - \r\n | \r\n \r\n d \r\n | \r\n \r\n s \r\n | \r\n \r\n s \r\n | \r\n \r\n s \r\n | \r\n \r\n s \r\n | \r\n \r\n - \r\n | \r\n \r\n v \r\n | \r\n \r\n v \r\n | \r\n \r\n v \r\n | \r\n \r\n - \r\n | \r\n \r\n i \r\n | \r\n \r\n - \r\n | \r\n \r\n - \r\n | \r\n \r\n k \r\n | \r\n \r\n k \r\n | \r\n \r\n k \r\n | \r\n \r\n - \r\n | \r\n \r\n e \r\n | \r\n \r\n n \r\n | \r\n \r\n n \r\n | \r\n \r\n n \r\n | \r\n \r\n n \r\n | \r\n \r\n n \r\n | \r\n \r\n n \r\n | \r\n \r\n n \r\n | \r\n
\r\n 12.5 fps \r\n | \r\n \r\n \r\n | \r\n \r\n e \r\n | \r\n \r\n \r\n | \r\n \r\n - \r\n | \r\n \r\n \r\n | \r\n \r\n s \r\n | \r\n \r\n \r\n | \r\n \r\n s \r\n | \r\n \r\n \r\n | \r\n \r\n - \r\n | \r\n \r\n \r\n | \r\n \r\n v \r\n | \r\n \r\n \r\n | \r\n \r\n - \r\n | \r\n \r\n \r\n | \r\n \r\n - \r\n | \r\n \r\n \r\n | \r\n \r\n k \r\n | \r\n \r\n \r\n | \r\n \r\n k \r\n | \r\n \r\n \r\n | \r\n \r\n e \r\n | \r\n \r\n \r\n | \r\n \r\n n \r\n | \r\n \r\n \r\n | \r\n \r\n n \r\n | \r\n \r\n \r\n | \r\n \r\n n \r\n | \r\n \r\n \r\n | \r\n
Các số trên hàng trên cùng là các số khung\r\nbắt đầu của chuỗi. Các chữ biểu thị khi các chữ cái khá rõ ràng được hình thành\r\nbởi bàn tay. Dấu gạch ngang chỉ ra rằng không có chữ cái nào được hình thành\r\ntrong quá trình chuyển tiếp giữa các chữ cái. Từ này là “Edsviken”, tên một địa\r\ndanh.
\r\n\r\nTrong số 8 chữ cái này, ba chữ cái chỉ thấy\r\ntrên một khung hình và do đó sẽ có nguy cơ bị mất tại 12,5 khung hình/giây. Ví\r\ndụ mẫu khung 12,5 fps được cho ở hàng dưới của bảng, trong đó có 2 chữ cái bị\r\nmất, từ gốc “Edsviken” chỉ còn lại là “Esvken” (xem Hình C.2). Điều này rõ ràng\r\nthể hiện nguy cơ mất nội dung ngôn ngữ khi tỷ lệ khung hình thấp hơn 20 fps.
\r\n\r\nPhân phối chữ cái trong chuỗi 25 fps:
\r\n\r\n1 khung 3 chữ cái;
\r\n\r\n2 khung 0 chữ cái;
\r\n\r\n3 khung 3 chữ cái;
\r\n\r\n4 khung 1 chữ cái;
\r\n\r\n7 khung 1 chữ cái (cuối cụm).
\r\n\r\nChiều dài trung bình trong cụm là: 2,3 khung\r\n/ chữ cái.
\r\n\r\nHình C.1 – Các khung\r\nhình chứa từ được đánh vần bằng tay “Edsviken” ghi tại 25fps
\r\n\r\nHình C.2 – Các khung\r\nhình chứa từ được đánh vần bằng tay “Edsviken” ghi tại 12,5 fps. 2 chữ bị mất
\r\n\r\nTrong ví dụ này, các chữ cái trong từ thay\r\nđổi từ 1 đến 4 khung, với mỗi khung biểu diễn 40 ms. Chiều dài trung bình là\r\n2,3 khung xuất hiện cho 1 chữ cái. Ví dụ trên chưa đủ để thực hiện bất kỳ kết\r\nluận thống kê thực tế. Tuy nhiên, có thể thấy rằng, với tốc độ đánh vần bằng\r\ntay, tốc độ khung hình 25 fps là đủ, trong khi 12,5 fps sẽ yêu cầu một số phỏng\r\nđoán để cảm nhận được các từ được đánh vần bằng tay.
\r\n\r\nC.2 Ký hiệu chung
\r\n\r\nPhần lớn đoạn phim “Irene” sử dụng các ký\r\nhiệu và không sử dụng đánh vần bằng tay.
\r\n\r\nMột phân tích đơn giản được thực hiện trên\r\ncụm từ sau. Nó được sao chép lại bởi các ký hiệu với số lượng khung cho mỗi ký\r\nhiệu trong dấu ngoặc đơn.
\r\n\r\nChuỗi được biểu diễn giữa khung 406 và 520\r\ntrong chuỗi “Irene”
\r\n\r\n“SHE(7) TELLS(7) SELF(11) HOW(4) SHE(2)\r\nFELT(11) EXPERIENCED(13) ADOLESCENCE(16)”
\r\n\r\nKhông có ký hiệu nào trong chuỗi ngắn hơn 2\r\nkhung và không có ký hiệu nào gồm nhiều cử động nhanh hơn đánh vần bằng tay.\r\nMột số ký hiệu bao gồm nhiều cử động và do đó cần phải có các yêu cầu khác về\r\nmã hóa video.
\r\n\r\n\r\n\r\n\r\n\r\n
(Tham khảo)
\r\n\r\nCHẾ\r\nĐỘ THOẠI VÀ CHẾ ĐỘ THOẠI CÓ HÌNH CỦA MÁY ĐIỆN THOẠI THẤY HÌNH
\r\n\r\nD.1. Cấu tạo của máy điện thoại thấy hình tốc\r\nđộ thấp
\r\n\r\nĐặc tính cơ bản của loại máy này là nó có\r\ntính năng vừa là máy điện thoại thông thường vừa là máy điện thoại thấy hình.\r\nBản chất của tín hiệu thoại ở hai chế độ làm việc này là hoàn toàn khác nhau.\r\nCác chế độ này được mô tả trên Hình D.1.
\r\n\r\nHình D.1 – Cấu trúc\r\ncủa máy điện thoại thấy hình
\r\n\r\nD.2. Chế độ thoại không hình
\r\n\r\nỞ chế độ thoại không hình máy làm việc như\r\nmột máy điện thoại thông thường. Khi đó các tiếp điểm 1-2 và 4-5 ở chế độ ngắt.\r\nCác tiếp điểm 1-3 và 5-6 được nối với nhau. Như vậy ở chế độ này máy hoàn toàn\r\nkhông cần đến các bộ phận mã hóa và giải mã cũng như các bộ ghép, tách kênh và\r\nmô- đem. Vì vậy máy chỉ làm việc với nguồn cấp qua hai dây thoại.
\r\n\r\nD.3. Chế độ thoại thấy hình
\r\n\r\nỞ chế độ thoại thấy hình, các tiếp điểm 1-3\r\nvà 4-6 ngắt còn các tiếp điểm 1-2 và 5-4 được nối với nhau. Ở chế độ này, tín\r\nhiệu thoại và tín hiệu hình thực chất đã được xử lý thành tín hiệu số.
\r\n\r\n- Tín hiệu hình:
\r\n\r\nTín hiệu hình được biến đổi trong quá trình\r\nxử lý hết sức phức tạp nhờ các phép mã hóa nội suy hình ảnh, các phép mã hóa\r\ncôsin rời rạc, các phép mã hóa có độ dài từ mã thay đổi… Kết quả là tốc độ bit\r\ndành cho ảnh nằm trong khoảng vài kbit/s.
\r\n\r\n- Tín hiệu thoại:
\r\n\r\nTín hiệu thoại được xử lý bằng phương pháp\r\nnén tiếng nói dùng kỹ thuật số. Kết quả là tín hiệu thoại được biến đổi thành\r\nluồng số tốc độ khoảng từ 6 đến 8 kbit/s.
\r\n\r\n- Ghép tín hiệu:
\r\n\r\nTín hiệu hình và thoại đã qua xử lý được ghép\r\ncùng với tín hiệu điều khiển và được mã hóa thành một luồng tín hiệu. Luồng tín\r\nhiệu số này được đưa tới môđem để điều chế và truyền đi trên đường điện thoại.
\r\n\r\nĐặc điểm cơ bản của loại mô-đem này là thời gian\r\nbắt tay giữa hai máy rất ngắn. Thông thường vì chất lượng đường truyền khác\r\nnhau nên mô-đem được thiết kế với vài tốc độ khác nhau. Kết quả là tùy theo\r\nchất lượng đường truyền mà chất lượng hình và thoại sẽ khác nhau.
\r\n\r\nTrong tiêu chuẩn này có đưa ra các tiêu chuẩn\r\ncho hai chế độ khác nhau do tính chất hoàn toàn khác nhau của hai chế độ thoại\r\nkhông thấy hình và thoại thấy hình.
\r\n\r\n\r\n\r\n
THƯ MỤC TÀI LIỆU THAM\r\nKHẢO
\r\n\r\n[1] ITU-T H-series – Supplement 1 (05/1999),\r\nSign language and lip reading real time conversation using low bit rate video\r\ncommunication (chất lượng dịch vụ video thoại tốc độ thấp sử dụng cho trao đổi\r\nngôn ngữ ký hiệu và đọc môi thời gian thực).
\r\n\r\n[2] TCN68 – 154: 1995, Điện thoại thấy hình\r\ntốc độ thấp – Yêu cầu kỹ thuật.
\r\n\r\n[3] HELLSTRÖM, DELEVERT, REVELIUS: Quality\r\nrequirements on Videotelephony for Sign Language, Swedish National\r\nAssociation of the Deaf, 1997. (Yêu cầu chất lượng dịch vụ video thoại sử\r\ndụng ngôn ngữ ký hiệu).
\r\n\r\n[4] ITU-T Recommendation G.114 (1996), One-way\r\ntransmission time. (Thời gian truyền dẫn một chiều).
\r\n\r\n[5] FROWEIN: Improved speech reception\r\nthrough videotelephony, IEEE journal on Selected Areas in Communication, May\r\n1991. (Cải tiến thu thoại qua điện thoại thấy hình)
\r\n\r\n[6] ITU-T P.931 (12/98) Multimedia\r\ncommunications delay, synchronization and frame rate measurement (Đo tốc độ\r\nkhung, đồng bộ và trễ truyền thông đa phương tiện).
\r\n\r\n[7] IEC 100/AGS(Secretariat)216 (2006)\r\nMultimedia quality – Method of measurement and assessment of synchronization of\r\naudio and video.
\r\n\r\n[8] ETSI TR 101 290 V1.2.1 (2001-05) Digital\r\nVideo Broadcasting (DVB); Measurement guidelines for DVB systems.
\r\n\r\n\r\n\r\n
MỤC LỤC
\r\n\r\n1. Phạm vi áp dụng
\r\n\r\n2. Tài liệu viện dẫn
\r\n\r\n3. Thuật ngữ và định nghĩa
\r\n\r\n4. Chữ viết tắt
\r\n\r\n5. Các yêu cầu cơ bản của máy điện thoại thấy\r\nhình sử dụng để trao đổi ngôn ngữ ký hiệu và đọc môi
\r\n\r\n5.1 Các yêu cầu độ phân giải thời gian
\r\n\r\n5.1.1 Đánh vần bằng tay
\r\n\r\n5.1.2 Ký hiệu chung
\r\n\r\n5.1.3 Đọc môi
\r\n\r\n5.1.4 Khả năng thích ứng
\r\n\r\n5.1.5 Tính chất của phân giải thời gian
\r\n\r\n5.2 Các yêu cầu độ phân giải không gian
\r\n\r\n5.3 Độ chính xác
\r\n\r\n5.4 Độ trễ
\r\n\r\n5.5 Tính đồng bộ
\r\n\r\n5.6 Các yêu cầu hiệu năng
\r\n\r\n6. Khuyến nghị cho thiết bị đầu cuối
\r\n\r\n7. Khuyến nghị đối với người sử dụng
\r\n\r\nPhụ lục A (Tham khảo) Phép đo
\r\n\r\nPhụ lục B (Tham khảo) Phương pháp đo chất\r\nlượng Video
\r\n\r\nPhụ lục C (Tham khảo) Chuỗi kiểm tra Irene
\r\n\r\nPhụ lục D (Tham khảo) Chế độ thoại và chế độ\r\nthoại có hình của máy điện thoại thấy hình
\r\n\r\nFile gốc của Tiêu chuẩn quốc gia TCVN 9804:2013 về Chất lượng dịch vụ video thoại tốc độ thấp sử dụng cho trao đổi ngôn ngữ ký hiệu và đọc môi thời gian thực đang được cập nhật.
Tiêu chuẩn quốc gia TCVN 9804:2013 về Chất lượng dịch vụ video thoại tốc độ thấp sử dụng cho trao đổi ngôn ngữ ký hiệu và đọc môi thời gian thực
Tóm tắt
Cơ quan ban hành | Đã xác định |
Số hiệu | TCVN9804:2013 |
Loại văn bản | Tiêu chuẩn Việt Nam |
Người ký | Đã xác định |
Ngày ban hành | 2013-01-01 |
Ngày hiệu lực | |
Lĩnh vực | Xây dựng - Đô thị |
Tình trạng | Còn hiệu lực |