現在位置：范文先生網>理工論文>計算機論文>MPEG-7與媒體資產檢索

MPEG-7與媒體資產檢索

時間：2023-02-20 22:34:17 計算機論文我要投稿

相關推薦

MPEG-7與媒體資產檢索

1、引言隨著電視技術與IT技術的不斷融合，以及IT技術日新月異的發展，實現視音頻信息的數字化管理即所謂的媒體資產管理已成為可能。但要實現對龐大的視音頻數據進行組織、管理及檢索，僅僅有數字化的視音頻信息是遠遠不夠的，這時便提出了所謂的"元數據（Metadata）"技術。"元數據"就是描述數據的數據，即有關視音頻信息的描述信息。但現在多數媒體資產管理系統都是按照傳統的管理信息系統的方式組織和管理元數據的，即將視音頻信息進行編目，再將編目信息(元數據)存入數據庫以備日后的檢索和管理。這種方式對于版權、作者、主題等等文本信息是很有效的，但是要實現真正的面向內容的管理就力不從心了。針對這一問題，MPEG (Moving Picture Experts Group)推出了基于內容的多媒體描述標準MPEG-7。MPEG-7標準重點在于AV(Audiovisual)信息的描述和定義，以明確的結構和語法來定義AV信息的內容。它的正式名稱是"多媒體內容描述接口(multimedia content description interface)"。通過MPEG-7格式定義的信息，使用者可以有效地搜尋、過濾和定義想要的視音頻資料。 2、 MPEG-7 MPEG-7于2001年推出，它本身并不試圖定義一種新的數字壓縮方法，而主要是針對基于內容的多媒體描述問題。 2.1 MPEG-7標準的范圍 MPEG-7是MPEG繼MPEG-1、MPEG-2、MPEG-4之后制定的新標準，但它與前三個標準不同，它超越基于波形或基于樣本、基于壓縮(如MPEG-1和MPEG-2)甚至是基于對象(如MPEG-4)的表示，也超越具體的存儲方式(如可以應用于存儲在磁帶、影片等上模擬信號也可以應用于存儲在磁盤、光盤上的數字信號，甚至可應用于存在于紙上的圖形、圖片)，其目的是建立一種基于多媒體內容的描述方式，以便更有效地支持多媒體資料在產生、存儲、交換、傳輸等過程中的各種應用，這些應用包括搜索引擎、編輯工具和個性化的檢索機制等。但MPEG-7并不涉及這些就在具體的應用本身，而是僅僅定義了多媒體內容的描述方法，圖1是關于MPEG-7標準內容的抽象描述。 MPEG-7與媒體資產檢索

MPEG-7對多媒體信息的描述目前主要包括以下幾個方面（當然，隨著應用的不斷深入，MPEG-7也在不斷的擴充和完善）： ● 有關媒體制作方面的信息（如媒體的制作商、標題等）；
● 有關媒體使用方面的信息（如媒體的版權、使用記錄等）；
● 有關媒體存儲方面的信息（如媒體的編碼方式、存儲格式等）；
● 有關媒體時間域、空間域方面的信息（如媒體中的場景切換、區域分割等）；
● 有關媒體特征方面的信息（如媒體的灰度、紋理、音頻特征等）；
● 有關媒體內容表述方面的信息（如媒體中包括的對象、事件及其之間的相互關系等）。
2.2 MPEG-7描述
MPEG-7定義了一組的描述方法和工具，主要包含：
● 描述子D (Descriptors)：用來描述多媒體內容的各種特征。
● 描述方案DS (Description Schemes)：用來描述D之間的結構及關系。
● 描述定義語言DDL(Description Definition Language)：用來定義D和DS的語言。一個MPEG-7描述(descriptions)由一組DS實例組成，并與AV素材的內容鏈接，以使用戶能夠快速、有效地訪問需要的AV素材。描述可以與AV素材存儲在同一存儲系統中，也可以異地、遠程存儲。 2.2.1描述子 MPEG-7定義了一組標準的描述子，下表列出的是一些MPEG-7的視覺描述子：類型特征描述子視覺結構網格分布二維/三維多視圖時間序列三維空間坐標系時間插值顏色顏色空間顏色量化顏色直方圖主顏色可擴展顏色顏色結構顏色分布 GOF/GOP顏色紋理邊緣直方圖同類紋理紋理瀏覽形狀對象范圍基于區域的形狀基于輪廓的形狀三維形狀運動鏡頭運動對象運動軌跡參數運動運動速度位置區域定位子時空定位子其它人臉描述子每個描述子都定義了標準和非標準兩個部分，標準部分定義了描述子的語法、語義及其二進制的表示法。而操作部分是非標準的部分，許多低層的特征(如顏色直方圖等)都是可以自動抽取的，推薦使用的特征抽取及匹配算法都包含在非標準的部分。 2.2.2描述方案描述方案(DS)定義了各組成部分之間的結構和語義關系，它由描述子(D)和描述方案(DS)組成，下面是在AV內容描述方案中常用到的幾個概念： ● 語法結構：AV內容的物理和邏輯結構，如時間片斷、空間區域的基礎結構。
● 語義結構：語義含義的細分，如時間事件、空間對象結構。
● 語法語義鏈接：語法元素與語義元素間的結合。
一個頂層的AV描述方案往往是由多個描述方案組成：
● 一組語法結構描述方案(Syntactic structure DS)：即片斷、區域、顏色、文本、運動等物理特征的描述。
● 一組語義結構描述方案(Semantic structure DS)：即對象、人物或事件等語義特征，如"進球"、"射門"、"廣告"等。
● 語法語義鏈接描述方案(Syntactic-semantic links DS)：即語法元素和語義元素之間的關系。
● 摘要描述方案(Summary DS)：用于不同粒度間的瀏覽。
● 媒體信息描述方案(MetaInfo DS)：有關作者、出版者等信息的描述，包括內容描述方案、信用描述方案、創作目的描述方案、版權描述方案、出版描述方案等。
● 介質信息描述方案(MediaInfo DS)：有關存儲介質的描述，如文件格式、存儲介質、壓縮格式、長度等。
● 模式描述方案(Model DS)：提供AV數據的分類方法的描述或當前AV內容和其它內容間的通信的不同方法。圖2是一個AV描述方案的結構描述： MPEG-7與媒體資產檢索

2.2.3 DDL語言 DDL語言可以創建新的描述方案和描述子，也可以擴展或修改現有的描述方案。MPEG-7的DDL語言以XML語言為基礎，但由于XML并不是專門用來作為AV內容描述語言來設計的，因此MPEG-7在XML的基礎上作了進一步的擴展。MPEG-7的DDL語言主要包括以下幾個部分： ● XML語言的結構部分
● XML語言的數據類型部分
● MPEG-7的擴展部分 DDL語言、描述方案、描述子之間的關系見圖3。 MPEG-7與媒體資產檢索

3、基于MPEG-7的媒體資產檢索檢索是媒體資產管理系統中的重要環節，沒有效的檢索機制媒體資產管理也就沒有意義了。基于MPEG-7建立起來的媒體資產管理系統不僅可以包含傳統的視音頻信息，還可將其它多媒體信息(如做宣傳片時所建的3D模型等)納入其中，并且可超越存儲方式(無論是在線、近線還是離線)建立檢索機制。 3.1基于MPEG-7的媒體資產管理系統的結構雖然 MPEG-7描述不依賴于資料的編碼表示，但是在某種程度上，該標準建立在MPEG-4之上，在MPEG-4中定義的表示方式也非常適合MPEG-7描述的建立。MPEG-4提供對視聽資料以對象方式編碼的方法，這些對象具有一定的時間(同步)和空間(空間位置和三維感受)關系。利用MPEG-4編碼，將有可能把描述附加到場景中的元素(VOP)上。因此在媒體資產管理系統中，可將輸入的視頻編碼成高、低兩種碼率的碼流，高碼率的可采用MPEG-2編碼，用于編輯、下載、播出等；低碼率的可采用MPEG-4編碼，檢索、瀏覽以及網絡上的傳輸。MPEG-7描述建立在MPEG-4編碼之上，MPEG-4編碼與MPEG-2編碼之間用EDL表鏈接。系統結構見圖4。 MPEG-7與媒體資產檢索

3.2特征自動抽取一部視頻節目由一系列場景組成，而場景由鏡頭組成，鏡頭又由幀組成。利用鏡頭邊界檢測算法可將視頻序列分解成鏡頭，如最常用的顏色直方圖法，計算每兩幀之間的顏色直方圖的分布差，當其超過某一閾值時，就可認為這兩幀是兩個鏡頭的邊界。將場景被分成鏡頭后，就可利用自動關鍵幀抽取算法抽取一個或多個關鍵幀作為鏡頭的代表，供用戶瀏覽。關鍵幀抽取時，可先將第一幀作為鏡頭的第一個關鍵幀，然后將此關鍵幀與以后的每一幀作比較，當差值超過某一閾值時，可將這一幀作為新的關鍵幀，以此類推，直到鏡頭結束。鏡頭分解和關鍵幀抽取完成后就可對其進行靜態特征(形狀、顏色、紋理等)和運動特征進行自動抽取，并生成MPEG-7的標準描述，作為日后檢索的依據。 3.3人工編目對高層的語義描述，是不可能自動抽取的，需更多的依賴人機交互。因此專業的編目人員是建立高效的檢索機制所必不可少的。但是面對多種多樣的用戶需求，僅僅依靠幾個專業的編目人員是不可能的，一方面雖然已有了自動抽取的大量特征，但詳細的語義說明仍然是一個海量的工作；另一方面，每一個人對AV素材的理解可能都不盡相同，既使是非常高水平的編目人員也不可能滿足所有用戶的需求。因此"學習能力"也就成為對媒體資產檢索系統的一種更高層的要求。所謂的"學習能力"是指根據用戶的檢索過程生成新的描述信息的機制。例如，有一用戶鍵入"98世界杯上巴喬射失的點球"想檢索有關的AV素材時，可能以前沒有這樣的描述，所以無法找到。但用戶可能通過"98世界杯"、"點球"等一系列過程最終找到了有關素材，這時系統就可將"98世界杯上巴喬射失的點球"這一描述加到這一素材之上，當再有用戶鍵入相同信息時，系統就可快速的找到有關素材。"學習能力"將編目、檢索兩個完全分立的近程結合起來，擴大了編目能力，也提高了系統的效率，使得每一個用戶都成為系統的編目人員，大大地減輕了編目人員的工作壓力。與"學習能力"相對就的是"遺忘能力"。如過每一次檢索都產生新的描述，系統就會不停地擴大，直至最終崩潰。我們先看一看人類的大腦，之所以人類能記意大量的信息是因為我們忘卻了更大量的無用信息。因此一個具有"學習能力"的系統必須具有"遺忘能力"，即能夠將長時間無人使用的描述從系統中刪除的能力。當然，系統應將描述分出級別，對于專業編目人員建立的系統描述應設為最高級別，只有通過人工刪除，系統無法自動刪除，而對于由用戶檢索建立起的描述則由系統根據使用頻率及當前系統的負載情況采用有效的刪除策略。 3.4視頻檢索基于MPEG-7的檢索機制支持文本檢索、圖像檢索、音頻檢索等多種檢索方式，允許用戶輸入一幅圖像或在鍵盤上鍵入一段音符來查找相關素材。但是在實際應用中，由用戶直接輸入圖像是不太現實的，更多地是由用戶輸入對圖像的文本描述信息，這一點也進一步說明僅有低層的視覺描述而缺少高層語義描述的系統是沒有實用價值的。根據用戶的輸入，系統采用相似匹配的算法檢索到所有相關的關鍵幀(編目時描述信息越詳細，查詢的結果也就可能越準確)，用戶從所有關鍵幀中選擇可能是自己需要的部分，然后調入相關的低碼流的素材進行濟覽，當用戶確認以后就可通過EDL表調用高碼流部分進行下載輸出。主要參考文獻：
1、 ISO/IEC JTC1/SC29/WG11 N4031. Overview of the MPEG-7 Standard (version 5.0). José M. Martínez
2、 D-Lib MagazineSeptember 1999. MPEG-7 Behind the Scenes. Jane Hunter
3、 http://www.cbttn.com.《MPEG-7及其在廣播電視中的應用》. 張穎輝、陶然、王越、馬越
4、北京郵電大學出版社.《MPEG-7標準及其應用》.余兆明、李曉費、陳來春、

【MPEG-7與媒體資產檢索】相關文章：

多級存儲技術在媒體資產管理系統中的應用08-06

實習檢索報告08-16