基礎(chǔ)信息
權(quán)利要求
說明書
PDF全文
法律信息
引證文獻(xiàn)
著錄項(xiàng)信息
專利名稱 | 媒體編輯方法及其裝置 |
申請?zhí)?/td> | CN01133068.6 | 申請日期 | 2001-09-12 |
法律狀態(tài) | 權(quán)利終止 | 申報(bào)國家 | 中國 |
公開/公告日 | 2002-04-10 | 公開/公告號 | CN1344084 |
優(yōu)先權(quán) | 暫無 | 優(yōu)先權(quán)號 | 暫無 |
主分類號 | 暫無 | IPC分類號 | 暫無查看分類表>
|
申請人 | 松下電器產(chǎn)業(yè)株式會社 | 申請人地址 | 美國加利福尼亞州
變更
專利地址、主體等相關(guān)變化,請及時(shí)變更,防止失效 |
權(quán)利人 | 松下電器(美國)知識產(chǎn)權(quán)公司 | 當(dāng)前權(quán)利人 | 松下電器(美國)知識產(chǎn)權(quán)公司 |
發(fā)明人 | 今川和幸;高田雄二;松尾英明;巖佐克博;吉村哲也 |
代理機(jī)構(gòu) | 上海專利商標(biāo)事務(wù)所有限公司 | 代理人 | 孫敬國 |
摘要
本發(fā)明揭示一種媒體編輯方法及其裝置,包括活動(dòng)圖像數(shù)據(jù)保存部(14)保存用戶進(jìn)行錄像、錄音所得的活動(dòng)圖像數(shù)據(jù)。區(qū)域提取部(17)從該數(shù)據(jù)提取包含用戶的區(qū)域。正面判定部(18)檢測所提取區(qū)域內(nèi)用戶是否朝向正面。聲音檢測部(19)檢測活動(dòng)圖像數(shù)據(jù)中是否有規(guī)定電平以上的聲音。幀選擇部(20)根據(jù)正面判定部(18)和聲音檢測部(19)的輸出結(jié)果,確定起始幀和結(jié)束幀。編輯部(21)根據(jù)確定的起始幀和結(jié)束幀,剪裁媒體,并進(jìn)行圖像變換的編輯。發(fā)送數(shù)據(jù)保存部(15)將編輯的媒體作為發(fā)送數(shù)據(jù)保存。所提供的媒體編輯裝置能在便攜終端的通信終端方便地編制包含消息的媒體。
1.一種媒體編輯方法,對包含將用戶的一部分或全部作為被攝體拍攝的多幅圖像組成的圖像系列的媒體進(jìn)行編輯,所述方法由媒體編輯裝置執(zhí)行,其特征在于,所述方法包含:區(qū)域提取步驟,從所述圖像提取包含用戶的一部分或全部的區(qū)域;臉朝向指定方向判定步驟,判定所述區(qū)域提取步驟中提取的區(qū)域包含的用戶是否朝向預(yù)先規(guī)定的方向;幀選擇步驟,選擇對應(yīng)于往所述圖像系列起始時(shí)刻到結(jié)束時(shí)刻的方向和結(jié)束時(shí)刻到起始時(shí)刻的方向,分別在所述臉朝向指定方向判定步驟首先判定為用戶朝向所述指定方向的時(shí)刻之間的圖像系列;編輯步驟,對包含由所述幀選擇步驟中選擇的圖像系列的媒體進(jìn)行編輯。
2.如權(quán)利要求1所述的媒體編輯方法,其特征在于,所述臉朝向指定方向判定步驟判定所述區(qū)域提取步驟中提取的區(qū)域包含的用戶是否朝向正面。
3.如權(quán)利要求1或2所述的媒體編輯方法,其特征在于,所述媒體包含聲音,并且還包含檢測該媒體所含聲音的聲音檢測步驟;所述幀選擇步驟選擇對應(yīng)于往所述圖像系列起始時(shí)刻到結(jié)束時(shí)刻的方向和結(jié)束時(shí)刻到起始時(shí)刻的方向,分別在所述臉朝向指定方判定步驟最先判定為用戶朝向所述指定方向的時(shí)刻之間,而且對應(yīng)于分別在所述聲音檢測步驟最先檢測到聲音的時(shí)刻之間的圖像系列。
4.如權(quán)利要求1所述的媒體編輯方法,其特征在于,所述編輯步驟利用元數(shù)據(jù)形式的描述規(guī)定在所述幀選擇步驟選擇的圖像系列。
5.如權(quán)利要求1所述的媒體編輯方法,其特征在于,所述編輯步驟從所述媒體剪裁圖像系列,所述圖像系列是從所述幀選擇步驟中選擇的。
6.如權(quán)利要求1所述的媒體編輯方法,其特征在于,所述編輯步驟選擇所述幀選擇步驟中所選圖像系列的第1圖像作為初始顯示用圖像。
7.如權(quán)利要求1所述的媒體編輯方法,其特征在于,所述編輯步驟根據(jù)所述區(qū)域提取步驟中所提取區(qū)域的位置和大小,計(jì)算所述圖像系列中對應(yīng)的部分區(qū)域,并且用所述部分區(qū)域進(jìn)行編輯。
8.如權(quán)利要求7所述的媒體編輯方法,其特征在于,所述編輯步驟利用元數(shù)據(jù)形式的描述規(guī)定所述部分區(qū)域。
9.如權(quán)利要求1所述的媒體編輯方法,其特征在于,所述編輯步驟在設(shè)定為對所述區(qū)域提取步驟提取的區(qū)域完全不重疊或重疊區(qū)域較少的配置區(qū)域,配置所述媒體包含的文本。
10.如權(quán)利要求9所述的媒體編輯方法,其特征在于,所述區(qū)域提取步驟提取包含用戶臉部的臉部區(qū)域,所述編輯步驟在設(shè)定為對所述提取步驟中提取的臉部區(qū)域完全不重疊或重疊區(qū)域較少的冒出區(qū)域配置所述媒體包含的文本。
11.如權(quán)利要求1所述的媒體編輯方法,其特征在于,所述編輯步驟對1個(gè)以上的所述圖像進(jìn)行圖像變換處理。
12.如權(quán)利要求1所述的媒體編輯方法,其特征在于,所述區(qū)域提取步驟提取包含用戶臉部的臉部區(qū)域;所述編輯步驟參照根據(jù)所述區(qū)域提取步驟中提取的臉部區(qū)域算出的臉部特征,從存儲多個(gè)人物圖像及其對應(yīng)臉部特征的人物數(shù)據(jù)庫選擇關(guān)聯(lián)的1個(gè)以上所述人物圖像。
13.如權(quán)利要求12所述的媒體編輯方法,其特征在于,所述編輯步驟根據(jù)用戶輸入的文字?jǐn)?shù)據(jù),計(jì)算所述臉部特征。
14.如權(quán)利要求12所述的媒體編輯方法,其特征在于,所述編輯步驟根據(jù)所述區(qū)域提取步驟中提取的臉部區(qū)域的臉長寬比和臉的部位特征,計(jì)算所述臉部特征。
15.一種媒體編輯裝置,對包含將用戶的一部分或全部作為被攝體拍攝的多幅圖像組成的圖像系列的媒體進(jìn)行編輯,其特征在于,所述裝置包含:區(qū)域提取部,從所述圖像提取包含用戶的一部分或全部的區(qū)域;臉朝向指定方向判定部,判定所述區(qū)域提取部中提取的區(qū)域包含的用戶是否朝向預(yù)先規(guī)定的方向;幀選擇部,選擇對應(yīng)于往所述圖像系列起始時(shí)刻到結(jié)束時(shí)刻的方向和結(jié)束時(shí)刻到起始時(shí)刻的方向,分別在所述臉朝向指定方向判定部首先判定為用戶朝向所述指定方向的時(shí)刻之間的圖像系列;以及編輯部,對包含由所述幀選擇部選擇的圖像系列的媒體進(jìn)行編輯。
16.如權(quán)利要求15所述的媒體編輯裝置,其特征在于,所述媒體包含聲音,并且還具有檢測該媒體所含聲音的聲音檢測部;所述幀選擇部選擇對應(yīng)于往所述圖像系列起始時(shí)刻到結(jié)束時(shí)刻的方向和結(jié)束時(shí)刻到起始時(shí)刻的方向,分別在所述臉朝向指定方判定部最先判定為用戶朝向所述指定方向的時(shí)刻之間,而且對應(yīng)于分別在所述聲音檢測部最先檢測到聲音的時(shí)刻之間的圖像系列。
17.如權(quán)利要求15或16所述的媒體編輯裝置,其特征在于,所述編輯部選擇所述幀選擇部選擇的圖像系列的第1圖像作為初始顯示用圖像。
18.如權(quán)利要求15所述的媒體編輯裝置,其特征在于,所述編輯部根據(jù)所述區(qū)域提取部中所提取區(qū)域的位置和大小,計(jì)算所述圖像系列中對應(yīng)的部分區(qū)域,并且用所述部分區(qū)域進(jìn)行編輯
19.如權(quán)利要求15所述的媒體編輯裝置,其特征在于,所述編輯部在設(shè)定為對所述區(qū)域提取部提取的區(qū)域完全不重疊或重疊區(qū)域較少的配置區(qū)域,配置所述媒體包含的文本。
20.如權(quán)利要求15所述的媒體編輯裝置,其特征在于,所述區(qū)域提取部提取包含用戶臉部的臉部區(qū)域;所述編輯部參照根據(jù)所述區(qū)域提取部中提取的臉部區(qū)域算出的臉部特征,從存儲多個(gè)人物圖像及其對應(yīng)臉部特征的人物數(shù)據(jù)庫選擇關(guān)聯(lián)的1個(gè)以上所述人物圖像。
媒體編輯方法及其裝置\n技術(shù)領(lǐng)域\n本發(fā)明涉及包含靜止圖像或活動(dòng)圖像的媒體的編輯方法及其裝置,特別涉及可視電話、電視會議、可視函件、可視交談、門電話(內(nèi)部對講電話)等,至少采用圖像進(jìn)行通信時(shí),編輯包含有關(guān)圖像的媒體用的媒體編輯方法及其裝置。\n背景技術(shù)\n以往已提出的裝置在數(shù)字光盤、數(shù)字鏡物照像機(jī)、錄像帶、半導(dǎo)體存儲器等中記錄并重放會議、演講、采訪、會面、使用電話和可視電話等的會話等的聲音和圖像、來自電視機(jī)和監(jiān)視攝像機(jī)等的圖像等。與記錄者通過筆記僅記錄應(yīng)記錄信息的要點(diǎn)的方法相比,這種裝置具有可用聲音和圖像的形式無遺漏地記錄信息的優(yōu)點(diǎn),因而近年來廣泛采用。\n近來,隨著廣泛利用寬帶通信,以個(gè)人為主,用可視電話、門電話或帶攝像機(jī)的便攜終端的信息設(shè)備處理聲音和圖像以進(jìn)行通信的場所不斷增多。例如,以文本相互通信的已有電子函件正在改變?yōu)椴捎寐曇艉突顒?dòng)圖像的可視函件等。隨著可視電話的普及,用聲音的錄音電話(錄音秘書電話)正在改變?yōu)椴捎脠D像和聲音的記錄電話等,同時(shí)用聲音和活動(dòng)圖像進(jìn)行通信的場所不斷增多。\n這里,例如采用可視函件和活動(dòng)圖像的記錄電話那樣,暫存消息等數(shù)據(jù)用作媒體時(shí),通常經(jīng)歷以下的步驟:(1)首先按壓進(jìn)行錄像的設(shè)備的錄像啟動(dòng)鍵。\n(2)其次,對要傳送的消息進(jìn)行錄像;(3)最后,按壓結(jié)束鍵。\n本發(fā)明各實(shí)施形態(tài)中,媒體是指靜止圖像和活動(dòng)圖像等構(gòu)成的通信用消息(或其數(shù)據(jù))。\n通過通信線路將存儲的消息送到別處時(shí),通常經(jīng)歷以下的步驟:(4)確定遞送所存儲消息中的起止處,僅剪裁該部分遞送。\n如可視函件那樣,對朋友等寄送消息時(shí),有時(shí)也經(jīng)歷以下的步驟:(5)進(jìn)行對消息施加花紋等裝飾,增添人物等圖畫,部分剪裁圖像等的媒體編輯。\n上述步驟中,在步驟(4)確定實(shí)際遞送消息起止處(即剪裁的起點(diǎn)和終點(diǎn)時(shí)),用戶必須重放存儲的消息,一面進(jìn)行確認(rèn),一面確定剪裁的起點(diǎn)和終點(diǎn)。但是,使用帶攝像機(jī)的便攜終端的錄音電話時(shí),難以進(jìn)行甚至不可能進(jìn)行上述那樣的媒體編輯作業(yè)。\n因此,最好在執(zhí)行上述步驟(3)的時(shí)刻,不再次重放消息,而確定要遞送的范圍,并加以剪裁。作為這種方法,日本特開平6-343146號公告揭示的方法是消息記錄中進(jìn)行用戶輸入,并從進(jìn)行該輸入的時(shí)刻開始,僅重放一定時(shí)間的信號。但是利用該方法,作為消息,只能重放記錄者進(jìn)行用戶輸入的時(shí)刻所決定的一定時(shí)間內(nèi)的聲音和圖像,超過該一定時(shí)間的消息,完全不能重放。而且,僅由用戶輸入的時(shí)刻決定剪裁范圍,因而要求慎重操作,同時(shí)操作本身也麻煩。\n因此,最好不象上述已有例那樣要求用戶輸入,而自動(dòng)檢測符合預(yù)先設(shè)定的規(guī)定條件的范圍,并剪裁活動(dòng)圖像,作為這種方法,日本特開平9-294239號公告揭示的方法是在輸入話音信息和圖像信息中檢測符合預(yù)先設(shè)定的規(guī)定條件的范圍,并進(jìn)行剪裁。而且,揭示了該規(guī)定條件為有無規(guī)定電平以上的聲音信號、圖像亮度變化和色分布變化和攝像機(jī)(圖像)的動(dòng)態(tài)。\n發(fā)明內(nèi)容\n然而,在采用幾乎單人面對攝像機(jī)進(jìn)行消息錄像之類的通??梢暫突顒?dòng)圖像的錄音電話的情況下,用上述已有例的方法,存在以下問題。\n首先,將有無聲音信號作為條件對活動(dòng)圖像進(jìn)行,不適合門電話和可視電話中的記錄。其原因在于,盡管想知道誰來訪問(或誰打來電話)也完全沒有對聲音消息錄音時(shí),不可能剪裁。將圖像亮度變化和攝像機(jī)(圖像)的動(dòng)態(tài)作為條件也不合適。這是因?yàn)橥ǔ5目梢暫筒捎没顒?dòng)圖像的記錄電話的情況下,圖像亮度變化和圖像活動(dòng)小的居多,很難剪裁適當(dāng)?shù)姆秶?。\n上述已有例中,檢測符合預(yù)先設(shè)定的規(guī)定條件的全部范圍并進(jìn)行剪裁,但在可視函件和采用活動(dòng)圖像的記錄電話的情況下,在消息中途進(jìn)行多次剪裁,則分解為多個(gè)消息。例如將有無聲音信號作為條件時(shí),一件消息中途暫時(shí)無聲或重新啟動(dòng)消息時(shí),消息分解為多個(gè)。然而,在電子函件和錄音電話的情況下,希望這些構(gòu)成一件消息。既使假設(shè)組合上述多個(gè)消息,作為一個(gè)消息,也包含不自然的間斷。\n在如上述步驟(5)那樣,可視函件等中又進(jìn)行裝飾又編輯顯示畫面的情況下,有關(guān)操作通常繁雜,因此,當(dāng)前可視函件裝飾和編輯不普遍。例如,象娛樂中心等可看到的娛樂用自動(dòng)攝像裝置那樣,都停留在對靜止圖像施加墻紙等裝飾的形態(tài)和對文本電子函件加靜止的人物圖像的形態(tài)。尤其是使用市售便攜電話終端時(shí),希望僅用拇指操作,因而裝飾和編輯操作容易變回更繁雜。然而,為了在便攜終端的小顯示畫面內(nèi)適當(dāng)配置需要的信息,媒體編輯處理尤其重要??墒牵m合便攜終端的簡單媒體編輯方法,不存在已有技術(shù)例。\n因此,本發(fā)明要解決的技術(shù)問題是提供一種媒體編輯方法,能對包含幾乎單一人物面對攝像機(jī)錄制的活動(dòng)圖像的媒體進(jìn)行適當(dāng)且簡單編輯。\n本發(fā)明為解決前述的技術(shù)問題,具有以下所述的特征。\n本發(fā)明是一種媒體編輯方法,對包含將用戶的一部分或全部作為被攝體拍攝的多幅圖像組成的圖像系列的媒體進(jìn)行編輯,該方法包含以下的步驟。區(qū)域提取步驟,從圖像提取包含用戶的一部分或全部的區(qū)域。臉朝向指定方向判定步驟,判定區(qū)域提取步驟中提取的區(qū)域包含的用戶是否朝向預(yù)先指定的方向。幀選擇步驟,選擇對應(yīng)于往圖像系列起始時(shí)刻到結(jié)束時(shí)刻的方向和結(jié)束時(shí)刻到起始時(shí)刻的方向,分別在臉朝向指定方向判定步驟首先判斷為用戶朝向指定方向的時(shí)刻之間的圖像系列。編輯步驟,對包含由幀選擇步驟選擇的圖像系列的媒體進(jìn)行編輯。\n臉朝向指定方向判定步驟也可判定用戶是否朝向正面。媒體還包含聲音,并且還可具有檢測該媒體所含聲音的聲音檢測步驟。于是,幀選擇步驟可選擇對應(yīng)于往圖像系列起始時(shí)刻到結(jié)束時(shí)刻的方向和結(jié)束時(shí)刻到起始時(shí)刻的方向,分別在臉朝向指定方向判定步驟最先判定為用戶朝向指定方向的時(shí)刻之間,而且對應(yīng)于分別在聲音檢測步驟最先檢測到聲音的時(shí)刻之間的圖像系列。\n編輯步驟可利用無數(shù)據(jù)形式描述規(guī)定在幀選擇步驟選擇的圖像系列,也可從媒體剪裁,還可將所選圖像系列的第1圖像作為初始顯示用圖像選擇。而且,編輯步驟可根據(jù)區(qū)域提取步驟所提取區(qū)域位置和大小,算出圖像系列中對應(yīng)的部分區(qū)域,并用部分區(qū)域進(jìn)行編輯,還可利用元數(shù)據(jù)形式的描述規(guī)定該部分區(qū)域。\n編輯步驟在設(shè)定為對區(qū)域提取步驟提取的區(qū)域或臉部區(qū)域完全不重疊或重疊區(qū)域較少的配置區(qū)域或冒出區(qū)域,配置媒體包含的文本。\n編輯步驟可對1個(gè)以上的圖像進(jìn)行圖像變換處理,也可參照根據(jù)區(qū)域提取步驟提取的臉區(qū)域算出的臉特征,以存儲多個(gè)人物圖像和對應(yīng)的臉特征的人物數(shù)據(jù)庫選擇相關(guān)的1個(gè)以上人物圖像。\n本發(fā)明還提供一種媒體編輯裝置,對包含將用戶的一部分或全部作為被攝體拍攝的多幅圖像組成的圖像系列的媒體進(jìn)行編輯,其特征在于,所述裝置包含:區(qū)域提取部,從所述圖像提取包含用戶的一部分或全部的區(qū)域;臉朝向指定方向判定部,判定所述區(qū)域提取部中提取的區(qū)域包含的用戶是否朝向預(yù)先規(guī)定的方向;幀選擇部,選擇對應(yīng)于往所述圖像系列起始時(shí)刻到結(jié)束時(shí)刻的方向和結(jié)束時(shí)刻到起始時(shí)刻的方向,分別在所述臉朝向指定方向判定部首先判定為用戶朝向所述指定方向的時(shí)刻之間的圖像系列;以及編輯部,對包含由所述幀選擇部選擇的圖像系列的媒體進(jìn)行編輯。\n通過與附圖一起閱讀以下的詳細(xì)說明,會明白本發(fā)明的其他目的、特征和優(yōu)點(diǎn)。\n附圖說明\n圖1為示出能進(jìn)行實(shí)現(xiàn)本發(fā)明媒體編輯方法的圖像通信的媒體編輯終端硬件組成框圖。\n圖2為示出進(jìn)行本發(fā)明媒體編輯時(shí)的信息流程和處理過程的框圖。\n圖3為示出實(shí)施例形態(tài)1所涉及媒體編輯裝置功能結(jié)構(gòu)的框圖。\n圖4為說明對某活動(dòng)圖像數(shù)據(jù)進(jìn)行剪裁處理用的圖。\n圖5為根據(jù)MPEG-7規(guī)范記述圖4的索引信息的元數(shù)示例圖。\n圖6為接收包含活動(dòng)圖像數(shù)據(jù),發(fā)送者信息,件名等信息的可視函件的終端中畫面顯示例示意圖。\n圖7為示出實(shí)施形態(tài)2記所涉及媒體編輯裝置功能結(jié)構(gòu)的框圖。\n圖8為修飾處理例和顯示畫面例的示意圖。\n圖9為部分區(qū)域元數(shù)據(jù)記述例示意圖。\n圖10為活動(dòng)圖像不另外有顯示文件名和文本的空間的畫面顯示例示意圖。\n圖11為對與包含用戶的圖像區(qū)域不重疊的區(qū)域配置件名的顯示例。\n圖12為對與包含用戶的圖像區(qū)域重疊程度小的區(qū)域配置件名的顯示例。\n圖13為對活動(dòng)圖像寫入文本的布局處理所涉及的元數(shù)據(jù)描述例示意圖。\n圖14為加入人物的可視函件在接收終端的顯示畫面例示意圖。\n圖15為示出實(shí)施形態(tài)4所涉及媒體編輯裝置功能結(jié)構(gòu)的框圖。\n圖16為采用頭發(fā)特征的臉特征量示意說明圖。\n圖17為選擇所用人物的編輯畫面示例圖。\n圖18為接收人物畫件時(shí)的接收終端畫面示例圖。\n圖19為另一接收人物畫件時(shí)的接收終端畫面示例圖。\n具體實(shí)施方式\n各實(shí)施形態(tài)基本結(jié)構(gòu)下面,參照附圖概括說明本發(fā)明的各實(shí)施形態(tài)。\n本發(fā)明的媒體編輯方法及其裝置在使用可視電話、便攜終端或門電話之類以個(gè)人為主或面向家用的圖像通信終端,用戶編制可視函件,或訪問者留下記錄時(shí),能提供使用方便的接口。\n圖1為示出進(jìn)行實(shí)現(xiàn)本發(fā)明媒體編輯方法的圖像通信的媒體編輯終端硬件組成的框圖。圖1中,本媒體編輯終端具有對用戶進(jìn)行信息輸入輸出的輸入部1、圖像輸入部2、圖像顯示部3、聲輸入部4、聲輸出部5、處理輸入輸出信息的攝像控制部6、聲輸入輸出控制部7、顯示控制部8、通信部9、記錄部10、記錄控制部11、信號處理部12和控制部13。這些部分通過系統(tǒng)總線和外部總線相互連接,而且為普通計(jì)算機(jī)結(jié)構(gòu)或類似于計(jì)算機(jī)結(jié)構(gòu)。\n輸入部1由鍵盤(包含10個(gè)數(shù)字鍵等)和鼠標(biāo)等構(gòu)成,輸入使用者編輯媒體所需要的各種信息和文本形式的文章等。\n圖像輸入部2由CCD攝像機(jī)等構(gòu)成,輸入由至少1幅以上圖像組成的活動(dòng)圖像。圖像輸入部2基本上與后面說明的聲輸入部4聯(lián)動(dòng),通常取得對錄制消息的用戶拍攝的活動(dòng)圖像。\n聲輸入部4由話筒等構(gòu)成,用于輸入裝置外部的聲音。聲輸入部4基本上與圖像輸入部2聯(lián)動(dòng),通常取得對消息進(jìn)行錄音的用戶的聲音。\n圖像顯示部3由液晶顯示器等構(gòu)成,對用戶顯示其記錄的活動(dòng)圖像和文學(xué)、別人發(fā)送來的活動(dòng)圖像和文學(xué),以及操作上需要的各種信息等。\n聲輸出部5由揚(yáng)聲器等構(gòu)成,對用戶輸出其記錄的聲音、別人發(fā)送來的聲音,以及操作上需要的告警音和振鈴音等。\n攝像控制部6進(jìn)行圖像輸入部2的通/斷控制和曝光控制等對圖像輸入部2的各種控制。聲輸入輸出部7進(jìn)行聲輸入部4和聲輸出部5的通/斷等各種控制。顯示控制部8對圖像顯示部3進(jìn)行控制。\n通信部9通過公用電話線路和無線等通信路由,與對端的信息處理裝置進(jìn)行后文所述實(shí)施形態(tài)編制的各種數(shù)據(jù)的收發(fā)。通信部9可用任何通信模式,例如可以是可視電話那樣的同步通信,也可以先電子函件那樣的非同步通信。\n記錄部10由存儲器和硬盤等記錄媒體構(gòu)成,至少記錄圖像輸入部2和聲輸入部4輸入的數(shù)據(jù)。記錄部10也可包含CD-ROM和DVD等記錄媒體及其驅(qū)動(dòng)裝置。記錄控制部11對記錄部10進(jìn)行輸入輸出控制。\n信號處理部12由數(shù)字信號處理器等構(gòu)成,對圖像輸入部2輸入的圖像信號、聲輸入部4輸入的聲音信號和記錄部10記錄的數(shù)據(jù)至少進(jìn)行后所述各實(shí)施形態(tài)中編輯需要的各種處理。\n控制部13由微計(jì)算機(jī)或CPU等構(gòu)成,控制上述數(shù)據(jù)的流程,并進(jìn)行各種處理。\n本媒體編輯終端可以是將上述全部組成部分收裝在1個(gè)殼體中的一體型裝置,也可以是分散型裝置,各組成部分通過網(wǎng)絡(luò)和信號線收發(fā)數(shù)據(jù)。例如,帶攝像機(jī)的便攜電話終端為全部收裝到1個(gè)殼體的一體型裝置。門電話為了與訪問者接口,至少將圖像輸入部2、聲輸入部4和聲輸出部5設(shè)置在門的外側(cè)附近,其他組成部分則收裝到設(shè)置在起居室等處的另一殼體中,因而是分散型裝置。此外,還可考慮后文所述那樣的外部具有人物數(shù)據(jù)庫的分散型裝置。\n下面,概括說明用戶采用本發(fā)明媒體編輯方法編制發(fā)送用數(shù)據(jù)時(shí)全部步驟的流程。圖2為示出進(jìn)行本發(fā)明媒體編制時(shí)的信息流程和處理步驟。首先,用戶對上述圖1的輸入部1輸入命令,以便開始取得視頻和音頻數(shù)據(jù)。然后,用戶通過圖像輸入部2和聲輸入部4輸入消息等,編制活動(dòng)圖像數(shù)據(jù)。\n編制活動(dòng)圖像數(shù)據(jù)時(shí),多數(shù)的情況下,通常起始區(qū)間和未尾區(qū)間包含與用戶要輸入的信息無關(guān)的區(qū)間。因此,進(jìn)行省略活動(dòng)圖像數(shù)據(jù)始端和未端非所需區(qū)間的剪裁處理。下面詳細(xì)說明。\n其次,進(jìn)行布局處理,使對發(fā)送數(shù)據(jù)的對端有用的信息(例如數(shù)據(jù)編制的日期和時(shí)間、編制者名稱)與制成的活動(dòng)圖像一起,能用一幅畫面顯示。例如,進(jìn)行修飾處理,從剪裁所得的活動(dòng)圖像數(shù)據(jù)剪切出以發(fā)消息的用戶為中心的特定區(qū)域等,并對修剪所得區(qū)域進(jìn)一步配置作為素材數(shù)據(jù)生成的文本和人物圖像等。素材數(shù)據(jù)是指圖像、文本、計(jì)算機(jī)圖形等對活動(dòng)圖像數(shù)據(jù)加入的全部數(shù)據(jù)。例如,素材數(shù)據(jù)可以是預(yù)先制作的圖像圖案,也可以是文字和符號的圖案。該布局處理常用稱為多目的互聯(lián)網(wǎng)消息(函件)擴(kuò)展(MIME:Multi-PurposeInternet?Message(mail)Extensions)、超文本置標(biāo)語言、可擴(kuò)充置標(biāo)語言(XML:Xtensible?Markup?Language)、MPEG-7的元數(shù)據(jù)形式描述。經(jīng)過以上的處理,最后制成發(fā)送數(shù)據(jù),作為給數(shù)據(jù)發(fā)送對方的消息。\n在圖1的信號處理部12、控制部13、記錄控制部11進(jìn)行上述剪載處理和布局處理。這些處理通常用計(jì)算機(jī)可執(zhí)行的程序?qū)崿F(xiàn)。該程序從圖中未示出的CD-ROM和半導(dǎo)體存儲器卡等計(jì)算機(jī)可讀取的記錄媒體輸入到記錄部10等,或者通過通信線路下載。\n可是,進(jìn)行以上那樣的處理時(shí),如上文所述,利用已有的方法,用戶必須輸入信息的地方非常多。較詳細(xì)而言,剪裁處理中,用戶必須一面校驗(yàn)活動(dòng)圖像和聲音,一面輸入要剪裁的范圍。而且,在布局處理中,用戶必須進(jìn)行編輯如何布局用的操作。尤其是布局處理的修飾中,用戶必須對活動(dòng)圖像的全部幀指定要剪出的區(qū)域,加入素材數(shù)據(jù)時(shí),用戶需要一面確認(rèn)活動(dòng)圖像數(shù)據(jù)中被攝體的位置和大小等,一面輸入應(yīng)添加處。\n本發(fā)明各實(shí)施形態(tài)的媒體編輯裝置和方法在信號處理部12和控制部13的一方或雙方,進(jìn)行后文所述的區(qū)域提取處理,正面判定處理和聲音檢測處理。利用該處理,對剪裁處理和布局處理的全部或部分,可提供靈巧的接口。\n例如,在便攜終端編制可視函件時(shí),拍攝消息后希望立即發(fā)出函件的需求增多。這種情況下,通過提供靈巧的接口,即使立即發(fā)出函件時(shí),用戶也能用簡單的操作(例如操作1個(gè)按鍵)編制可視函件,其編制方法是預(yù)先剪裁消息的始端和未端,而且修剪成用戶驅(qū)于中心,并且根據(jù)情況配置墻紙和冒出框,從而形成接收者也容易觀看的布局。上述處理,本發(fā)明各實(shí)施形態(tài)中未必全部包含,可根據(jù)用途僅組合采用需要的部分。下面,單獨(dú)詳述發(fā)明各實(shí)施形態(tài)。\n實(shí)施形態(tài)1實(shí)施形態(tài)1的媒體編輯裝置可自動(dòng)進(jìn)行上述圖2的剪裁處理。圖3為示出實(shí)施形態(tài)1所涉及媒體編輯裝置功能結(jié)構(gòu)的框圖。圖3中,本媒體編輯裝置具有活動(dòng)圖像數(shù)據(jù)保存部14,發(fā)送數(shù)據(jù)保存部15,區(qū)域提取部17,正面判定部18、聲音檢測部19,幀選擇部20和編輯部21。\n活動(dòng)圖像數(shù)據(jù)保存部14對應(yīng)于圖1記錄部10,用戶保存錄像、錄音所得的活動(dòng)圖像數(shù)據(jù)作為消息。區(qū)域提取部17從保存的活動(dòng)圖像數(shù)據(jù)提取包含被攝體(用戶)的一部分或全部的特定區(qū)域。正面判定部18檢測區(qū)域提取部17所提取區(qū)域內(nèi)的用戶是否朝正面。聲音檢測部19檢測活動(dòng)圖像數(shù)據(jù)的各幀中是否有在規(guī)定電平以上的聲音信號。幀選擇部20根據(jù)正面判定部18和聲音檢測部19的輸出結(jié)果,決定起始幀和結(jié)束幀。編輯部21根據(jù)幀選擇部20確定的起始幀和結(jié)束幀,剪裁媒體,對該媒體進(jìn)行圖像變換處理等。發(fā)送數(shù)據(jù)保存部15對應(yīng)于圖1的記錄部10,保存編輯后的媒體,作為發(fā)送數(shù)據(jù)。適當(dāng)發(fā)送保存的數(shù)據(jù)。\n下面,說明這些組成部分的運(yùn)作。圖4用于說明對某活動(dòng)圖像數(shù)據(jù)進(jìn)行的剪裁處理。圖4中,對活動(dòng)圖像數(shù)據(jù)保存部14保存的活動(dòng)圖像數(shù)據(jù)進(jìn)行剪裁處理。活動(dòng)圖像數(shù)據(jù)包含具有用戶錄時(shí)的消息的聲音數(shù)據(jù)和與該數(shù)據(jù)同步錄像的圖像數(shù)據(jù)??蓪D像數(shù)據(jù)和聲音數(shù)據(jù)組合構(gòu)成為1個(gè)數(shù)據(jù),也可由圖像數(shù)據(jù)、聲音數(shù)據(jù)和記述其同步關(guān)系的數(shù)據(jù)分別構(gòu)成。圖4所示的數(shù)據(jù)例是用門電話等取得的消息的典型例,包含圖中A~H的8個(gè)地方(時(shí)刻)。在這些時(shí)刻發(fā)生以下的情況:A、開始取得數(shù)據(jù)B、第1消息開始C、第1消息結(jié)束D、下一消息前正在考慮的區(qū)間E、第2消息開始F、聲音停頓(進(jìn)行換氣等)G、第2消息結(jié)束H、數(shù)據(jù)獲取結(jié)束圖中的曲線將橫軸取為經(jīng)過時(shí)間,縱軸取為輸入聲音電平,A~H表示規(guī)定時(shí)刻。曲線上方添加的畫是聲音同時(shí)錄像的幾乎相同時(shí)刻的圖像數(shù)據(jù)的1個(gè)場面,例如表示從注入門電話消息到該消息失期間對用戶拍攝的圖像。\n參閱圖4可知,編制的活動(dòng)圖像數(shù)據(jù),多數(shù)情況下,其起始部分和未尾部分包含與用戶想輸入的信息時(shí),存在開始交談消息前的時(shí)間和談話結(jié)束后的時(shí)間。著眼于包含這種消息的活動(dòng)圖像數(shù)據(jù)的特點(diǎn),本媒體編輯裝置利用以下方法對圖像數(shù)據(jù)和聲音數(shù)據(jù)自動(dòng)確定應(yīng)剪裁的區(qū)間。\n首先,說明檢測剪裁起始時(shí)刻的方法。檢測起始時(shí)刻時(shí),首先,區(qū)域檢測部17按開始到結(jié)束的方向(即圖4中從A觀看H的方向),對圖像數(shù)據(jù)的各幀依次檢測包含被攝體(用戶)的一部分或全部的區(qū)域。\n以往在提取被攝體區(qū)域方面,有各種方法。例如,特開平5-91407號公告揭示的方法是利用比較活動(dòng)圖像相鄰幀間的視頻信號,將活動(dòng)量小的視像部分作為背景部分,其他的部分作為被攝體區(qū)域提取。特開平5-161131號公告揭示的方法是預(yù)先保持僅有背景的圖像,各像素分別運(yùn)算僅有背景的圖像與活動(dòng)圖像各幀的差,將該差小的區(qū)域作為背景區(qū)域,并提取差大的區(qū)域作為被攝體區(qū)域。關(guān)注的區(qū)域?yàn)楸粩z體的頭部和臉部時(shí),可通過例如檢測圖像中的橢圓區(qū)域測出頭部。關(guān)于這種方法,谷內(nèi)等人者的“基于采用視點(diǎn)固定型全景傾斜度變焦距攝像機(jī)的自適應(yīng)觀看法模型的人物頭部檢測跟蹤”(MIRU2000圖像識別理解討論會演講論文集I(PP-9~14)中已揭示。其他還有利用彩色信息檢測臉面的方法,側(cè)重于眼、口等臉一部分的方法、基于模板匹配的方法等公知的種種方法。本區(qū)域提取部17用以上的已有方法能方便地提取被攝體區(qū)域。\n接著,正面判定部18對區(qū)域提取部17提取的區(qū)域檢測該區(qū)域存在的用戶是否朝正面。以往在檢測人物正面方面,有種種方法。例如,僅對正面圖像預(yù)先準(zhǔn)備模板,利用模板匹配??蓹z測是否正面。馬場等人著的“頭部分類器:人物臉圖像實(shí)時(shí)分類”(第7次圖像檢測討論會演講論文集PP-411~416)中揭示的方法用一種統(tǒng)計(jì)特征識別法,即支持矢量機(jī)(SVN:Support?Vector?Machine),識別圖像中臉的朝向。正面判定部18用以上的已有方法能判定人物是否朝下面。而且,用以上的方法,也可設(shè)置臉朝指定方向判定部代替正面判定部18,檢測圖像區(qū)域中的用戶是否朝預(yù)定方向(例如對正面往右偏斜45度的方向)。這樣,可選擇用朝斜方的用戶臉部等預(yù)先決定的美觀角度的圖像。\n聲音檢測部19將是否存在規(guī)定電平以上的聲音信號作為條件,檢測是否存在聲音。例如,對環(huán)境噪聲電平與輸入和聲音平均電平的比較決定該規(guī)定電平。還可用公知的聲音識別等方法檢測是否存在人的聲音。\n幀選擇部20號參照正面判定部18和聲音檢測部19的判定結(jié)果,往起始時(shí)刻到結(jié)束時(shí)刻的方向校驗(yàn)各幀,將首先滿足條件的時(shí)刻的方向校驗(yàn)各幀,將首先滿足條件的時(shí)刻對應(yīng)的幀作為起始幀。又往結(jié)束時(shí)刻到起始時(shí)刻的方向檢驗(yàn)各幀,同樣將最先滿足條件的時(shí)刻對應(yīng)的幀作為結(jié)束幀。根據(jù)正面判定部的判定結(jié)果,則圖4所示圖像中用戶最先朝正面的時(shí)刻為B點(diǎn),最后朝正面的時(shí)刻為G點(diǎn)。于是,幀選擇部20選擇共同滿足條件的幀,從而起始幀為B點(diǎn)的幀,結(jié)束幀為G點(diǎn)的幀。\n如上文那樣,本媒體編輯裝置往起始時(shí)刻到結(jié)束時(shí)刻的方向和結(jié)束時(shí)刻到起始時(shí)刻的方向,分別進(jìn)行掃描,選擇最先滿足條件的時(shí)刻,不切斷D時(shí)刻附近存在的下一消息前的過渡期,就能對全部消息進(jìn)行剪裁。因此,適合如可視函件等那樣,將用戶輸入的數(shù)據(jù)匯總為1件發(fā)送的用途。\n本媒體編輯裝置進(jìn)行圖像中被攝體正面判定和聲音檢測兩種處理,從而能可靠地剪裁作為消息錄像的部分。例如,用戶隨意朝正面沉思時(shí),也能根據(jù)該消息開始的時(shí)刻可靠地剪裁。然而,本媒體編輯裝置中,也可省略聲音檢測。即,用戶開始談消息時(shí),通常正面朝終端(的攝像機(jī))用戶開始談消息時(shí),通常正面朝終端(的攝像機(jī))行走,判定為正面特別有效。用戶注入消息前的考慮過程中無意間發(fā)出聲音時(shí),往往聲音檢測無效。因此,即使省略聲音檢測部19,本媒體編輯裝置也具有與上文所述大致相同的效果。\n接著,編輯部21根據(jù)幀選擇部20判定的起始幀和結(jié)束幀,對媒體(活動(dòng)圖像數(shù)據(jù))進(jìn)行剪裁。這里,編輯部21可編制完全刪除剪裁范圍以外的區(qū)間的活動(dòng)圖像數(shù)據(jù),也可編制不刪除活動(dòng)圖像數(shù)據(jù)而將剪裁范圍作為系列包含在內(nèi)的之?dāng)?shù)據(jù)。編制元數(shù)據(jù)時(shí),在未剪裁的部分包含重要信息的情況下,由于存在數(shù)據(jù),可利用該部分。下面,以采用MPEG-7格式時(shí)為例,說明元數(shù)據(jù)格式。\n作為描述元數(shù)據(jù)的格式,存在種種標(biāo)準(zhǔn)規(guī)范或獨(dú)立規(guī)范,但作為最新標(biāo)準(zhǔn)規(guī)范,有例如MPEG-7規(guī)范。MPEG-7是稱為多媒體內(nèi)容描述接口(MultimediaContemt?Description?Interface)(ISO/IEC15938)的活動(dòng)圖像專家組(MPEG:Moving?Picture?Experts?Group:ISO/IEC?JTCI/SC29/WG11)制訂的MPEG-1、MPEG-2、MPEG-4后續(xù)的第4個(gè)標(biāo)準(zhǔn)規(guī)范。該標(biāo)準(zhǔn)規(guī)范規(guī)定描述多媒體信息內(nèi)容用的框架,是以用于數(shù)字庫檢索和編輯應(yīng)用程序?yàn)槟康牡囊?guī)范。MPEG-7還規(guī)定描述以圖像、聲音為中心的多媒體信息的內(nèi)容用的描述符(Descripter)的標(biāo)準(zhǔn)集。對內(nèi)容提供該描述,從而可根據(jù)多媒體信息內(nèi)容進(jìn)行檢索。本規(guī)范的實(shí)際描述定義語言是對XML?Schema語言(XML圖解語言)進(jìn)行必要擴(kuò)充的語言。但是,該擴(kuò)充也保持與XML?Schema語言的語法有互換性。\n以上那樣的MPEG-7中,為了描述內(nèi)容的特征,可組合以下的基本要素。\n(1)描述符(Descriptor:簡稱為D)描述符號描述多媒體內(nèi)容中某單一特征用的基本工具。MPEG-7中規(guī)定描述符的語法(Symtax)和語義(Semantics)。\n(2)描述圖(Description?Schema:簡稱為DS)描述圖4規(guī)定多個(gè)描述工具間的結(jié)構(gòu)和語義關(guān)系的圖文框。MPEG-7中,同樣也規(guī)定描述圖的語法和語義。作為構(gòu)成描述圖的描述工具,除描述符外,還包含別的描述圖本身。\n(3)描述定義語言(Description?Definition?Language)描述定義語言是規(guī)定描述符和描述圖的語法用的語言。MPEG-7中,由將W3C(World?Wide?Wed?Consortium:萬維網(wǎng)論壇)加以標(biāo)準(zhǔn)化的圖解語言“XLMSchema”作為基礎(chǔ),追加描述多媒體內(nèi)容特征時(shí)需要的各種數(shù)據(jù)型,從而規(guī)定了描述定義語言。作為掃描圖(DS)的例子,有作為活動(dòng)圖像數(shù)據(jù)某部分的指示符數(shù)“Video?Segnent?DS”和描述圖像內(nèi)的區(qū)域的“StillRegion?DS”等。作為描述符(D)的例子,有描述媒體格式的“MdiaFormat”等。MPEG-7中,除標(biāo)準(zhǔn)規(guī)定的描述符和描述圖外,還規(guī)定對新描述符和描述圖進(jìn)行定義或擴(kuò)充用的語言(Description?Definition?Language)。因此,本媒體編輯裝置中采用元數(shù)據(jù)時(shí),根據(jù)上述語言描述元數(shù)據(jù),就成為MPEG-7格式的描述。\n圖5為根據(jù)MPEG-7規(guī)范描述圖4的索引信息的元數(shù)據(jù)示例圖。圖5中,該元數(shù)據(jù)關(guān)聯(lián)的圖像幀為對圖4的B和G時(shí)刻采用“Vidro?Segment?DS”而形成的對象。這里,與實(shí)際圖像幀的關(guān)聯(lián),在“Media?Time”的“Media?Time?Point”(“媒體時(shí)間”的“媒體時(shí)間點(diǎn)”)進(jìn)行,并描述相應(yīng)Video?Segment(圖像段)的時(shí)刻。例如,圖5所示那樣的“T13:20:01:1?F15”的描述,其含義為“13時(shí)20分01秒的第1幀(但每秒1?5幀中存在0幀到14幀)”。利用這樣的元數(shù)據(jù)描述,可進(jìn)行僅選擇活動(dòng)圖像中特定區(qū)間的重放控制。\n以上的描述畢竟是一個(gè)例子,不限定描述方式。即,只要用與內(nèi)容關(guān)聯(lián)的方式描述就可以,因而也可以按上述以外的各種方式的元數(shù)據(jù)進(jìn)行描述。元數(shù)據(jù)的描述為了在附圖上表示并說明方便,特地用文本格式示出,但不受該格式限制,也可以是二進(jìn)制格式。\n如上文那樣,不刪除活動(dòng)圖像數(shù)據(jù),而制成剪裁范圍作為索引包含在內(nèi)的元數(shù)據(jù)時(shí),與編制完全刪除剪裁范圍以外的區(qū)間的活動(dòng)圖像數(shù)據(jù)時(shí)相比,想自動(dòng)剪裁后進(jìn)行再修改時(shí),僅再編輯元數(shù)據(jù)即可,能自由編輯。\n可是,上文中,為了進(jìn)行自動(dòng)剪裁,利用幀選擇部20輸出的起始幀和結(jié)束幀,但幀選擇部20輸出的起始幀在接收編輯媒體方的終端畫面也可定義為首先顯示的圖像。因此,本媒體編輯裝置的剪裁方法進(jìn)一步有用。即,設(shè)想將接收中的活動(dòng)圖像或保存的活動(dòng)圖像首先以靜止圖像(例如預(yù)映畫面或簡略畫面等)示出的情況。又將這時(shí)間的圖像定義為初始顯示用圖像。這時(shí),在接收終端的畫面顯示活動(dòng)圖像的第1幀圖像,例如圖4中A點(diǎn)的圖像,然而A點(diǎn)的圖像,其發(fā)送源用戶朝橫向放映,不適合用作預(yù)映或簡略介紹等的初始顯示圖像。因此,如圖5那樣,用元數(shù)據(jù)將起始幀定義為上述初始顯示用圖像。利用這種方法,本媒體編輯裝置不對接收終端重新發(fā)送初始顯示用靜止圖像,就能使放映適合作為初始顯示用圖像的朝正面的用戶的B點(diǎn)所對應(yīng)圖像幀最先顯示。在重新發(fā)送初始顯示用的靜止圖像時(shí),用區(qū)域提取部17和正面判定部18往起始時(shí)刻到結(jié)束時(shí)刻的方向進(jìn)行掃描,檢測出B點(diǎn)。將該B點(diǎn)作為初始顯示用圖像發(fā)送,則從接收著可看到朝正面的用戶圖像。\n編輯部21可對該初始用顯示圖像或活動(dòng)圖像的幀進(jìn)行圖像變換處理,例如進(jìn)行析像度變換處理。這樣,就能配合接收終端側(cè)顯示的彩色進(jìn)行顯示。\n由上文可知,根據(jù)本媒體編輯裝置由于判定用戶是否朝正面,能可靠地自動(dòng)剪裁相對端的消息部分,并且接收者可僅重放需要的部分。作為初始顯示用圖像,也可方便地設(shè)定合適的圖像。\n實(shí)施形態(tài)2實(shí)施形態(tài)2的媒體編輯裝置自動(dòng)進(jìn)行上述修飾處理,從而在接收終端畫面小的情況下,也能有效編制容易觀看的布局。\n首先,說明本實(shí)施形態(tài)設(shè)想的地方。利用可視函件等給對端發(fā)送媒體時(shí),該媒體通常不僅包含相應(yīng)的活動(dòng)圖像數(shù)據(jù),而且包含活動(dòng)圖像發(fā)送者的信息和件名等信息。圖6為接收這種可視函件的終端的畫面顯示例,如圖6所示,顯示畫面100上不權(quán)顯示對端發(fā)來的活動(dòng)圖像畫面叫,而且顯示包含發(fā)送者姓名、接收方、件名等的首部畫面101、文本的文章畫面102、涉及適當(dāng)裝飾的裝飾畫面103。\n用便攜終端那樣的窄小顯示畫面重放圖6的畫面時(shí),一般將總體縮小后顯示。然而,在窄小的顯示畫面內(nèi)進(jìn)行進(jìn)一步將總體縮小的顯示時(shí),難以觀看文本,而且活動(dòng)圖像數(shù)據(jù)中的對端臉部也變小,不合適。\n作為消息輸入的活動(dòng)圖像數(shù)據(jù),往往采用廣角攝像機(jī)取得,用戶可不必很介意照像機(jī)與被攝體的位置關(guān)系。因此,如圖6的活動(dòng)圖像畫面104那樣,包含很多用戶圖像以外的背景區(qū)。進(jìn)行總體縮小的顯示,則用戶的臉部進(jìn)一步減小,觀看困難,不合適。\n因此,本實(shí)施形態(tài)的媒體編輯裝置為了進(jìn)行顯示畫面僅顯示包含用戶的部分區(qū)域的布局處理,至少具有以下的組成部分。進(jìn)行實(shí)施形態(tài)1中所述的剪裁處理時(shí),可增加對應(yīng)的圖3的組成部分,因而省圖其說明。\n圖7為顯出實(shí)施形態(tài)2所涉及媒體編輯裝置功能結(jié)構(gòu)的框圖。圖7中,本媒體編輯裝置具有活動(dòng)圖像數(shù)據(jù)保存部14、發(fā)送數(shù)據(jù)保存部15、區(qū)域提取部17、布局編制部分22和素材數(shù)據(jù)保存部23。這些組成部分在圖2中執(zhí)行所述布局處理的一部分或全部。\n本媒體編輯裝置具有與實(shí)施形態(tài)1的媒體編輯裝置共同的結(jié)構(gòu)和運(yùn)作,因而共同的組成部分標(biāo)準(zhǔn)相同的符號,省略其說明。本實(shí)施形態(tài)中,聲音數(shù)據(jù)不是特別需要,因而活動(dòng)圖像數(shù)據(jù)保存部14可保存與實(shí)施形態(tài)1相同的活動(dòng)圖像數(shù)據(jù),也可保存不包含聲音的圖像數(shù)據(jù)。\n圖7中,素材數(shù)據(jù)保存部23對應(yīng)于圖1的記錄部10,保存圖6所示的文本和裝飾用圖像數(shù)據(jù)等素材數(shù)據(jù)。布局編制部22根據(jù)用戶的操作,從素材數(shù)據(jù)23適當(dāng)讀出素材數(shù)據(jù),進(jìn)行包含修飾處理的布局處理。后文詳述。\n圖8為修飾處理例和顯示畫面例的示意圖。圖8中,其上部示出圖6所示對方發(fā)來的活動(dòng)圖像畫面104。由于以上說明的原因,該圖像為包含較多用戶區(qū)域以外的背景區(qū)的圖像。因此,如下文所述那樣僅對用戶區(qū)域進(jìn)行修飾,編制布局。\n首先,區(qū)域提取部17從活動(dòng)圖像數(shù)據(jù)保存部14所保存活動(dòng)圖像的各幀圖像提取包含用戶的一部分(例如臉部)或全部的區(qū)域。區(qū)域提取部17的這種動(dòng)作用以上所述的方法能方便地實(shí)現(xiàn)。該提取區(qū)域可為任何形狀。\n其次,布局編制部22根據(jù)區(qū)域提取部17提取的區(qū)域,計(jì)算活動(dòng)圖像數(shù)據(jù)中要顯示的部分區(qū)域。圖8中,用活動(dòng)圖像畫面104內(nèi)的粗線方框示出部分區(qū)域。\n布局編制部22進(jìn)而組合該部分區(qū)域?qū)?yīng)的圖像和用戶預(yù)先設(shè)定的素材數(shù)據(jù)(文本和圖像等),編制布局。圖8中,編制成的顯示畫面200除部分區(qū)域所對應(yīng)的活動(dòng)圖像204外,和圖6相同,還顯示首部畫面201、文章畫面202和裝飾畫面203。這樣,在決定布局時(shí),活動(dòng)圖像數(shù)據(jù)自動(dòng)形成小的部分區(qū)域的圖像,從而在小的顯示畫面也能容易到顯示。\n這里,布局編制部22通常制成決定活動(dòng)圖像數(shù)據(jù)和素材數(shù)據(jù)的布局的元數(shù)據(jù)的布局的元數(shù)據(jù)。因此,即使對布局編制部22設(shè)定的部分區(qū)域,同樣是元數(shù)據(jù)方式的,容易處理,較方便。\n圖9為這種部分區(qū)域的元數(shù)據(jù)描述例示意圖。圖9的例子與實(shí)施形態(tài)1相同,也用MPEG-7格式進(jìn)行描述。這里,描述為各幀用實(shí)施形態(tài)1所述的“VideoSegment?DS”,并且用“Still?Region?DS”設(shè)定分別位于各幀的部分區(qū)域。這種情況下,關(guān)于區(qū)域指定信息,則用“Contour?Shape”描述作為部分區(qū)域的矩形形狀(圖中頂點(diǎn)數(shù)為4)和矩形座標(biāo)(圖中未示出)。\n這樣采用元數(shù)據(jù)時(shí),不像從活動(dòng)圖像數(shù)據(jù)切出部分區(qū)域編制新活動(dòng)圖像數(shù)據(jù)時(shí)那樣,活動(dòng)數(shù)據(jù)容量變小。然而,接收終端的用戶可設(shè)定為根據(jù)愛好切換部分區(qū)域和全部區(qū)域進(jìn)行顯示,或者顯示其他部分區(qū),從而能配合接收終端的畫面大小和接收者的愛好,自由改變布局。當(dāng)然,這種情況下,對布局編制部22設(shè)定的部分區(qū)域,進(jìn)行初始設(shè)定由于最先顯示包含消息發(fā)送者的區(qū)域,較方便。\n利用MPEG-7,則不僅是圖9那樣每幀分別設(shè)定“StillRegion?DS”的方法,而且也可采用活動(dòng)區(qū)域信息“Moving?Region?DS”和聲像綜合區(qū)域信息“Audio?VisualRegion?DS”等。作為包含這些信息的基本定義,有表示多媒體內(nèi)容的一部分的“Segment?DS”的定義,但如果是基于該定義的DS,則可用數(shù)量較小的描述進(jìn)行與圖9所示描述相同的描述。\n如上文那樣,本實(shí)施形態(tài)的媒體編輯裝置解決定部分顯示區(qū)域,因而即使在帶攝像機(jī)的便攜終端那樣顯示畫面小的情況下,也能從容易觀看僅有被攝體的區(qū)域的方式在畫面內(nèi)進(jìn)行顯示。在按照元數(shù)據(jù)描述決定布局時(shí),即使在帶攝像機(jī)的便攜終端和PC終端那樣顯示畫面大小不同的情況下,接收者也能以最佳方式在畫面上進(jìn)行顯示。\n實(shí)施形態(tài)3實(shí)施形態(tài)3的媒體編輯裝置與實(shí)施形態(tài)2的修飾處理不同,可編制使活動(dòng)圖像顯示區(qū)域盡量多而且也顯示所需文本的布局。\n首先,說明本實(shí)施形態(tài)設(shè)想的地方。例如考慮將上述圖6的顯示畫面100修飾成活動(dòng)圖像畫面104的部分盡量大,并且在小畫面例如便攜電話的顯示畫面)進(jìn)行顯示的情況。這里,假設(shè)該小畫面上希望顯示“件名”、“文本”和活動(dòng)圖像,作為最低限度的信息。然而,實(shí)際上小畫面只能顯示活動(dòng)圖像的全部區(qū)域,除活動(dòng)圖像外,不存在顯示件名和文件的空間。圖10為這樣只能顯示活去圖像部分的畫面顯示例的示意圖。\n因此,本媒體編輯裝置結(jié)構(gòu)與實(shí)施形態(tài)2的媒體編輯裝置相同,同時(shí)區(qū)域提取部17和布局編制部22的運(yùn)作加加以改變,以便顯示上述文本信息。即,布局編制部22配置“件名”和“文本”等文本信息,使其對區(qū)域提取部17檢測的包含用戶的圖像區(qū)域不重疊或至少重疊程度小。下面詳細(xì)說明該運(yùn)作。\n首先,區(qū)域提取部17從活動(dòng)圖像數(shù)據(jù)檢測包含用戶的圖像區(qū)域,并計(jì)算該區(qū)域的位置和大小。其次,布局編制部22接收區(qū)域提取部17算出的該區(qū)域的位置和大小、素材數(shù)據(jù)保存部23保存的“件名”和“文本”等素材數(shù)據(jù)。進(jìn)而,布局編制部22對不與上述圖像區(qū)域重疊(或重疊程度小)的區(qū)域設(shè)定配置素材數(shù)據(jù)的區(qū)域。圖11為對與包含用戶的圖像區(qū)域不重疊的區(qū)域配置件名的顯示例,如圖11所示文件的件名配置在用戶頭部上方的空間,不重疊。因此,可編制不拘活動(dòng)圖像顯示區(qū)域大,也能進(jìn)行所需文件顯示的布局。\n布局編制部22也可將配置素材數(shù)據(jù)的區(qū)域設(shè)定為任意形態(tài)。該區(qū)域定義為冒出區(qū)域。常冒出區(qū)域帶邊框,并具有背景色(例如白色)。布局編制部22在該冒出區(qū)域內(nèi)寫入素材數(shù)據(jù)的內(nèi)容,即文本。圖12為對與包含用戶的圖像區(qū)域重疊程度小的區(qū)域配置文本的顯示例。如圖12所示,文本配置在用戶左側(cè)的空間,大致不重疊。因此,可編制拘活動(dòng)圖像顯示區(qū)域大,也能顯示所需文本的布局。\n圖12所示冒出區(qū)域的形狀,如溫畫等中常用的那樣,用戶口部附近具有成銳角的凸出部分,并且參照文本的字?jǐn)?shù),對不與上述圖像區(qū)域重疊(或重疊程度小)的區(qū)域設(shè)定冒出區(qū)域。\n最好上述布局所得畫面作為接收者終端的第1圖像(上述初始顯示用圖像)在畫面上顯示。即,接收者打開收到的函件時(shí),最先顯示圖11和圖12那樣的畫面。然后,接收者僅確認(rèn)件名和文本內(nèi)容。這里,在1員不能容納完文本內(nèi)容等情況下,進(jìn)行例如滾動(dòng)處理等。這樣,接收者僅在第1顯示畫面進(jìn)行文本等的確認(rèn),活動(dòng)圖像重放過程中則不進(jìn)行。然而,當(dāng)然也可構(gòu)成在活動(dòng)圖像重放中,以添加文本和件名等的方式進(jìn)行重放,從而能一面聽實(shí)際的活動(dòng)圖像消息,一面進(jìn)行確認(rèn)。\n顯示的文件內(nèi)容不限于件名和文本。而且,可首先顯示圖11那樣的畫面, 接著根據(jù)接收者的操作依次顯示圖12那樣的畫面;也可以同時(shí)合成這些畫面進(jìn)行顯示。這樣,對與包含用戶的圖像區(qū)域不重疊(或重疊程度小)的區(qū)域進(jìn)行配置,則可形成任何結(jié)構(gòu)。\n如上文那樣,本媒體編輯裝置即使在活動(dòng)圖像和文本混合的顯示畫面也能編制成接收者不混淆而且容易通過觀看確認(rèn)內(nèi)容的布局。通過采用冒出框的方式,可形成宛如圖像中的用戶正在談文件內(nèi)容那樣的畫面,從而激活與通信對端之間的通信。\n其次,最好布局編制部22與第1和第2實(shí)施形態(tài)一樣,編制決定布局的元數(shù)據(jù),以便進(jìn)行上述布局處理,即對活動(dòng)圖像寫入文本的處理。\n圖13為有關(guān)這種布局處理的元數(shù)據(jù)描述例示意圖。圖13的例子與實(shí)施形態(tài)1和2相同,用MPEG-7格式進(jìn)行描述,按照“Media?Duration”的值,即按照由媒體規(guī)定點(diǎn)表示的長度,以疊加的形式表示夾在“Text”標(biāo)記中間的字面含義。這樣,利用元數(shù)據(jù)進(jìn)行描述,可顯示文本,而不實(shí)際進(jìn)行將文本嵌入活動(dòng)圖像的處理。\n實(shí)施形態(tài)4實(shí)施形態(tài)4的媒體編輯裝置用區(qū)域提取部17提取臉部區(qū)域選擇該臉面區(qū)域?qū)?yīng)的人物圖像,從而擴(kuò)大消息表現(xiàn)變化式樣,用戶能表現(xiàn)快樂,可促進(jìn)通信順利。\n首先說明本實(shí)施形態(tài)設(shè)想的地方。如上文所述,利用圖像的函件通過增加裝飾,可制成提高歡樂性的函件。尤其如娛樂中心的自動(dòng)攝像裝置那樣,那本人的圖像添加漫畫、三維圖畫等構(gòu)成的人物,更具有提高歡樂性和便于親近感的效果。圖14為這樣添加人物的可視函件接收終端顯示畫面例的示意圖。如圖14所示,顯示畫面400上添加包含發(fā)送者姓名、接收方、件名等的首部畫面401、文本的文章畫面402,對方發(fā)來的活動(dòng)圖像畫面404,而且和人物畫面403一起示出。以上那樣構(gòu)成可視函件的接收畫面,則可以說接收者增加對該函件的親近感。\n用戶選擇這種人物時(shí),添加與活動(dòng)圖像的圖像和內(nèi)容無關(guān)的人物相比,要求希望選擇與圖像有關(guān)的人物的居多。本實(shí)施形態(tài)的媒體編輯裝置在顯示畫面的圖像是臉部圖像時(shí),布局處理中選擇與該臉部圖像對應(yīng)的人物。下文中,將上術(shù)述那樣增添人物的函件稱為“人物函件”。\n圖15為示出實(shí)施形態(tài)4所涉及媒體編輯裝置功能結(jié)構(gòu)的框圖。本媒體編輯裝置具有活動(dòng)圖像數(shù)據(jù)保存部14、發(fā)送數(shù)據(jù)保存部15、區(qū)域提取部17、正面判定部18、編輯部26、人物選擇部24、人物數(shù)據(jù)庫25。這些組成部分執(zhí)行圖2中所由局處理的一部分或全部。\n本媒體編輯裝置具有與實(shí)施形態(tài)1的媒體編輯裝置共同的結(jié)構(gòu)和運(yùn)作,因而共同的組成部分標(biāo)注可同的符號,省略其說明。但是,本實(shí)施形態(tài)中,聲音數(shù)據(jù)非特別需要,因而活動(dòng)圖像數(shù)據(jù)保存部14可保存與實(shí)施形態(tài)1相同的活動(dòng)圖像數(shù)據(jù),也可保存不包含聲音的圖像數(shù)據(jù)。進(jìn)行實(shí)施形態(tài)1中所述的剪裁處理時(shí)可增加對應(yīng)的圖3的組成部分,因而省略其說明。與上文所述相同,正面判定部18也可以是臉朝指定向判定部。\n正面,說明本媒體編輯裝置的運(yùn)作。區(qū)域提取部17和正面定部18,其運(yùn)作與實(shí)施形態(tài)1時(shí)相同,判定活動(dòng)圖像中的圖像是否用戶正面圖像,并將判定結(jié)果輸入編輯部26。編輯部26將判定為正面圖像的圖像輸入到人物選擇部24。人物選擇部24根據(jù)該圖像從各種人物數(shù)據(jù)庫化后加以保存的人物數(shù)據(jù)庫25選擇1個(gè)或多個(gè)后補(bǔ)人物,并將所選人物對應(yīng)的人物ID輸入到編輯部26。\n這里,人物選擇部24從人物數(shù)據(jù)庫25保存數(shù)多個(gè)人物選擇后補(bǔ)人物。本實(shí)施形態(tài)中,提取所述正面畫像中臉部的特征,選擇人物數(shù)據(jù)庫25保存的1個(gè)或多個(gè)人物。\n也就是說,人物數(shù)據(jù)庫25預(yù)先登記2維人物圖像數(shù)據(jù)和用計(jì)算機(jī)圖形法制成的3維人物結(jié)構(gòu)數(shù)據(jù)等人物圖,該人物對應(yīng)的臉部特征和相應(yīng)的人物ID,作為人物信息。人物選擇部24參照從編輯部輸入的正面圖像中的臉部特征,從人物數(shù)據(jù)庫25選擇具有與該臉部特征一致或類似的臉部特征的1個(gè)以上人物圖像。作為上述臉部特征,可考慮臉部大小、臉部長寬比、臉的部位特征等特征量。作為臉的部位特征,可考慮例如眼鼻口大小、眼鼻口位置關(guān)系、毛發(fā)量和顏色等特征量。是否戴眼鏡等也可用作臉部特征。\n進(jìn)一步詳細(xì)說明臉部特征量。圖16為采用頭發(fā)特征的臉部特征量的示例說明圖。圖16示出6個(gè)不同用戶的攝影圖像、相應(yīng)的圖像處理結(jié)果、相應(yīng)的特征量和相應(yīng)的特征表現(xiàn)。攝影圖像與照片圖像相同,但為了便于看圖,畫成肖像畫。作為臉部特征,示出特征量和特征表現(xiàn),但僅為其中一方也可,還可用其他值或表現(xiàn)。\n圖16中,處理結(jié)果以黑頭發(fā)為前提,示出進(jìn)行提取攝影圖像黑區(qū)的處理的結(jié)查。當(dāng)然,即使頭發(fā)為黑色以外的顏色,通過提取了發(fā)色同色的區(qū)或也同樣有進(jìn)行處理。作為特征量,示出歸一化面積和歸一化周長兩個(gè)例子。歸一化面積是指用臉部面積除頭發(fā)面積進(jìn)行歸一化后的值。歸一化周長是指用臉部周長除發(fā)部周長進(jìn)行歸一化的值,發(fā)量為與一般發(fā)量平均值比較進(jìn)行分類所得的類型表現(xiàn),具體而言,利用上述歸一化周長,比平均值小時(shí),發(fā)型表現(xiàn)為短發(fā);比平均值大時(shí),發(fā)型表現(xiàn)為長發(fā)。這樣利用提取的臉部特征量或其特征表現(xiàn),可從人物數(shù)據(jù)庫選擇類似的1個(gè)以上人物圖像。\n作為上述臉部特征量提取方法,以往已揭示種種技術(shù)。例如,山口等人著“臉部朝向和表情變化方面單靠的臉部識別系統(tǒng):Smartface“(電子信息通信學(xué)會論文志Vol.J84-D-11-No.6)揭示的方法用部分空間檢測臉部區(qū)域,并利用隔離度濾波器檢測眼、鼻、口等臉的部位。本媒體編輯裝置通過利用至少一種公知的技術(shù),能方便地提取臉部特征量。\n為了參照提取的臉部特征量,選擇人物數(shù)據(jù)庫25登記的各后補(bǔ)人物,可用上述特征表現(xiàn),也可計(jì)算與登記的臉部特征量的相關(guān)值,這里,超過計(jì)算設(shè)定為適合作后補(bǔ)的提了門限值的相關(guān)值時(shí),提取該人物作為后補(bǔ)。人物選擇部24將提取的后補(bǔ)人物后對應(yīng)的人物ID通知編輯部26。\n編輯部26根據(jù)通知的人物ID,對用戶顯示作為后補(bǔ)的人物圖像。圖17為選擇所用人物的編輯畫面示意圖。圖17中,示出3個(gè)后補(bǔ)人物,箭號為表示用戶要選擇的人物的光標(biāo)。當(dāng)然,可以不用光標(biāo),而用使要選擇的人物圖像翻轉(zhuǎn),或者加粗邊框等方法。\n在圖17那樣的編輯畫面的基礎(chǔ)上,用戶選將使用的人物。編輯部26對生成描述所選人物ID的元數(shù)據(jù)的媒體進(jìn)行編輯,從而產(chǎn)生發(fā)送數(shù)據(jù)。當(dāng)然,也可將人物圖像本身編入發(fā)送數(shù)據(jù)。這樣產(chǎn)生的發(fā)送數(shù)據(jù)保存在發(fā)送數(shù)據(jù)保存部15,并以適當(dāng)?shù)亩〞r(shí)按地址發(fā)送給接收者。\n圖18為接收上述那樣產(chǎn)生的發(fā)送數(shù)據(jù)時(shí)接收終端畫面的示意圖。如圖18所示,在接收終端畫面的下側(cè),顯示作為發(fā)送者的用戶選擇的人物。在例如重放活動(dòng)圖像消息時(shí),可不顯示該人物,而在該顯示位置顯示活動(dòng)圖像。這樣的布局,可由編輯部編制,也可在接收端設(shè)定。\n成為后補(bǔ)的人物可以是1個(gè),這時(shí)不進(jìn)行后補(bǔ)選擇,可較簡單方便地編制函件。\n編輯部26也可對人選擇部24通知表示用戶輸入的特征量的字符串(上述特征表現(xiàn)等)。例如,用戶輸入“毛發(fā)量多,短發(fā)”的字符串。這樣,人物選擇部24就將其以人物數(shù)據(jù)庫25所保存圖16所示那樣特征表現(xiàn)核對,從而能選擇后補(bǔ)人物。這樣通過用字符串表示特征量,本媒體編輯裝置能選擇進(jìn)一步接近用戶意圖的人物的后補(bǔ)人物。\n如上所述,本媒體編輯裝置不僅是全部組成部分收裝在一個(gè)殼體的一體型裝置,而且可以是各組成部分通過網(wǎng)絡(luò)和通信線路進(jìn)行數(shù)據(jù)收發(fā)的分散型裝置。因此,可考慮例如人物選擇部24和人物數(shù)據(jù)庫25可通過網(wǎng)絡(luò)接入且拉于與本媒體編輯裝置不同的地方的情況。圖20為示出這種分散型媒體編裝置或系統(tǒng)的結(jié)構(gòu)的框圖。\n圖20中,這種分散型媒體編輯裝置包含具有實(shí)施形態(tài)1-3所涉及媒體編輯裝置的部分或全部功能的人物函件編輯終端501、設(shè)置在與人物函件編輯終501不同的地方的人物選擇部724和人物數(shù)據(jù)庫725。這些組成部分通過網(wǎng)絡(luò)600相互連接。這種分散型媒體編輯裝置也具有與上述一體型媒體編輯裝置相同的結(jié)構(gòu)以進(jìn)行運(yùn)行,因而可得相同的效果。圖20的分散型媒體編輯裝置,其人物選擇部724和人物數(shù)據(jù)庫725也可由人物函件編輯終端以外的終端(例如對函件進(jìn)行接收的人物函件接收終端502等使用。即,在進(jìn)行接收時(shí),接收人物函件所含人物ID的人物函件接收終端502可僅接收來自人物數(shù)據(jù)庫725的人物圖像,因而終端本身不需要保持許多數(shù)據(jù)。即使在人物函件接收終端502回送信息時(shí)作為媒體編輯裝置運(yùn)作的情況下,也能共用人物選擇部724和人物數(shù)據(jù)庫725。\n這樣,分散型媒體編輯裝置,其人物選擇部724和人物數(shù)據(jù)庫725可由多個(gè)用戶共用,因而各終端不需要內(nèi)設(shè)這些組成部分,而且能利用保存許多人物的數(shù)據(jù)庫。\n總之,利用本媒體編輯裝置,則用戶可用從所拍攝活動(dòng)圖像提取的正面圖像,從登記的許多人物縮小后補(bǔ)人物的范圍,方便地選擇喜歡的人物,編制人物函件,借助采用這種人物函件,能激活與通信對端之間的通信。發(fā)明聯(lián)系當(dāng)前認(rèn)為最現(xiàn)實(shí)且最佳的實(shí)施例進(jìn)行了說明,但本發(fā)明不受所揭示實(shí)施例的限制。
法律信息
- 2021-09-28
專利權(quán)有效期屆滿
IPC(主分類): H04L 12/16
專利號: ZL 01133068.6
申請日: 2001.09.12
授權(quán)公告日: 2005.05.04
- 2014-08-13
專利權(quán)的轉(zhuǎn)移
登記生效日: 2014.07.21
專利權(quán)人由松下電器產(chǎn)業(yè)株式會社變更為松下電器(美國)知識產(chǎn)權(quán)公司
地址由日本國大阪府變更為美國加利福尼亞州
- 2005-05-04
- 2003-07-09
實(shí)質(zhì)審查的生效
實(shí)質(zhì)審查的生效
- 2002-04-10
引用專利(該專利引用了哪些專利)
序號 | 公開(公告)號 | 公開(公告)日 | 申請日 | 專利名稱 | 申請人 | 該專利沒有引用任何外部專利數(shù)據(jù)! |
被引用專利(該專利被哪些專利引用)
序號 | 公開(公告)號 | 公開(公告)日 | 申請日 | 專利名稱 | 申請人 | 該專利沒有被任何外部專利所引用! |