한국   대만   중국   일본 
語彙 마크업 틀 - 위키百科, 우리 모두의 百科事典 本文으로 移動

語彙 마크업 틀

위키百科, 우리 모두의 百科事典.

語彙 마크업 틀 (Lexical Markup Framework)는 自然言語處理 (NLP) 와 機械街毒型 事前 (MRD) 語彙 等의 構成에 必要한 一般 標準 틀을 定義하기 위해서 國際 標準化 機構 ISO/TC37 에서 進行 中인 作業이다. 課題의 範圍는 多重言語 疏通과 文化的 多樣性 에 關聯하여 言語資源에 關聯된 原則과 方法의 標準化 이다.

語彙 마크업 틀(LMF)의 目的 [ 編輯 ]

語彙 마크업 틀의 目標는 語彙 自願 을 生成하고 使用하기 위한 一般的 模型을 提供하고, 이런 自願들間의 데이터 交換을 管理하고, 많은 量의 個人的 電子 資源을 厖大한 國際 電子 資源으로 統合 可能하도록 하는 것이다.

語彙 마크업 틀(LMF)에서 個人的 예제의 形態는 單一言語, 이中 言語, 多重 言語의 語彙 資源을 包含할 수 있다. 같은 明細事項은 작거나 큰 語彙辭典, 簡單하거나 複雜한 語彙辭典, 文語나 口語의 語彙 表現 모두에 使用可能하다. 技術의 範圍는 形態 , 構文論 , 計算 意味論 , 機械補助 飜譯 等이다. 語彙 마크업 틀에 包含 可能한 言語는 유러彼岸 言語 에 局限하지 않고 모든 自然 言語 를 包括한다. 目標로 하는 自然言語處理 應用 프로그램 은 制限的이지 않다. 語彙 마크업 틀(LMF)은 워드넷 , EDR, PAROLE 等 大部分의 語彙 辭典을 表現할 수 있다.

語彙 마크업 틀(LMF)의 歷史 [ 編輯 ]

過去부터 語彙 標準化는 GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE, ISLE 等과 같은 課題를 통하여 硏究/開發되었다. 그 結果로, ISO/TC37 國家 代議員들은 自然言語處理와 語彙 表現을 標準化하기로 決定했다. 語彙 마크업 틀(LMF) 作業은 美國 代表에 依해서 公布된 새 作業項目 提案을 통하여 2003年 여름에 始作하였다. 2003年 가을에 프랑스 代表는 自然言語 語彙에 對한 데이터 模型 에 關한 技術 提案을 냈다. 2004年 秒에 ISO/TC37 委員會는 Nicoletta Calzolari(이탈리아)를 作業班長으로 하고 Gil Francopoulo (프랑스) 와 Monte George (美國)를 編輯者로 하는 一般 ISO 課題를 만들기로 決定했다. 以後 오늘에 이르기까지, 13版까지 쓰여졌고, (國家 專門家에게) 發送되었고, 批評을 받고, 多樣한 ISO 技術 會議에서 論議되고 있다.

現在 狀態 [ 編輯 ]

ISO 番號는 24613이다. 語彙 마크업 틀(LMF) 細部規定은 現在(2008年 3月) 國際 標準 最終案(Final Draft for International Standard)이다. 最終 發行을 2008年 9月까지 하려는 日程을 가지고 있다.

ISO/TC37 標準 中에 하나인 語彙 마크업 틀(LMF) [ 編輯 ]

ISO/TC37 標準은 現在 高水準의 細部規定 으로 다듬어지고 있고 單語 分割 (ISO 24614), 主席 (ISO 24611 aka MAF, ISO 24612 aka LAF, ISO 24615 aka SynAF, and ISO 24617-1 aka SemAF/Time), 特性 救助 (ISO 24610), 멀티미디어 可變空間 (ISO 24616 aka MLIF), 語彙 辭典 (ISO 24613) 等을 다루고 있다. 이러한 標準들은 常數, 다시 말해 데이터 分類(ISO 12620 改正), 言語 코드 ( ISO 639 ), 原稿 코드 ( ISO 15924 ), 國家 코드 ( ISO 3166 ), 유니코드 ( ISO 10646 ) 等에 關聯된 基初級의 規定化에 바탕을 두고 있다.

2 水準의 組織이 아래의 一般的이고 簡單한 規則을 가진 密接한 標準君을 構成한다.

  • 高水準의 規定化는 標準化된 常數를 가지고 꾸며지는 構造的 要素를 提供한다.
  • 基礎水準의 規定化는 메타데이터로 표준환된 常數를 提供한다.

語彙 마크업 틀(LMF)에 使用된 核心 標準 [ 編輯 ]

/女性/ 이나 /他動詞/ 같은 言語的 상수는 語彙 마크업 틀(LMF)에는 定義되지 않았다. 하지만, ISO/IEC 11179-3:2003 [1] 에 따라 ISO/TC37을 통하여 國際 資源으로써 維持되는 데이터 分類 登錄(Data Category Registry)에는 記錄되어 있다. 그리고, 이러한 常數들은 高水準의 構造的 要素를 修飾하는데 使用되곤 한다.

語彙 마크업 틀(LMF) 規定은 客體 管理 그룹 (OMG)에 따라 定義된 統合 模型 言語 (UML)의 模型化 原則을 따른다. 救助는 UML 클래스 다이아그램 에 依하여 規定된다. 그 例들은 UML 人스탄스(또는 客體) 다이아그램을 통하여 表現된다.

LMF 文書의 附錄에서 주어진 XML DTD 를 追加해 보자.

模型 救助 [ 編輯 ]

語彙 마크업 틀(LMF)는 다음과 같은 要素로 構成된다:

  • 語彙 項目에서 情報의 基本 體系를 記述하는 構造 骨格으로서 核心 패키지
  • 細部 語彙 資源에 要求되는 追加的인 要素를 連結하는 核心 要素의 再使用을 記述하는 틀안에서 表現되는 核心 패키지의 擴張

形態論 , MRD , NLP 構文論 , NLP 意味論 , NLP 多重言語 表記法 , NLP 形態的 樣式 , 多重單語 表現 樣式 , 制限 表現 樣式 에서 擴張이 具體的으로 이루어졌다.

簡單한 例題 [ 編輯 ]

아래의 예제를 보면, 語彙 項目은 標題語 clergyman 와 2個의 屈折型 clergyman , clergymen 로 이루어졌다. 言語 符號化는 全體 語彙 資源으로 이루어진다. 言語값은 아래 UML 예제 다이아그램에서 보는 바와 같이 全體 語彙로 이루어진다.

語彙 自願 , 全體 情報 , 語彙 , 語彙 項目 , 標題語 , 單語 形態 要素들은 語彙의 構造를 定義한다. 이런限 것들은 語彙 마크업 틀(LMF) 文書에서 規定化됐다. 이와 反對로, 言語符號化 , 言語 , 形態素 , 一般名詞 , 印刷型 , 文法 番號 , 斷水 , 復讐 等은 데이터 分類 登錄(DCR)에서 가져온 데이터 分類이다. 이러한 標示들은 構造를 整頓한다. ISO 639-3 , clergyman , clergymen 값들은 純粹 文字列이다. eng 값은 ISO 639-3 에서 定義된 言語 目錄에서 가져온다.

dtdVersion feat 같은 追加的인 情報를 가지고, 같은 데이터가 다음과 같은 XML 部分으로 表現될 수 있다:

<LexicalResource
 dtdVersion=
"15"
>

    <GlobalInformation>

        <feat
 att=
"languageCoding"
 val=
"ISO 639-3"
/>

    </GlobalInformation>

    <Lexicon>

        <feat
 att=
"language"
 val=
"eng"
/>

        <LexicalEntry>

            <feat
 att=
"partOfSpeech"
 val=
"commonNoun"
/>

            <Lemma>

                <feat
 att=
"writtenForm"
 val=
"clergyman"
/>

            </Lemma>

            <WordForm>

                 <feat
 att=
"writtenForm"
 val=
"clergyman"
/>

                 <feat
 att=
"grammaticalNumber"
 val=
"singular"
/>

            </WordForm>

            <WordForm>

                <feat
 att=
"writtenForm"
 val=
"clergymen"
/>

                <feat
 att=
"grammaticalNumber"
 val=
"plural"
/>

            </WordForm>

        </LexicalEntry>

    </Lexicon>

</LexicalResource>

이 예제는 매우 簡單한 예제이다. 語彙 마크업 틀(LMF)는 좀 더 複雜한 言語學的 技術을 表現할 수 있다. 다만 이러한 境遇에 XML 태깅度 더 複雜해진다.

함께 볼 것들 [ 編輯 ]

같이 보기 [ 編輯 ]

外部 링크 [ 編輯 ]

關聯 웹사이트 [ 編輯 ]

語彙 마크업 틀(LMF)에 關한 論議 內容 [ 編輯 ]

  • Gesellschaft fur linguistische Datenverarbeitung GLDV-2007/Tubingen: 自然言語處理 語彙에서 意味 情報를 위한 語彙 마크업 틀 ISO 標準 [2]
  • 言語資源과 評價 LREC-2006/Genoa: 語彙 마크업 틀(LMF) [3]

關聯 論議 [ 編輯 ]