Sep 12

Водещи европейски експерти в сферата на езиковите технологии предупреждават в ново изследване, че шансът на много от европейските езици да оцелеят в дигиталната епоха не е голям.

Според ново изследване на водещи европейски експерти в сферата на езиковите технологии повечето европейски езици са заплашени от дигитална смърт. След оценка на състоянието на езиковите технологии за 30 от близо 80-те езика, които се говорят в Европа, експертите достигнаха до извода, че езиковите технологии за 21 от 30-те изследвани езика или „са недоразвити”, или са „слабо развити”. Изследването е проведено от Европейската мрежа за върхови постижения META-NET, в която членуват 60 изследователски центъра от 34 страни, сред които е и Институтът за български език „Проф. Любомир Андрейчин”.

Проучването е проведено от над 200 експерти и е обобщено в Бели книги за различните езици (30 на брой), които са публикувани от META-NET (печатни издания и онлайн) и включват обзор и оценка на състоянието на наличните езикови технологии за всеки език в четири различни категории: автоматичен превод, обработка и синтез на реч, анализ на текст и общо състояние на езиковите ресурси. В поне една от тези категории 21 от 30-те езика (т. е. 70%) получават най-ниската оценка (т. е. за тях липсват езикови технологии или съществуващите технологии са недоразвити), като за български категорията със слаба оценка е автоматичният превод.

Няколко езика, сред които исландски, латвийски, литовски и малтийски, получават най-ниска оценка и в четирите категории. Състоянието на наличните езикови ресурси и технологии не е оценено като „отлично” за нито един език, ресурсите за английски получават висока оценка, след това се нареждат холандски, френски, немски, италиански и испански език, които са оценени като „средно развити”.

Технологиите и ресурсите за езици като баски, български, каталански, гръцки, унгарски и полски са категоризирани като „фрагментарно развити”, което означава, че са сред езиците с висок риск от отмиране в дигиталната епоха.

Тоест, за момента българският език (получил средна оценка в категориите обработка на реч, анализ на текст и общо състояние на езиковите ресурси) не е застрашен, но ситуацията би могла да се промени значително с навлизането на ново поколение технологии, използващи наистина ефективно естествените езици.

„Резултатите от проведения от нас анализ са силно обезпокоителни. По-голямата част от европейските езици не разполагат с достатъчно количество адекватни ресурси, които да гарантират оцеляването им в епохата на развити технологии, а при някои езици дори нуждата от такива ресурси не е била осъзната. Поради тази причина и бъдещето на много от европейските езици е неясно”, казва проф. Ханс Уцкорайт, координатор на инициативата META-NET, научен директор на Германския център за проучване на изкуствения интелект (DFKI) и един от авторите и редакторите на изследването. Друг от редакторите – Георг Рем (DFKI), добавя: „Наблюдаваме драстично разминаване в равнището на състоянието и достъпа до езиковите технологии за различните европейски езици и за различните технологични области. Пропастта между т. нар. „големи” и „малки” езици продължава да се разширява. Трябва да положим усилия, за да осигурим адекватна технологична подкрепа за всички по-малки езици, за които липсват нужните ресурси и технологии. В противен случай те за застрашени от дигитална смърт.”

Под езикови технологии най-общо се разбира софтуер, който може да обработва говорима и писмена човешка реч. Добре познати приложения на такъв софтуер са програмите за правописна и граматична корекция и за синтез на реч (като SpeechLab 2.0 за български), интерактивните лични асистенти на смартфоните (например Siri за iPhone), диалоговите системи за обработка на въпроси по телефона, системите за автоматичен превод (като WebTrance на SkyCode), уеб търсачките, както и синтезаторите на реч в навигационните системи за автомобили.

Съвременните системи, базирани на езикови технологии, разчитат предимно на статистически методи, които изискват голям обем данни от писмена и устна реч. За езици със сравнително малък брой носители необходимият обем езикови данни се набира трудно – българският език например е в незавидна ситуация в сравнение с езици като френски, които се използват от цялата френскоговоряща общност. Освен това при компютърните системи, които се базират на статистическа обработка на езика, качеството на генерираните данни не е задоволително, както се вижда от грешните преводи, които се предлагат от онлайн системите за машинен превод.

Европа непрестанно доказва, че успешно преодолява повечето граници (видими и невидими) между държавите на континента. Все още обаче съществува една граница, която е непокътната – невидимата езикова бариера, която спира свободния обмен на знания и информация. Тази бариера пречи и на реализацията на дългогодишната идея за изграждане на единен дигитален пазар, тъй като именно езиковото неразбиране пречи на свободния обмен на стоки, продукти и услуги. И макар че езиковите технологии имат потенциала да преодолеят езиковите бариери чрез съвременните системи за машинен превод, резултатите от обзора, публикуван от META-NET, ясно показват, че много от европейските езици все още не са подготвени за бъдещето.

Наблюдават се съществени липси в наличните технологии, тъй като повечето научно-изследователски инициативи в областта поставят твърде голям акцент и отделят много време, средства и усилия за развитие на технологии и ресурси за английски език. Повечето познати системи са изградени около и/или са насочени към английски и поддържат превод от и на малко други езици (български например), а и няма унификация, така че се налага потребителите да усвоят различни методи за работа с различните системи. За разработването на езикови технологии за останалите езици (освен английски) не са били поемани нито политически, нито финансови ангажименти и липсва ясна изследователска и технологична визия за развитие.

В момента Европа полага координирани мащабни усилия за разработване на липсващите езикови технологии, както и за техния трансфер между отделните езици. Европейският съюз има достатъчно причини да поеме това огромно предизвикателство в рамките на обща инициатива, обединяваща страните членки, асоциираните държави и бизнеса. Сред тези причини са финансовата тежест, изчислена на глава от населението за по-малките езикови общности; нуждата от трансфер на технологии между езиците; оперативната несъвместимост на ресурсите, компютърните системи и услугите; както и фактът, че езиковите граници често не съвпадат с политическите. Европа трябва да предприеме необходимите действия, за да подготви езиците, които се говорят на територията ѝ, за живот в дигиталната епоха, тъй като тези езици са ценна част от европейското културно наследство и заслужават да са с нас и занапред.

На 26 септември Съветът на Европа отбелязва Европейския ден на езиците, на който се чества езиковото многообразие и се подчертава значението на развитието на богатите езикови и културни ресурси, с които разполага нашият континент. Задачата на META-NET е ясно да очертае предизвикателствата и възможностите, които очакват езиковото ни наследство в информационната епоха.

Защо езикови технологии?
Езиковите технологии ни помагат в изпълнението на ежедневните ни задължения, например при писане на имейли или покупка на билети. Разчитаме на езиковите технологии и когато търсим информация по интернет или превеждаме уеб страници; когато проверяваме написаното с програмите за правописна и граматична корекция; когато управляваме с гласови команди системите, вградени в нашия автомобил или в мобилния ни телефон; когато преглеждаме препоръките в онлайн книжарниците; когато следваме инструкциите на приложенията за мобилна навигация. В близко бъдеще ще можем да говорим на компютърните програми, на машините и на редица други устройства, включително на дългоочакваните роботи, които ще ни обслужват в дома ни и на работните ни места. Където и да сме, когато се нуждаем от информация, просто ще я потърсим, а когато се нуждаем от помощ, просто ще я поискаме на глас. Премахването на комуникационната бариера между хората и компютрите ще промени нашия свят.
Днес езиковите технологии са една от ключовите области за развитие в света на информационните технологии. Големи международни корпорации като Google, Microsoft, IBM и Nuance насочват сериозни инвестиции към това поле. В Европа стотици малки и средноголеми компании са се специализирали в разработване на определени езиково-технологични приложения и услуги. Езиковите технологии позволяват на хората да си сътрудничат, да учат, да правят бизнес, да споделят знания, независимо от езиковите и компютърните си умения.

Серията от Бели книги на META-NET
Белите книги на META-NET, издавани в серията „Езиците в европейското информационно общество” (“Languages in the European Information Society”), предлагат анализ на достъпа до езикови технологии за 30 европейски езика и хвърлят светлина върху най-непосредствените рискове и възможности за развитие. Книгите в серията представят всички официални езици на страните членки на ЕС, както и няколко други езика, които се говорят на територията на Европа. Макар да са били публикувани редица ценни и изчерпателни научни изследвания върху някои аспекти от развитието на езиковите технологии, до този момент липсва обзор, който да е достъпен за по-широката публика и да представя основните факти, развитието и предизвикателства пред европейските езици по пътя към технологично развитото многоезиково бъдеще на Европа. Серията Бели книги, подготвени от META-NET, запълва именно тази липса. Анализът на експертите на META-NET показва защо повечето европейски езици изпитват сериозни проблеми в дигиталното пространство и посочва онези липси, които са най-опасни за бъдещето на европейските езици. Над 200 автори и консултанти са участвали в изготвянето на Белите книги.
Следните европейски езици имат своя Бяла книга: баски, български, каталански, хърватски, чешки, датски, холандски, английски, естонски, фински, френски, галисийски, немски, гръцки, унгарски, исландски, ирландски, италиански, латвийски, литовски, малтийски, норвежки (букмол и ниноршк), полски, португалски, румънски, сръбски, словашки, словенски, испански и шведски. Бялата книга за всеки език е изготвена на съответния език и включва превод на английски.

За META-NET и META
Мрежата за върхови постижения META-NET обединява 60 изследователски центъра от 34 страни, водени от общата цел за изграждане на технологичните основи на многоезиковото европейско информационно общество. META-NET е съфинансирана от Европейската комисия по четири проекта.
META-NET изгражда многоезиковия европейски технологичен алианс META (Multilingual Europe Technology Alliance), към който вече са се присъединили над 600 организации от 55 страни, включително изследователски центрове, университети, малки и средни фирми, както и няколко големи компании.

Писмото в оригинал

На този линк може да се види къде досега е публикувано съобщението за Белите книги и МЕТА-НЕТ.
http://www.meta-net.eu/whitepapers/press-coverage


At Least 21 European Languages in Danger of Digital Extinction  (текста на съобщението в PDF)

Good News and Bad News on the European Day of Languages

Most European languages are unlikely to survive in the digital age, a new study  by Europe’s leading Language Technology experts warns. Assessing the level of  support through language technology for 30 of the approximately 80 European  languages, the experts conclude that digital support for 21 of the 30 languages  investigated is “non-existent” or “weak” at best. The study “Europe’s Languages  in the Digital Age” was carried out by META-NET, a European network of  excellence that consists of 60 research centres in 34 countries, working on the  technological foundations of multilingual Europe.

Europe must take action to prepare its languages for the digital age. They are a  precious component of our cultural heritage and, as such, they deserve  future-proofing. The European Day of Languages on September 26 recognises the  importance of fostering and developing the rich linguistic and cultural heritage  of our continent. The META-NET study shows that, in the digital age,  multilingual Europe and its linguistic heritage are facing challenges but also  many possibilities and opportunities.

The study, prepared by more than 200 experts and documented in 30 volumes of the  META-NET White Paper Series (available both online and in print), assessed  language technology support for each language in four different areas: automatic  translation, speech interaction, text analysis and the availability of language  resources. A total of 21 of the 30 languages (70%) were placed in the lowest  category, “support is weak or non-existent” for at least one area by the  experts. Several languages, for example, Icelandic, Latvian, Lithuanian  and Maltese, receive this lowest score in all four areas. On the other end of  the spectrum, while no language was considered to have “excellent support”,  only English was assessed as having “good support”, followed by languages such  as Dutch, French, German, Italian and Spanish with “moderate support”.  Languages such as Basque, Bulgarian, Catalan, Greek, Hungarian and Polish  exhibit “fragmentary support”, placing them also in the set of high-risk languages.

“The results of our study are most alarming. The majority of European languages  are severely under-resourced and some are almost completely neglected. In this  sense, many of our languages are not yet future-proof.”, says Prof. Hans  Uszkoreit, coordinator of META-NET, scientific director at DFKI (German Research  Center for Artificial Intelligence) and, together with Dr. Georg Rehm (DFKI),  co-editor of the study. Dr. Georg Rehm adds:  “There are dramatic differences in  language technology support between the various European languages and  technology areas. The gap between ‘big’ and ‘small’ languages still  keeps widening. We have to make sure that we equip all smaller and  under-resourced languages with the needed base technologies, otherwise these  languages are doomed to digital extinction.”

The field of language technology produces software that can process spoken or  written human language. Well-known examples of language technology software  include spell and grammar checkers, interactive personal assistants  on smartphones (such as Siri on the iPhone), dialogue systems that work over  the phone, automatic translation systems, web search engines, and synthetic  voices used in car navigation systems. Today language technology systems  primarily rely on statistical methods that require incredibly large amounts of  written or spoken data. Especially for languages with relatively few speakers it  is difficult to acquire the needed mass of data. Furthermore, statistical  language technology systems have inherent limits in their quality, as can be  seen, for example, in the often amusing incorrect translations produced by  online machine translation systems.

Europe has succeeded in removing almost all borders between its countries. One  border still exists, however, and it seems to be impenetrable: the invisible  border of language barriers is one that hinders the free flow of knowledge and  information. It also harms the long-term goal of establishing a single digital  market because it hinders the free flow of goods, products, and services. While  language technology has the potential to get rid of language barriers through  modern machine translation systems, the results of the META-NET study clearly  show that many European languages are not yet ready. There are significant gaps  in technology due to the English-language focus of most R&D, a lack of  commitment and financial resources, and also a lack of a clear research and  technology vision.

A coordinated, large-scale effort has to be made in Europe to create the missing  technologies as well as transfer technology to the majority of languages. There  are strong reasons for approa­ching this immense challenge in a community effort  involving the EU, its member states and associated countries, as well as  industry: the high per-capita financial burden for smaller language communities;  the needed transfer of technologies between languages; the lack of  interoperability of resources, tools, and services; and the fact that linguistic  borders often do not coincide with political borders.

Language Technology: Background

Language technology already supports us in everyday tasks, such as writing  e-mails or buying tickets. We benefit from language technology when  searching for and translating web pages, using a word processor’s spell and  grammar checking features, operating our car’s entertainment system or our  mobile phone with spoken commands, getting recommendations in an online store,  or following the instructions spoken by a mobile navigation app. In the near  future, we will be able to talk to computer programs as well as machines and  appliances, including the long-awaited service robots that will soon enter  our homes and work places. Wherever we are, when we need information or help, we  will simply ask for it. Removing the communication barrier between people and  technology will change our world.

Language technology is generally acknowledged today as one of the key growth  areas in information technology. Large international corporations such as  Google, Microsoft, IBM, and Nuance have invested substantially in this area. In  Europe, hundreds of small and medium enterprises have specialised in  certain language technology applica­tions or services. Language technology  allows people to collaborate, learn, do business, and share knowledge across  language borders and independently of their computer skills.

The META-NET White Paper Series

The META-NET White Paper series “Europe’s Languages in the Digital Age” reports  on the state of 30 European languages with respect to Language Technology and  explains the most urgent risks and chances. The series covers all official EU  Member State languages and several other languages spoken in Europe. While there  have been a number of valuable and comprehensive scientific studies on certain  aspects of languages and technology, until now there has been no  generally understandable compendium that presents the main findings  and challenges for each language with regard to a technology-supported  multilingual Europe. The META-NET White Paper Series fills this gap. META-NET  can now show why most languages face serious problems and pinpoint the most  threatening gaps. In total, more than 200 authors and contributors helped  preparing the Language White Papers.

The white papers were written for the following European languages: Basque,  Bulgarian, Catalan, Croatian, Czech, Danish, Dutch, English, Estonian, Finnish,  French, Galician, German, Greek, Hungarian, Icelandic, Irish, Italian, Latvian,  Lithuanian, Maltese, Norwegian (bokmål and nynorsk), Polish, Portuguese,  Romanian, Serbian, Slovak, Slovene, Spanish, and Swedish. Each Language White  Paper is written in the language it reports upon and includes a complete English  translation.

About META-NET and META

META-NET, a Network of Excellence consisting of 60 research centres from 34  countries, is dedicated to building the technological foundations of  a multilingual European information society. META-NET is co-funded by  the European Commission through a total of four projects.

META-NET is forging META, the Multilingual Europe Technology Alliance. More than  600 organisations from 55 countries, including research centres,  universities, small and medium companies as well as several big enterprises,  have already joined this open technology alliance.

 

Background Information – Volumes – Press Releases – Quotes: * http://www.meta-net.eu <http://www.meta-net.eu/> http://www.meta-net.eu/whitepapers http://www.meta-net.eu/whitepapers/all-quotes-and-testimonials http://www.meta-net.eu/whitepapers/press-release (including ca. 30 translations  of this press release)

Contact: * Prof. Dr. Hans Uszkoreit Dr. Georg Rehm META-NET Office c/o DFKI GmbH Alt-Moabit 91c 10559 Berlin, Germany

Phone:       +49 30 23895-1833 Email: georg.rehm

dfki.de <mailto:georg.rehm

dfki.de>

Dr. Georg Rehm* Network Manager META-NET            facebook <http://www.facebook.com/georg.rehm>XING  <https://www.xing.com/profile/Georg_Rehm2>LinkedIn  <http://de.linkedin.com/in/georgrehm>META-NET <http://www.meta-net.eu> DFKI GmbH <http://www.dfki.de>, Alt-Moabit 91c, 10559 Berlin, Germany Phone: +49 30 23895-1833 – Fax: -1810 Mobile: +49 173 2735829 georg.rehm

dfki.de <mailto:georg.rehm

dfki.de>georg.rehm

meta-net.eu  <mailto:georg.rehm

meta-net.eu> Deutsches Forschungszentrum für Künstliche Intelligenz GmbH Firmensitz: Trippstadter Strasse 122, D-67663 Kaiserslautern Geschäftsführung: Prof. Dr. Dr. h.c. mult. Wolfgang Wahlster (Vorsitzender), Dr.  Walter Olthoff Vorsitzender des Aufsichtsrats: Prof. Dr. h.c. Hans A. Aukes Amtsgericht Kaiserslautern, HRB 2313

 

 

Comments are closed.