Четверг, 28.03.2024, 19:36
Вы вошли как Гость | Группа "Гости"Приветствую Вас Гость | RSS
[ Новые сообщения · Участники · Правила форума · Поиск · RSS ]
Модератор форума: Cost  
Форум » Завалинка » Понемногу обо всем » Русский для ботов и юзеров (Обсуждение информационного поля русского языка в интернете)
Русский для ботов и юзеров
ASTДата: Среда, 02.03.2011, 12:57 | Сообщение # 1
Генералиссимус
Группа: Администраторы
Сообщений: 1424
Репутация: 7
Статус: Offline
Русский 6-й язык по количеству статей в вики.
Русский на первом месте по активности в социальных сетях и форумах.
На сколько важно обязательно русифицировать новый софт и сетевые стартапы?

Рейтинг языков. _http://www.ethnologue.org/ethno_docs/distribution.asp?by=size_
 
ASTДата: Среда, 23.03.2011, 09:56 | Сообщение # 31
Генералиссимус
Группа: Администраторы
Сообщений: 1424
Репутация: 7
Статус: Offline
Quote (Cost)
В интернете появился первый сервис кириллической электронной почты.

Только наши уроды не подумали, что Каддафи не сможет отправлять теперь письма Путейцу. Ну нет у него такой клавиатуры!!!
 
googleduckДата: Четверг, 24.03.2011, 08:42 | Сообщение # 32
Генерал-лейтенант
Группа: Друзья
Сообщений: 735
Репутация: 3
Статус: Offline
Quote (Cost)
Естественно, чем меньше юзеров-носителей языка, тем меньше и количество статей на этом языке. Отсюда неполнота информации. Отсюда и не популярность обращений.
Уже становится очевидным, что мировые языки с популяцией носителей менее 100 млн. не способны формировать полноценное информационное поле.

Помимо количества носителей языка, существенное влияние на количество статей имеет наличие у страны проживания носителей значительной территории (загрузка данных ботами из географических справочников), продолжительная и интересная история (тем же ботам нужна пища из исторических справочников), наличие памятников мировой культуры, наличие массы выдающихся личностей, наличие забавной мифологии. Во всех этих пунктах русскому языку в значительной степени повезло. Это и огромная территория с массой туристических маршрутов, и множество исторических памятников, и плеяда выдающихся ученых, писателей, художников и др. деятелей. Пожалуй не раскручена достаточно только мифология, хотя и очень самобытна. На этом фронте надо ещё поработать. Хотя своя мифология есть у каждого народа, но ведь надо, чтобы она была интересна и в других странах, чтобы были перекрестные ссылки с другими разделами Википедии. Так что в отличии от Греции и Египта другим народам нужно сильно вложиться в промоушин своих божков на мировом информационном рынке.
На русском к тому же очень полезно создавать статьи по точным наукам, в особенности по астрономии - объектов для статей предполагается целое море, и сколько ещё найдется в будущем.

 
CostДата: Четверг, 24.03.2011, 14:19 | Сообщение # 33
Генералиссимус
Группа: Модераторы
Сообщений: 3651
Репутация: 9
Статус: Offline
Quote (Cost)
В бета-варианте "Яндекс.Перевод" использует русский, английский и украинский языки.

В аналогичном сервисе Гугла (Гугл-переводчик) представлены 40 языков, включая русский
 
googleduckДата: Четверг, 24.03.2011, 17:32 | Сообщение # 34
Генерал-лейтенант
Группа: Друзья
Сообщений: 735
Репутация: 3
Статус: Offline
Такой же сервис есть у Яху, но уже для 12 языков, также включая русский. Правда название у него прикольное Яху Бабель Фиш Yahoo! Babel Fish.
_http://ru.babelfish.yahoo.com/free_trans_service_
Забавно, что один и тот же текст с английского языка на русский Гугл и Яху переводят совсем по разному.
Нужно сравнить с Яндексом. Потом переводить всеми тремя и составлять средний арифметический текст.
 
ASTДата: Четверг, 24.03.2011, 20:39 | Сообщение # 35
Генералиссимус
Группа: Администраторы
Сообщений: 1424
Репутация: 7
Статус: Offline
Запость сюда со всех сервисов переводы. тТолько предложение надо выбрать позаковырестей!
 
googleduckДата: Пятница, 25.03.2011, 08:54 | Сообщение # 36
Генерал-лейтенант
Группа: Друзья
Сообщений: 735
Репутация: 3
Статус: Offline
А вот я поэкспериментирую.
Вот первая строчка американской декларации о независимости:

We hold these truths to be self-evident, that all men are created equal, that they are endowed by their Creator with certain unalienable Rights, that among these are Life, Liberty and the pursuit of Happiness.

Теперь варианты:
Comarade Google:Мы считаем эти истины являются самоочевидными, что все люди созданы равными, что они наделены их Творцом определенными неотчуждаемыми правами, к числу которых относятся жизнь, свобода и стремление к счастью.

Ms.Yahoo:Мы держим эти правды для того чтобы быть самоочевидны, т все люди созданный равный, то они обеспечены доходом их создателем с некоторыми unalienable правами, которые среди этих жизнь, вольность и преследование счастья.

Товарищ Яндекс:Мы держим эти истины являются самоочевидными, что все люди созданы равными, что они наделены создателем определенными неотъемлемыми правами, среди которых Жизнь, Свобода и стремление к счастью.

 
ASTДата: Пятница, 25.03.2011, 10:22 | Сообщение # 37
Генералиссимус
Группа: Администраторы
Сообщений: 1424
Репутация: 7
Статус: Offline
Quote (googleduck)
Товарищ Яндекс:

Победил... Все-таки надо не переводить "мусорные английские слова" и будет OK!
@Мы считаем эти истины самоочевидными@
 
googleduckДата: Понедельник, 28.03.2011, 10:21 | Сообщение # 38
Генерал-лейтенант
Группа: Друзья
Сообщений: 735
Репутация: 3
Статус: Offline
Да! Роботы пока даже при переводи самых известных и знаменитых тестов дают сбои и допускают ляпы. И в парах наиболее общеупотребительных языков. Что же будет в языках редких и реликтовых?

Добавлено (28.03.2011, 11:21)
---------------------------------------------
Налицо технология статистического перевода.

В процессе работы система анализирует огромные словарные базы парных фрагментов (фраз из двух-трех слов) – оригинал фрагмента и его перевод. Программа вычисляет наиболее вероятную последовательность слов выходного языка, которую она считает соответствующей переводу исходного текста.
Трудности перевода. Моя твоя не понимать.
_http://profcomunn.ru/?p=2404_
 
CostДата: Понедельник, 28.03.2011, 17:21 | Сообщение # 39
Генералиссимус
Группа: Модераторы
Сообщений: 3651
Репутация: 9
Статус: Offline
Quote (googleduck)
В процессе работы система анализирует огромные словарные базы парных фрагментов

Ну т.е. бот анализирует запасы адекватных переводов отдельных словосочетаний. И чем больше эти запасы для данной пары языков, тем выше качество перевода. Т.е. для пары языков с богатой коллекцией текстов по соответствующему направлению и с соответствующей терминологией будет более правильный перевод. Для крупных языков все в большем выигрыше, чем для мелких.
 
googleduckДата: Понедельник, 28.03.2011, 18:15 | Сообщение # 40
Генерал-лейтенант
Группа: Друзья
Сообщений: 735
Репутация: 3
Статус: Offline
Что значит "Крупных и мелких" языков? Влияет количество слов в языке или количество различных текстов? Например, количество статей в той же Википедии или вообще количество тестов в сети, или вообще количество текстов в истории нации?
Если только от количества слов, то как вообще зависит качество перевода, если в исходном языке есть 500 тыс слов, а в конечном языке только 50 000 слов?
 
ASTДата: Понедельник, 28.03.2011, 21:12 | Сообщение # 41
Генералиссимус
Группа: Администраторы
Сообщений: 1424
Репутация: 7
Статус: Offline
Просто в русском около 500 000 слов и с учетом падежей, склонений и спряжений будет около 4-5 млн. слов. В английском тоже около 500 000 (причем типа на одно слово smart ставят 20-30 значений!) с учетом всяких форм 2-3 млн. Плюс контекст - вот и трудности перевода.
В казахском (без новоязов) 60000-70000. Думаю машинный перевод будет не так уж и труден...
 
CostДата: Понедельник, 28.03.2011, 22:31 | Сообщение # 42
Генералиссимус
Группа: Модераторы
Сообщений: 3651
Репутация: 9
Статус: Offline
Оказывается существует рейтинг языков по количеству говорящих:

Русский язык в рейтинге на 8 месте. А казахский язык на 87 месте
Рейтинг
_http://ru.wikipedia.org/wiki/%D0%A1%D0%BF%D0%B8%D1%81%D0%BE%D0%BA_%D1%8F%D0%B7%D1%8B%D0%BA%D0%BE%D0%B2,_%D1%81%D0%BE%D1%80%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0_%D0% BF%D0%BE_%D1%87%D0%B8%D1%81%D0%BB%D0%B5%D0%BD%D0%BD%D0%BE%D1%81%D1%82%D0%B8_%D0%B3%D0%BE%D0%B2%D0%BE%D1%80%D1%8F%D1%89%D0%B8%D1%85_
Список языков по численности говорящих
_http://ru.wikipedia.org/wiki/%D0%A1%D0%BF%D0%B8%D1%81%D0%BE%D0%BA_%D1%8F%D0%B7%D1%8B%D0%BA%D0%BE%D0%B2,_%D1%81%D0%BE%D1%80%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0_%D0% BF%D0%BE_%D1%87%D0%B8%D1%81%D0%BB%D0%B5%D0%BD%D0%BD%D0%BE%D1%81%D1%82%D0%B8_%D0%B3%D0%BE%D0%B2%D0%BE%D1%80%D1%8F%D1%89%D0%B8%D1%85_
Список языков, упорядоченный по приблизительному количеству жителей мира, имеющих данный язык в качестве родного, данные энциклопедии Encarta изданной в 2009 году.
Почему ссылки на Вики отображаются в таком виде не знаю


Сообщение отредактировал Cost - Понедельник, 28.03.2011, 22:38
 
googleduckДата: Вторник, 29.03.2011, 09:56 | Сообщение # 43
Генерал-лейтенант
Группа: Друзья
Сообщений: 735
Репутация: 3
Статус: Offline
Думаю, что всё количество адекватных пар словосочетаний в двух языках соответствует количеству текстов на обоих языках по определенным терминологическим и отраслевым направлениям. При чем не просто переводных текстов, а текстов валидно и долговременно используемых в соответствующей отраслевой среде специалистов среди юзеров того и другого языка. Просто переведенная статья, например с английского, и размещенная, как текст в интернете, может оказаться и не очень валидной, если в прусском языке специалисты той же отрасли давно привыкли использовать несколько другие термины.
Поэтому играют роль правильное соответствие самих терминов, их соответствующее контекстное использование и правила использования этих терминов.
Вот при поиске этих соответствий и играют роль размеры и разнообразие языка.

И здесь вырисовывается особая роль русского языка в сети Интернет. Ясно, что количество пар валидных текстов с соответствующей терминологией между такими парами языков, как например русский язык и казахский язык намного больше, чем между казахским и английским (так уж сложилось исторически и политически). И в то же время между русским языком и английским языком достаточно количество таких текстов тоже достаточно велико.
Таким образом двойно

 
CostДата: Вторник, 29.03.2011, 14:59 | Сообщение # 44
Генералиссимус
Группа: Модераторы
Сообщений: 3651
Репутация: 9
Статус: Offline
Quote (googleduck)
Таким образом двойно

Что таким образом googleduck???

Вы что-то не досказали???

 
googleduckДата: Вторник, 29.03.2011, 17:43 | Сообщение # 45
Генерал-лейтенант
Группа: Друзья
Сообщений: 735
Репутация: 3
Статус: Offline
Сори, сори!
Интернет глюкнулся. А потом были дела ,,, работа...

И так, таким образом, как следует из уже вышеизложенного, двойной перевод с казахского на русский язык и далее на английский и соответственно - в обратном порядке, будет более точным нежели прямой перевод с казахского на английский и, соответственно, наоборот с английского на казахский.
Т.е. русский язык является как бы вспомогательным промежуточным языком для казахского в его усилиях по получению информации из мирового информационного поля, и, соответственно, по передаче информации в мировое информационное поле.
И такую функцию русский язык выполняет ещё для сотни с большим гаком малых языков бывшего СССР.
Это важная роль русского языка в мировом информационном пространстве, с одной стороны почетная, с другой стороны тяжелая и неблагодарная.

 
Форум » Завалинка » Понемногу обо всем » Русский для ботов и юзеров (Обсуждение информационного поля русского языка в интернете)
Поиск: