Русский для ботов и юзеров
|
|
AST | Дата: Среда, 02.03.2011, 12:57 | Сообщение # 1 |
Генералиссимус
Группа: Администраторы
Сообщений: 1424
Репутация: 7
Статус: Offline
| Русский 6-й язык по количеству статей в вики. Русский на первом месте по активности в социальных сетях и форумах. На сколько важно обязательно русифицировать новый софт и сетевые стартапы?
Рейтинг языков. _http://www.ethnologue.org/ethno_docs/distribution.asp?by=size_
|
|
| |
AST | Дата: Среда, 23.03.2011, 09:56 | Сообщение # 31 |
Генералиссимус
Группа: Администраторы
Сообщений: 1424
Репутация: 7
Статус: Offline
| Quote (Cost) В интернете появился первый сервис кириллической электронной почты. Только наши уроды не подумали, что Каддафи не сможет отправлять теперь письма Путейцу. Ну нет у него такой клавиатуры!!!
|
|
| |
googleduck | Дата: Четверг, 24.03.2011, 08:42 | Сообщение # 32 |
Генерал-лейтенант
Группа: Друзья
Сообщений: 735
Репутация: 3
Статус: Offline
| Quote (Cost) Естественно, чем меньше юзеров-носителей языка, тем меньше и количество статей на этом языке. Отсюда неполнота информации. Отсюда и не популярность обращений. Уже становится очевидным, что мировые языки с популяцией носителей менее 100 млн. не способны формировать полноценное информационное поле. Помимо количества носителей языка, существенное влияние на количество статей имеет наличие у страны проживания носителей значительной территории (загрузка данных ботами из географических справочников), продолжительная и интересная история (тем же ботам нужна пища из исторических справочников), наличие памятников мировой культуры, наличие массы выдающихся личностей, наличие забавной мифологии. Во всех этих пунктах русскому языку в значительной степени повезло. Это и огромная территория с массой туристических маршрутов, и множество исторических памятников, и плеяда выдающихся ученых, писателей, художников и др. деятелей. Пожалуй не раскручена достаточно только мифология, хотя и очень самобытна. На этом фронте надо ещё поработать. Хотя своя мифология есть у каждого народа, но ведь надо, чтобы она была интересна и в других странах, чтобы были перекрестные ссылки с другими разделами Википедии. Так что в отличии от Греции и Египта другим народам нужно сильно вложиться в промоушин своих божков на мировом информационном рынке. На русском к тому же очень полезно создавать статьи по точным наукам, в особенности по астрономии - объектов для статей предполагается целое море, и сколько ещё найдется в будущем.
|
|
| |
Cost | Дата: Четверг, 24.03.2011, 14:19 | Сообщение # 33 |
Генералиссимус
Группа: Модераторы
Сообщений: 3651
Репутация: 9
Статус: Offline
| Quote (Cost) В бета-варианте "Яндекс.Перевод" использует русский, английский и украинский языки. В аналогичном сервисе Гугла (Гугл-переводчик) представлены 40 языков, включая русский
|
|
| |
googleduck | Дата: Четверг, 24.03.2011, 17:32 | Сообщение # 34 |
Генерал-лейтенант
Группа: Друзья
Сообщений: 735
Репутация: 3
Статус: Offline
| Такой же сервис есть у Яху, но уже для 12 языков, также включая русский. Правда название у него прикольное Яху Бабель Фиш Yahoo! Babel Fish. _http://ru.babelfish.yahoo.com/free_trans_service_ Забавно, что один и тот же текст с английского языка на русский Гугл и Яху переводят совсем по разному. Нужно сравнить с Яндексом. Потом переводить всеми тремя и составлять средний арифметический текст.
|
|
| |
AST | Дата: Четверг, 24.03.2011, 20:39 | Сообщение # 35 |
Генералиссимус
Группа: Администраторы
Сообщений: 1424
Репутация: 7
Статус: Offline
| Запость сюда со всех сервисов переводы. тТолько предложение надо выбрать позаковырестей!
|
|
| |
googleduck | Дата: Пятница, 25.03.2011, 08:54 | Сообщение # 36 |
Генерал-лейтенант
Группа: Друзья
Сообщений: 735
Репутация: 3
Статус: Offline
| А вот я поэкспериментирую. Вот первая строчка американской декларации о независимости: We hold these truths to be self-evident, that all men are created equal, that they are endowed by their Creator with certain unalienable Rights, that among these are Life, Liberty and the pursuit of Happiness. Теперь варианты: Comarade Google:Мы считаем эти истины являются самоочевидными, что все люди созданы равными, что они наделены их Творцом определенными неотчуждаемыми правами, к числу которых относятся жизнь, свобода и стремление к счастью. Ms.Yahoo:Мы держим эти правды для того чтобы быть самоочевидны, т все люди созданный равный, то они обеспечены доходом их создателем с некоторыми unalienable правами, которые среди этих жизнь, вольность и преследование счастья. Товарищ Яндекс:Мы держим эти истины являются самоочевидными, что все люди созданы равными, что они наделены создателем определенными неотъемлемыми правами, среди которых Жизнь, Свобода и стремление к счастью.
|
|
| |
AST | Дата: Пятница, 25.03.2011, 10:22 | Сообщение # 37 |
Генералиссимус
Группа: Администраторы
Сообщений: 1424
Репутация: 7
Статус: Offline
| Quote (googleduck) Товарищ Яндекс: Победил... Все-таки надо не переводить "мусорные английские слова" и будет OK! @Мы считаем эти истины самоочевидными@
|
|
| |
googleduck | Дата: Понедельник, 28.03.2011, 10:21 | Сообщение # 38 |
Генерал-лейтенант
Группа: Друзья
Сообщений: 735
Репутация: 3
Статус: Offline
| Да! Роботы пока даже при переводи самых известных и знаменитых тестов дают сбои и допускают ляпы. И в парах наиболее общеупотребительных языков. Что же будет в языках редких и реликтовых?
Добавлено (28.03.2011, 11:21) --------------------------------------------- Налицо технология статистического перевода.
В процессе работы система анализирует огромные словарные базы парных фрагментов (фраз из двух-трех слов) – оригинал фрагмента и его перевод. Программа вычисляет наиболее вероятную последовательность слов выходного языка, которую она считает соответствующей переводу исходного текста. Трудности перевода. Моя твоя не понимать. _http://profcomunn.ru/?p=2404_
|
|
| |
Cost | Дата: Понедельник, 28.03.2011, 17:21 | Сообщение # 39 |
Генералиссимус
Группа: Модераторы
Сообщений: 3651
Репутация: 9
Статус: Offline
| Quote (googleduck) В процессе работы система анализирует огромные словарные базы парных фрагментов Ну т.е. бот анализирует запасы адекватных переводов отдельных словосочетаний. И чем больше эти запасы для данной пары языков, тем выше качество перевода. Т.е. для пары языков с богатой коллекцией текстов по соответствующему направлению и с соответствующей терминологией будет более правильный перевод. Для крупных языков все в большем выигрыше, чем для мелких.
|
|
| |
googleduck | Дата: Понедельник, 28.03.2011, 18:15 | Сообщение # 40 |
Генерал-лейтенант
Группа: Друзья
Сообщений: 735
Репутация: 3
Статус: Offline
| Что значит "Крупных и мелких" языков? Влияет количество слов в языке или количество различных текстов? Например, количество статей в той же Википедии или вообще количество тестов в сети, или вообще количество текстов в истории нации? Если только от количества слов, то как вообще зависит качество перевода, если в исходном языке есть 500 тыс слов, а в конечном языке только 50 000 слов?
|
|
| |
AST | Дата: Понедельник, 28.03.2011, 21:12 | Сообщение # 41 |
Генералиссимус
Группа: Администраторы
Сообщений: 1424
Репутация: 7
Статус: Offline
| Просто в русском около 500 000 слов и с учетом падежей, склонений и спряжений будет около 4-5 млн. слов. В английском тоже около 500 000 (причем типа на одно слово smart ставят 20-30 значений!) с учетом всяких форм 2-3 млн. Плюс контекст - вот и трудности перевода. В казахском (без новоязов) 60000-70000. Думаю машинный перевод будет не так уж и труден...
|
|
| |
Cost | Дата: Понедельник, 28.03.2011, 22:31 | Сообщение # 42 |
Генералиссимус
Группа: Модераторы
Сообщений: 3651
Репутация: 9
Статус: Offline
| Оказывается существует рейтинг языков по количеству говорящих:
Русский язык в рейтинге на 8 месте. А казахский язык на 87 месте Рейтинг _http://ru.wikipedia.org/wiki/%D0%A1%D0%BF%D0%B8%D1%81%D0%BE%D0%BA_%D1%8F%D0%B7%D1%8B%D0%BA%D0%BE%D0%B2,_%D1%81%D0%BE%D1%80%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0_%D0% BF%D0%BE_%D1%87%D0%B8%D1%81%D0%BB%D0%B5%D0%BD%D0%BD%D0%BE%D1%81%D1%82%D0%B8_%D0%B3%D0%BE%D0%B2%D0%BE%D1%80%D1%8F%D1%89%D0%B8%D1%85_ Список языков по численности говорящих _http://ru.wikipedia.org/wiki/%D0%A1%D0%BF%D0%B8%D1%81%D0%BE%D0%BA_%D1%8F%D0%B7%D1%8B%D0%BA%D0%BE%D0%B2,_%D1%81%D0%BE%D1%80%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0_%D0% BF%D0%BE_%D1%87%D0%B8%D1%81%D0%BB%D0%B5%D0%BD%D0%BD%D0%BE%D1%81%D1%82%D0%B8_%D0%B3%D0%BE%D0%B2%D0%BE%D1%80%D1%8F%D1%89%D0%B8%D1%85_ Список языков, упорядоченный по приблизительному количеству жителей мира, имеющих данный язык в качестве родного, данные энциклопедии Encarta изданной в 2009 году. Почему ссылки на Вики отображаются в таком виде не знаю
Сообщение отредактировал Cost - Понедельник, 28.03.2011, 22:38 |
|
| |
googleduck | Дата: Вторник, 29.03.2011, 09:56 | Сообщение # 43 |
Генерал-лейтенант
Группа: Друзья
Сообщений: 735
Репутация: 3
Статус: Offline
| Думаю, что всё количество адекватных пар словосочетаний в двух языках соответствует количеству текстов на обоих языках по определенным терминологическим и отраслевым направлениям. При чем не просто переводных текстов, а текстов валидно и долговременно используемых в соответствующей отраслевой среде специалистов среди юзеров того и другого языка. Просто переведенная статья, например с английского, и размещенная, как текст в интернете, может оказаться и не очень валидной, если в прусском языке специалисты той же отрасли давно привыкли использовать несколько другие термины. Поэтому играют роль правильное соответствие самих терминов, их соответствующее контекстное использование и правила использования этих терминов. Вот при поиске этих соответствий и играют роль размеры и разнообразие языка. И здесь вырисовывается особая роль русского языка в сети Интернет. Ясно, что количество пар валидных текстов с соответствующей терминологией между такими парами языков, как например русский язык и казахский язык намного больше, чем между казахским и английским (так уж сложилось исторически и политически). И в то же время между русским языком и английским языком достаточно количество таких текстов тоже достаточно велико. Таким образом двойно
|
|
| |
Cost | Дата: Вторник, 29.03.2011, 14:59 | Сообщение # 44 |
Генералиссимус
Группа: Модераторы
Сообщений: 3651
Репутация: 9
Статус: Offline
| Quote (googleduck) Таким образом двойно Что таким образом googleduck??? Вы что-то не досказали???
|
|
| |
googleduck | Дата: Вторник, 29.03.2011, 17:43 | Сообщение # 45 |
Генерал-лейтенант
Группа: Друзья
Сообщений: 735
Репутация: 3
Статус: Offline
| Сори, сори! Интернет глюкнулся. А потом были дела ,,, работа... И так, таким образом, как следует из уже вышеизложенного, двойной перевод с казахского на русский язык и далее на английский и соответственно - в обратном порядке, будет более точным нежели прямой перевод с казахского на английский и, соответственно, наоборот с английского на казахский. Т.е. русский язык является как бы вспомогательным промежуточным языком для казахского в его усилиях по получению информации из мирового информационного поля, и, соответственно, по передаче информации в мировое информационное поле. И такую функцию русский язык выполняет ещё для сотни с большим гаком малых языков бывшего СССР. Это важная роль русского языка в мировом информационном пространстве, с одной стороны почетная, с другой стороны тяжелая и неблагодарная.
|
|
| |