User:Kaluga.2012/Draft

Аллегория системы категорий викисклада. Участники познают её на ощупь, путём проб и ошибок, и никому не суждено увидеть полную картину. Дополнительные материалы по теме приведены в соответствующей категории

В этом эссе положения, непосредственно заимствованные из действующих правил и руководств викисклада, приводятся обычным шрифтом на белом фоне, а развёрнутые комментарии и «оригинальные исследования» сложившейся практики - на сером фоне. Примеры реально существующих категорий приведены по состоянию на декабрь 2013 года.


Категории — средство программного обеспечения MediaWiki. Категорией в единственном числе называют специальную страницу, предназначенную для группировки страниц и файлов со сходным признаками. На практике это означает отнесение страницы или файла к определённой категории. Обычно содержание категории однозначно определяется её названием, но в некоторых случаях для идентификации категории может быть полезен поясняющий текст. Дерево категорий — основной способ каталогизации и поиска файлов на викискладе. Для того, чтобы любой загруженный файл можно было найти, перемещаясь внутри дерева категорий, каждый файл должен непосредственно включаться в хотя бы одну категорию. Каждая категория, в свою очередь, должна быть помещена в более общие категории, образуя иерархическую структуру с единственным, общим для всех категорий, корнем.

Отличие категоризации викисклада от категоризации википедии — в относительно свободном, часто хаотичном, мало регулируемом развитии. Структура дерева категорий жёстко задана лишь на самом верхнем уровне; на нижних этажах царят «произвол» и «самодеятельность» немногочисленных участников, поддерживающих категоризацию «своих» уголков викисклада. Они не в состоянии вручную категоризовать массу файлов, загружаемых на склад день за днём; за них это делают боты, которые обычно ошибаются. Привычный для википедии механизм поиска консенсуса работает плохо из-за малочисленности постоянных участников. Правил категоризации не существует; единственное утверждённое руководство по категоризации(англ.) рассматривает лишь некоторые её аспекты, а предлагавшиеся проекты руководств по именованию категорий(англ.), по географической категоризации(англ.), по перенаправлениям в пространстве категорий(англ.) не приняты и не действуют.

Общие требования edit

Каждый файл должен быть включен, как минимум (а) в одну из категорий по лицензионному статусу и (б) в одну из категорий дерева тематической категоризации. Файлы с неизвестным лицензионным статусом удаляются через семь суток после их выявления. Файлы, не включенные в дерево тематической категоризации, складываются роботом в служебное подпространство Category:Media needing categories. Файлы из этого подпространства, которые робот «смог» пристроить в тематические категории, перемещаются в подпространство Category:Media needing category review.

Каждая категория (кроме общего корня) должна быть включена как минимум в одну вышестоящую категорию. Периодически обновляемый список некатегоризованных категорий расположен по адресу special:UncategorizedCategories. По техническим ограничениям этот список не может отображать более 5 тысяч категорий; по состоянию на 10 декабря 2013 года в списке было всего 1082 категории.

Категория не может быть включена сама в себя ни непосредственно, ни через цепочку промежуточных категорий. Нерегулярно обновляемый список короткозамкнутых категорий расположен по адресу commons:Database reports/Self-categorized categories. По состоянию на 23 октября 2013 года в нём было всего 50 категорий.

Дерево категорий edit

В корневой категории category:CommonsRoot размещены семь категорий первого уровня:

  • category:Topics — дерево тематической категоризации. Каждый файл должен быть включен хотя бы в одну категорию этого дерева. Тематические категории следует прописывать непосредственно в странице описания файла, а подстановки категорий шаблонами следует избегать.
  • category:Copyright statuses — дерево классификации файлов по лицензионному статусу. Каждый файл должен быть включен в одну из категорий этого дерева через простановку шаблона лицензии.
  • category:Image sources — дерево категоризации файлов по источникам (книги, коллекции, сайты, etc.). Обычно такие категории добавляются через шаблоны, например, из пространства шаблонов Institution
  • category:Media types — дерево категоризации файлов по типу (формату) контента: видеофильмы, звукозаписи, файлы в формате PDF и т.п. Для изображений эта категоризация обычно опускается.
  • category:Commons — служебная область викисклада. Здесь размещаются тексты правил и руководств, форумы, запросы к администраторам, а также категории проблемных файлов (файлы с неясным лицензионным статусом, файлы без тематической категоризации и т.п.).
  • category:Commons users — пространство страниц и категорий участников викисклада. Помимо обычных личных страниц, участники вправе создавать персональные галереи изображений, шаблоны и категории («файлы, загруженные участником...»). Такие категории должны включаться непосредственно в Category:User categories, и никуда более; подкатегории персональной категории включаются в персональную категорию, и никуда более. Личные страницы, галереи и шаблоны могут включаться в подкатегории Category:Commons users и не должны включаться в пространство тематической категоризации.
  • category:Categories — обобщает существующие типовые критерии категоризации: по месту, по времени, по цвету, по автору и т.п.

Деревья category:Topics, category:Image sources, category:Media types не изолированы друг от друга, но переплетаются. Например, категория category:Audio files of Russia (звукозаписи из России) относится одновременно к категоризации по формату контента: category:Media typescategory:Audio filescategory:Audio files by countrycategory:Audio files of Russia, и к тематической категоризации по стране происхождения: category:Topicscategory:Placescategory:Countriescategory:Russiacategory:Audio files of Russia.

Дерево category:Commons users является с одной стороны категорией верхнего уровня, непросредственно вложенной в category:CommonsRoot, а с другой — оно вложено в category:Topics через длинную цепочку связей: category:Topics → ... → category:United States → ... → category:Organizations of the United States → ... → category:Wikimedia Foundation → ... → category:Commons users

Имена категорий edit

Язык и алфавит edit

Согласно языковой политике, названия категорий даются на английском языке, как правило, следуя естественному порядку слов английского языка. Исключение из системы, закреплённое на уровне правила - категории биологических таксонов. Они именуются по латыни, даже если в английском языке есть точные эквиваленты, например: category:Ursus arctos («бурый медведь»), но не category:Brown bear. Долгое время считалось, что категории «животных в искусстве» могут обойтись без латыни, однако в 2013 году чисто-английское category:Bear in art — «[бурый] медведь в искусстве» была заменена на англо-латынь category:Ursus arctos in art. Материнская category:Bears in art («медведи (вообще) в искусстве») осталась неизменной.

Выбор британского или американского варианта английского языка правилами викисклада не регулируется, что часто приводит к непоследовательности: например, родительская category:Gasoline («бензин») названа словом американского английского, а вложенная в неё category:Petrol stations‎ («автозаправочные станции») — словом британского английского. Двумя этажами ниже «национальные» подкатегории обычно именуются по-британски, например, category:Petrol stations in China‎ («автозаправочные станции в Китае»), но для США используется американский вариант: category:Gas stations in the United States‎[1]. Обычно такая непоследовательность считается нормой, «исправлять» её без предварительного обсуждения не следует.

Иноязычные имена собственные и понятия, не имеющие однозначного эквивалента в английском языке, пишутся латиницей (использование кириллицы, катаканы и иных систем письма в именах категорий недопустимо):

(a) Имена собственные и понятия языков, использующих латиницу — в оригинальном написании с диакритическими знаками, например, category:São Paulo (Сан-Паулу, с португальского)
(б) Имена собственные и понятия языков, использующие иные системы письма — в практической транскрипции на английский язык, например, category:Shchyolkovo (Щёлково, с русского).

Во всех случаях, когда в английском языке сложилось устойчивое написание русского имени, следует использовать именно его, а не транскрипцию: category:Moscow (город Москва), но не category:Moskva (однако правильно category:Moskva River — река Москва). Русские слова могут быть транскрибированы несколькими методами(англ.); правила викисклада этот выбор не регламентируют. Рекомендуется следовать нормам транскрипции, принятым в английской википедии(англ.) (упрощённый, адаптированный под английский язык вариант транскрипции BGN/PCGN(англ.)).

Синтаксис имён edit

Имена категорий, называемых именами собственными (люди, страны, города...) даются в естественном порядке слов английского языка: category:Anton Pavlovich Chekhov (Антон Павлович Чехов). Включение или невключение отчеств, вторых и третьих имён и т.п. не регламентируется.

Имена категорий, называемых абстрактными понятиями, всегда даются в единственном числе: category:Music (музыка) и её составные части category:Music of Russia (музыка России), category:Music in the 18th century (музыка XVIII века) и т.п.

Имена категорий, предназначенных для множества однородных объектов, всегда даются в множественном числе: category:Apples (яблоки), category:Cities (города), category:Children (дети).

Имена категорий, объединяющих все объекты данного типа без подразделения на подкатегории («категории по именам») должны следовать формату «by name» (а не «by alphabet»). Правильно: category:Ships by name (корабли по именам), category:People by name (люди по именам); неправильно: category:People by alphabet. Формат «by alphabet» зарезервирован для классификации документов (надписей, книг) по типу письменности (латинский алфавит, кириллица, арабское письмо и т.д.).

Типовые конструкции edit

Типовые классификаторы категорий, имена которых должны следовать типовым конструкциям, сведены в дерево категорий category:Categories. Важнейшие из этих конструкций:

  • ...by artist (также ...by author, ...by sculptor и т.п.) — классификация по автору;
  • ...by location — по местонахождению. Внутри этой ветви категории классифицируются по предметам изображений, например, category:Buildings by location‎ («здания по местонахождению»), и по типу географической локации:
    • ...by continent — по континентам;
      • ...by country — по странам (государствам);
        • ...by country subdivisions — по административным подразделениям государств;
          • ...by city — по городам. Использовать существующие недонаселённые категории ...by town и ...by village не рекомендуется; английское city в целях категоризации трактуется как населённый пункт любого типа и размера;
    • ...by region — по регионам (как наднациональным, так и локальным, а также по историческим областям). Соотношение между этими регионами и деревом «официальной» административно-территориальной структуры не регулируется;
    • ...by museum и ...by zoo — по музеям и по зоопаркам (для их экспонатов). По той же модели создаются и категории «по железнодорожным линиям и станциям» (пример) и т.п., но в настоящий момент эти ветви категоризации не подключены к верхнему уровню category:Categories;
  • ...by time — по времени (по датировке). Внутри этой ветви располагаются:
    • ...by millennium‎ — по тысячелетиям;
    • ...by month‎ — по месяцам (не месяцам конкретных лет, а месяцам «вообще», например, Category:July in Portugal — «июль в Португалии»)
    • ...by date — по календарным датам (в настоящее время категория наполняется хаотично, консенсусной трактовки её смысла не выработано)
    • ...by period‎ — по историческим и геологическим периодам, например Category:Medieval buildings («постройки средних веков»), Category:Devonian animals («фауна девонского периода»);
  • Категоризация по облику:
    • ...by color (именно так, в американском написании) — по цвету изображённого предмета;
    • ...by shape — по форме;
    • ...by style — по [художественному] стилю;
    • ...by alphabet — по использованному алфавиту (системе письма);
    • ...by number — по числу изображённых предметов, или по изображённой цифре.
  • ...by file format — по формату файла;
  • ...by material — по материалу, из которого изготовлен изображённый предмет;
  • ...by medium — по типу и форме носителя информации, по материалу художественного произведения.

Все перечисленные категории и их подкатегории, содержащие в своих названиях суффиксы типовых конструкций, являются мета-категориями: они могут содержать только категории и не могут содержать файлы. Так, фотография яблока может быть включена в category:Green apples («зелёные яблоки»), но не может быть включена в category:Apples by color («яблоки по цвету»).

Тематическая категоризация edit

Файлы edit

 
Что?яблоки на красной скатерти;
Когда?1917 год;
Кто?Кузьма Сергеевич Петров-Водкин;
Род искусства?живопись;
Жанр?натюрморт;
Место хранения?Государственный русский музей.

Содержимое файла (изображение, звукозапись, видеофильм) может быть описано с разных сторон. Важнейшим из признаков файла, который следует обязательно отразить при категоризации, является его основной предмет: кто изображён или что изображено на фотографии? что снято на киноплёнку, что содержится в звукозаписи? Желательно, чтобы категоризация также отвечала и на другие вопросы:

  • когда создан файл? Это свойство важно для исторических свидетельств;
  • где он создан? Это свойство наиболее важно для пейзажей, изображений рукотворных памятников и природных ландшафтов;
  • кто его создал? Это свойство наиболее важно для произведений искусства, авторы которых достоверно известны.
  • как создан файл и (или) его основной предмет: какими средствами, в какой манере, из каких материалов и по какой технологии? Под каким углом зрения изображён основной предмет? В каком формате (стерео или моно) выполнена звукозапись? В рамках этого куста вопросов возможны различные, часто параллельные и независимые друг от друга свойства.

В зависимости от содержания и формата файла, оптимальный набор тематических категорий может различаться. Многие категории нижнего уровня отвечают одновременно на исчерпывающий набор вопросов: например, категория Category:The Night Watch («Ночной дозор» Рембрандта) уже включена в категории по автору, по году создания, по жанру картины и по её художественному стилю, по роду занятия изображённых и по нынешнему месту хранения оригинала. Другие отвечают лишь на один (category:Panoramics — панорамные фотографии) или два вопроса (Category:1945 in Berlin — Берлин в 1945 году). В последнем примере сочетание времени и места может трактоваться и как основной предмет изображения.

Категоризация по времени создания и автору файла не отменяет и не заменяет заполнение полей источник (Source= ), автор (Author= ) и дата (Date= ) при загрузке файла. Файлы, в которых эти поля не заполнены или заполнены некорректно, будут рано или поздно удалены.

Страницы и категории edit

Составные объекты — категории и страницы (галереи изображений) — включаются в вышестоящие категории исходя из предназначений объектов, заявленных в их названиях. Ориентироваться на текущее содержимое объекта (набор файлов в категории или в галерее) нельзя: оно может не отражать его сущности как из-за неполноты набора, так и из-за ошибок при разноске файлов в категории. Например, текущее содержимое Category:Apples (яблоки) может включать исключительно фотографии зелёных яблок. Значит ли это, что Category:Apples должна входить в Category:Green (зелёный цвет)? Нет, ведь заведомо известно, что не все яблоки зелёные; нынешняя неполнота категории — явление временное. Однако, если фотографий зелёных яблок достаточно много, то их целесообразно выделить в отдельную подкатегорию (Category:Green apples).

Избыточная категоризация edit

Общее правило тематической категоризации сводится к тому, что объект (файл, страницу или категорию) следует включать в категорию низшего уровня, наиболее точно соответствующую данному объекту. Чёрно-белые фотографии Эйфелевой башни следует включать только в предназначенную для них категорию, но не в категорию города Парижа; фотографии зелёных яблок — в Category:Green apples, но не в вышестоящие Category:Apples by color (яблоки по цвету) или Category:Apples (все яблоки). Включение отдельных файлов в Category:Apples by color неуместно потому, что эта категория является мета-категорией: она может включать только подкатегории по отдельным цветам, но не отдельные файлы. Включение отдельных файлов в Category:Apples быстро переполнило бы её до размеров, при которых навигация внутри категории практически невозможна.

Избыточной категоризацией (overcategorization) называется включение объекта одновременно в несколько уровней одной и той же ветви дерева категорий (например, в Category:Green apples и Category:Apples одновременно. Избыточность может казаться полезной, но это не так. Во-первых, как уже сказано, она усложняет навигацию по категориям верхнего уровня. Во-вторых, она порождает преграду между пользователями и категориями нижних уровней. Пользователь, обнаруживший в category:Apples единственное фото зелёного яблока, может решить, что это единственное подобное фото на складе — и не попытается заглянуть вглубь дерева вложенных категорий, где и лежит основная масса «зелёных яблок». Чтобы этого не происходило следует, во-первых, избегать избыточной категоризации, а во-вторых — регулярно разносить файлы из категорий верхних уровней на нижние.

Избыточная категоризация может быть оправдана в редких случаях, когда изображение достаточно хорошо иллюстрирует и объект верхнего уровня (например, улицу), и вложенный в него объект нижнего уровня (отдельное здание, выделенное в собственную категорию).

Категоризация «по именам» edit

Большие, густонаселённые категории рано или поздно делятся на подкатегории: люди - по профессиям, города - по областям, улицы - по городским районам и так далее. Это усложняет поиск нужных файлов: с развитием дерева категорий они перемещаются всё дальше и дальше от его корня. Например, когда количество подкатегорий в составе category:Streets in Saint Petersburg (улицы Санкт-Петербурга) превысило 700, категория была разделена на подкатегории «по районам». После этого для того, чтобы выйти на нужную улицу, нужно было либо точно знать район, в котором проходит улица, либо перебирать наугад все районы. «Выйти из положения», продублировав категории улиц в материнской category:Streets in Saint Petersburg, нельзя: избыточная категоризация недопустима. Решение: создать внутри category:Streets in Saint Petersburg подкатегорию category:Streets in Saint Petersburg by name (улицы Санкт-Петербурга по имени) и включить в неё все категории индивидуальных улиц.

Все подобные категории «по именам» объединяются в особое дерево тематических категорий category:Categories by name. Важнейшей составляющей этой категории является category:People by name (люди по именам), в конце 2013 года включающая более 192 тысяч подкатегорий-персоналий. Каждая категория об уникальном человека должна включаться в category:People by name. Аналогичное правило применимо и ко всем категориям «по именам»: в каждую из них должны включаться все объекты заявленного класса.

Категоризация «по облику» edit

 
Что?Зелёное яблоко
На каком фоне?на красном

Википедия, её участники и читатели - важный, но не единственный коллективный пользователь викисклада. Викисклад - хранилище медиафайлов, «которое предоставляет образовательные медиа‐материалы, не охраняемые по законам об авторских правах, либо распространяемые на условиях свободных лицензий, всем». В число этих всех входят, например, веб-дизайнеры, бильд-редакторы, рекламные агенты (файлы, размещённые на складе, должны допускать коммерческое использование). Запросы этих пользователей существенно отличаются от запросов редакторов википедии: вместо «просто яблока», или вместо яблока конкретного сорта бильд-редактор может искать фото зелёного яблока на красном фоне. Поэтому тематическая категоризация, помимо очевидных вопросов (что, где, когда ...) отвечает ещё и на вопросы о том, «как это выглядит».

Так в составе категории чёрно-белых фотографий (Category:Black and white photographs) выделилась сначала категория чёрно-белых фотографий женщин (Category:Black and white photographs of females), а затем внутри неё — чёрно-белых фотографий женщин в корсетах (Category:Black and white photographs of women in corset), чёрно-белых фотографий улыбающихся женщин (Category:Black and white photographs of smiling women) и так далее. Категория зелёных яблок на красном фоне ещё не создана, но этажом выше существуют категории фруктов на белом (Category:Fruits on white background) и на чёрном (Category:Fruit on black background) фоне, а также категории орнаментов из яблок (Category:Apple textures), груш (Category:Pear textures) и так далее. Эта классификация «по визуальному облику» существует параллельно с основной тематической категоризацией; она дополняет её и обычно не порождает избыточности. Количество редакторов викисклада, активно поддерживающих и развивающих параллельную категоризацию, относительно невелико, поэтому ею охвачена лишь малая часть файлов.

Волшебные слова и полезные шаблоны edit

Сортировка объектов внутри категории edit

По умолчанию, подкатегории, страницы и файлы, вложенные в категорию, сортируются в алфавитном порядке (раздельно в каждом из трёх классов). Изменить порядок сортировки на уровне категории нельзя, но можно изменить порядок сортировки отдельно взятого объекта, включенного в категорию. Для этого существует два механизма:

Оператор DEFAULTSORT замещает ключ сортировки по умолчанию новым значением. Новое значение применяется для всех категорий, следующих за оператором DEFAULTSORT, но не влияет на категории, предшествующие оператору. Типичный случай применения - категории-персоналии с естественным порядком слов (Имя Фамилия), сортируемые в обратном порядке (Фамилия Имя). Оператор и следующий за ним через двоеточие ключ сортировки заключаются в двойные фигурные скобки:

{{DEFAULTSORT:Tolstoy, Lev Nikolayevich}}

Локальная замена ключа сортировки действует только в пределах одной категории. Пример (категория Category:Museums in Kazan - музеи Казани): внутри Category:Kazan подкатегория будет отображена под литерой M (Museums...), внутри Category:Museums in Russia by city - под литерой K (Kazan):

[[Category:Kazan]]
[[Category:Museums in Russia by city|Kazan]]

Скрытые категории edit

Включение в вики-текст категории оператора __HIDDENCAT__ (или включение в викитекст категории шаблона, содержащего этот оператор) делает категорию скрытой. Такая категория:

  • Отображается в составе родительских категорий в обычном порядке;
  • Отображается в подвалах дочерних категорий отдельной строкой (ниже обычных категорий), мелким шрифтом;
  • Отображается в подвалах включеных в неё файлов и страниц - только для зарегистрированных пользователей, не отключивших опцию отображения в личных настройках (в настройках по умолчанию она включена);
  • Автоматически включается в реестр скрытых категорий category:Hidden categories. В декабре 2013 года в реестре числилось более 114 тысяч категорий.

Механизм скрытых категорий обычно применяется для не-тематических подпространств, например, категорий лицензионных статусов, категорий по участникам викисклада, по использованной фототехнике и т.п., а также категорий разрешения неоднозначностей. Обычно файлы включаются в скрытые категории косвенным образом, через шаблоны: например, шаблон {{PD-old-100}} включает файл в категорию category:Author died more than 100 years ago public domain images.

Категории разрешения неоднозначностей edit

Механизм разрешения неоднозначностей через создание специальных страниц (дизамбигов) в викискладе не получил распространения. Так как основным источником неоднозначностей служат не страницы, а категории, то и разрешаются эти неоднозначности механизмом категорий. Например, в декабре 2013 года в викискладе есть четыре категории-персоналии четырёх разных Адамов Смитов: конгрессмена, двух футболистов и того самого, которого читал Евгений Онегин. Для навигации между ними создана категория-дизамбиг category:Adam Smith, содержащая обычный список ссылок на трёх разных Адамов Смитов, и помеченная шаблоном {{Disambig}}. Этот шаблон:

  • Объявляет категорию скрытой;
  • Размещает на странице категории панель ссылок на сервисы поиска "других Адамов Смитов";
  • Включает категорию в служебное пространство неоднозначностей ;
  • Если в категорию включен хотя бы один элемент (подкатегория, файл, страница), то категория автоматически включается в реестр непустых перенаправлений category:Non-empty disambiguation categories. Такие категории считаются проблемными (категория-дизамбиг должна быть пустой) и расчищаются вручную.

На декабрь 2013 года в викискладе было менее 4 тысяч категорий разрешения неоднозначностей, из них 10% числились непустыми. Действительное количество непустых дизамбигов несколько меньше из-за системной ошибки формирования и подсчёта содержимого category:Non-empty disambiguation categories.

Категории-перенаправления edit

В пространстве категорий, также как и в пространстве статей, работает механизм жёсткого перенаправления через оператор #REDIRECT. Например, викитекст не соответствующей правилу, но разумно ожидаемой категории category:Москва может содержать единственную строку, перенаправляющую на корректно названную категорию:

#REDIRECT [[Category:Moscow]]

Жёсткие редиректы в течение многих лет вызывают обоснованное недовольство (см. критическое эссе 2008 года(англ.) и проект нового правила 2013 года(англ.)). Основной аргумент критиков — в том, что перенаправления упрощают навигацию, но не влияют на отображение файлов. Файл, ошибочно включенный в категорию-перенаправление, будет отображаться только там, но не в «правильной» категории. При этом само существование перенаправления увеличивает вероятность ошибки: синие ссылки на редиректы обманывают и участников-людей, и ботов. Поэтому предпочтителен механизм мягкого перенаправления через шаблон {{Category redirect}} и его узкоспециализированные версии, перечисленные на странице описания(англ.). Например, в category:Москва викитекст содержит единственную строку:

{{category redirect|Moscow}}

Все категории, помеченные {{Category redirect}}, автоматически включаются в общий реестр category:Category redirects (91 тысяч категорий в декабре 2013). Перенаправления в никуда и короткозамкнутые петли автоматически включаются в Category:Broken category redirects, а непустые категории-перенаправления — в category:Non-empty category redirects, где их регулярно обрабатывает user:RussBot.

Примечания edit

  1. По состоянию на декабрь 2013, та же американская модель применялась для category:Gas stations in the Philippines и category:Gas stations in Hungary. Эти категории созданы в 2013, относительно мало населены, и, скорее всего, их имена не отражают сложившегося консенсуса.